Todos os posts
·6 min

Sabiá 4 Thinking

O modelo de raciocínio da família Sabiá: qualidade de fronteira em português pelo menor custo da categoria, com ganhos expressivos sobre o Sabiá 4 em uso de ferramentas, jurídico e qualidade das respostas.

O Sabiá 4 Thinking é o modelo de raciocínio da família Sabiá. Ele alcança qualidade de fronteira em português e contextos brasileiros pelo menor custo entre os modelos avaliados. E melhora de forma expressiva sobre o Sabiá 4 — principalmente em uso de ferramentas, tarefas jurídicas e qualidade das respostas.

No Sabiá 4 Thinking, rodar a suíte inteira de benchmarks custa menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8.

Avaliação em benchmarks

Avaliamos o Sabiá 4 Thinking contra os principais modelos de fronteira — Gemini 3.1 Pro, GPT-5.4 e Opus 4.8 — em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Na média geral ele fica cerca de dois pontos atrás do topo (90,8% contra 92,4% a 92,8%), e no domínio jurídico ele lidera.

CategoriaSabiá 4
Thinking
Gemini 3.1
Pro (medium)
GPT-5.4
(medium)
Opus 4.8
(medium)
Custo total para rodar · R$R$206R$281R$449R$590
Chamada de função / Agentes · Pix, Ticket, MARCA94%94,9%97,1%95,1%
Jurídico · OAB (juiz), redação, extração86,7%86,1%86,7%86,4%
Geral · BLUEX, ENAMED, POSCOMP, PoETa v2, Sotaques91,3%94,6%93,8%94,7%
Média geral90,8%92,4%92,8%92,5%

A tabela abaixo abre cada categoria nos benchmarks que a compõem. Em negrito, o melhor de cada linha.

BenchmarkSabiá 4
Thinking
Gemini 3.1
Pro (medium)
GPT-5.4
(medium)
Opus 4.8
(medium)
Chamada de função / Agentes
Pix-Bench · interno100%100%100%97%
Ticket-Bench · público98%100%98%96,7%
MARCA · público83,9%84,8%93,2%91,5%
Jurídico
OAB (juiz) · interno90,1%91,1%91,6%90,1%
Redação jurídica · interno77,7%75,9%72,8%74,8%
Extração de processos · interno92,3%91,4%95,7%94,3%
Geral
BLUEX · público93%96,8%95,7%95,4%
ENAMED · público94,4%98,9%97,8%97,8%
POSCOMP · público90,8%94,6%94,6%96,2%
PoETa v2 · público83,7%85%83,3%86,3%
Sotaques Digitais · público94,6%97,6%97,8%97,8%

Médias simples por categoria (acurácia % por benchmark). Custos em R$ — valores de GPT, Opus e Gemini convertidos a R$5,14/US$ (cotação de 19/06).

O que melhorou em relação ao Sabiá 4

O Sabiá 4 Thinking pensa antes de responder, e esse passo extra rende ganhos principalmente em três frentes.

Agentes é onde o avanço é maior. O modelo encadeia chamadas de ferramentas com mais consistência: escolhe a ferramenta certa, acompanha o que já fez e erra menos em tarefas de várias etapas — como operar um sistema, fazer uma busca na web ou completar uma compra.

No jurídico, julga peças e questões com mais critério e escreve peças mais bem fundamentadas.

E, em conversa, as respostas tendem a ser mais completas e melhor organizadas.

No exemplo abaixo, o Sabiá 4 Thinking recebe um orçamento de workstation, busca na web o consumo real de cada peça e percebe que a fonte está subdimensionada:

Pergunta · orçamento em PDF
PDForcamento-workstation.pdf

Pode analisar esta proposta?

Sabiá 4 Thinking

Pensou e consultou a web

techpowerup.comnvidia.comamd.com
ComponenteConsumo (pico)
2× NVIDIA RTX 50902 × 575 W = 1.150 W
AMD Ryzen 9 9950X~230 W
RAM, placa-mãe, SSDs e ventoinhas~135 W
Pico total estimado≈ 1.515 W
Fonte cotada1.200 W

A fonte de 1.200 W está subdimensionada. Só as duas RTX 5090 já puxam 1.150 W — e a NVIDIA recomenda 1.000 W para uma única placa. Com o processador e o resto, o pico chega a ≈ 1.515 W. O recomendado é uma fonte de pelo menos 1.600 W — idealmente 2.000 W para ter folga.

Exemplo ilustrativo. O Sabiá 4 Thinking lê o PDF, busca o consumo oficial de cada peça e soma — encontrando um problema de dimensionamento que pode passar despercebido.

Sobre os benchmarks

Avaliamos o Sabiá 4 Thinking em onze benchmarks, agrupados em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Abaixo, o que cada um mede.

Pix-Bench

Interno · PT · turno único · pass@1

Pix-Bench avalia a capacidade dos modelos de auxiliar em tarefas financeiras cotidianas, como pagar uma conta ou fazer um Pix para outra pessoa. Assumindo o papel de assistente de uma plataforma bancária, o modelo precisa interpretar o pedido do usuário, identificar sozinho o contato ou a conta corretos e chamar as funções necessárias para executar a ação. Erros de identificação ou de parâmetro fazem a tarefa falhar, então o benchmark mede precisão de ponta a ponta, não apenas a intenção.

Ticket-Bench

arxiv.org/abs/2509.14477

Ticket-Bench avalia a capacidade dos modelos de operar uma plataforma de compra de ingressos. O ambiente fornece informações sobre o usuário e ferramentas para buscar eventos, escolher assentos e finalizar a compra; o modelo precisa encadear essas chamadas corretamente ao longo de uma conversa de múltiplos turnos. É um benchmark multilíngue, e aqui reportamos a execução em português, medindo a taxa de sucesso na compra completa (pass@1).

MARCA (MAritaca Research Checklist evAluation)

github.com/maritaca-ai/MARCA

MARCA avalia a capacidade dos modelos de encontrar informação navegando na web, com foco em perguntas que exigem busca em largura — isto é, que envolvem coletar e sintetizar informação de múltiplas fontes para produzir um relatório listando várias entidades. Cada pergunta é acompanhada de um checklist, utilizado por um modelo-juiz (GPT-4.1) para medir a completude e a corretude da resposta.

OAB (juiz)

Interno

Neste benchmark o modelo atua como juiz: ele pontua peças e questões da segunda fase do Exame da OAB, e a métrica é a concordância da nota atribuída pelo modelo com a do examinador humano. É uma forma de medir o quanto o modelo domina os critérios de avaliação jurídica — não se ele próprio escreve bem, mas se julga como um avaliador experiente julgaria.

Redação jurídica

Interno

Aqui o modelo redige peças jurídicas: petições iniciais, contestações e sentenças. A qualidade de cada peça é julgada por um LLM (GPT-5.4) que compara a resposta a uma referência, avaliando estrutura, fundamentação e adequação ao que foi pedido. É o benchmark em que o Sabiá 4 Thinking lidera entre os modelos avaliados.

Extração de processos

Interno

Mede a capacidade de extrair campos estruturados de processos judiciais reais — partes, pedidos, valores, datas e demais metadados relevantes. A avaliação é feita por rubrica, comparando os campos extraídos com uma anotação de referência. É uma tarefa central para automatizar a triagem e a organização de acervos jurídicos.

BLUEX

arxiv.org/abs/2307.05410

BLUEX reúne questões dos vestibulares da USP e da UNICAMP, cobrindo todas as áreas do ensino médio brasileiro. São questões de múltipla escolha, com a resposta do modelo conferida por um modelo-juiz (Sabiazinho-4). Por usar provas brasileiras recentes, é um teste de conhecimento geral ancorado no nosso currículo.

ENAMED

Paper na PROPOR 2026 · huggingface.co/datasets/recogna-nlp/enamed-2025

ENAMED é baseado no Exame Nacional de Avaliação da Formação Médica (INEP), aplicado a estudantes concluintes de medicina. São questões de múltipla escolha corrigidas por correspondência exata (exact match), testando conhecimento médico em português — um domínio em que erros têm custo alto e a precisão importa.

POSCOMP

arxiv.org/abs/2511.17808

POSCOMP é o Exame Nacional para Ingresso na Pós-Graduação em Computação, organizado pela Sociedade Brasileira de Computação (SBC). Cobre fundamentos da computação, matemática e tecnologia, em questões de múltipla escolha corrigidas por correspondência exata. Exige raciocínio técnico e quantitativo, não apenas memorização.

PoETa v2

arxiv.org/abs/2511.17808

PoETa v2 é uma suíte ampla de avaliação de português, com 44 tarefas — 12 nativas em português e 32 traduzidas do inglês — cobrindo classificação, compreensão de texto e raciocínio. Por reunir tarefas tão diversas, mede a robustez do modelo de forma agregada; a pontuação é reportada na métrica NPM, com dez execuções por tarefa.

Sotaques Digitais

ramondomingos.com.br

Sotaques Digitais avalia o entendimento do português do dia a dia: ironia, expressões idiomáticas e regionalismos, no tipo de texto que circula em redes sociais e no WhatsApp. São 90 cenários de geração aberta, com a resposta avaliada por um modelo-juiz (GPT-5.4) em uma escala de 1 a 5. É o benchmark mais próximo de como os brasileiros realmente escrevem.

Custo

Comparamos o custo de rodar a suíte inteira, não o preço de tabela por token — porque o número de tokens de raciocínio gerados por tarefa também pesa. Mesmo assim, rodar a suíte completa no Sabiá 4 Thinking custa menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8. Qualidade de fronteira em português não precisa vir com custo de fronteira.

Disponibilidade

O Sabiá 4 Thinking já está disponível via API. A documentação está em docs.maritaca.ai, e você pode conversar com os modelos da família Sabiá em chat.maritaca.ai.