Sabiá 4 Thinking
O modelo de raciocínio da família Sabiá: qualidade de fronteira em português pelo menor custo da categoria, com ganhos expressivos sobre o Sabiá 4 em uso de ferramentas, jurídico e qualidade das respostas.
O Sabiá 4 Thinking é o modelo de raciocínio da família Sabiá. Ele alcança qualidade de fronteira em português e contextos brasileiros pelo menor custo entre os modelos avaliados. E melhora de forma expressiva sobre o Sabiá 4 — principalmente em uso de ferramentas, tarefas jurídicas e qualidade das respostas.
No Sabiá 4 Thinking, rodar a suíte inteira de benchmarks custa menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8.
Avaliação em benchmarks
Avaliamos o Sabiá 4 Thinking contra os principais modelos de fronteira — Gemini 3.1 Pro, GPT-5.4 e Opus 4.8 — em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Na média geral ele fica cerca de dois pontos atrás do topo (90,8% contra 92,4% a 92,8%), e no domínio jurídico ele lidera.
| Categoria | Sabiá 4 Thinking | Gemini 3.1 Pro (medium) | GPT-5.4 (medium) | Opus 4.8 (medium) |
|---|---|---|---|---|
| Custo total para rodar · R$ | R$206 | R$281 | R$449 | R$590 |
| Chamada de função / Agentes · Pix, Ticket, MARCA | 94% | 94,9% | 97,1% | 95,1% |
| Jurídico · OAB (juiz), redação, extração | 86,7% | 86,1% | 86,7% | 86,4% |
| Geral · BLUEX, ENAMED, POSCOMP, PoETa v2, Sotaques | 91,3% | 94,6% | 93,8% | 94,7% |
| Média geral | 90,8% | 92,4% | 92,8% | 92,5% |
A tabela abaixo abre cada categoria nos benchmarks que a compõem. Em negrito, o melhor de cada linha.
Médias simples por categoria (acurácia % por benchmark). Custos em R$ — valores de GPT, Opus e Gemini convertidos a R$5,14/US$ (cotação de 19/06).
O que melhorou em relação ao Sabiá 4
O Sabiá 4 Thinking pensa antes de responder, e esse passo extra rende ganhos principalmente em três frentes.
Agentes é onde o avanço é maior. O modelo encadeia chamadas de ferramentas com mais consistência: escolhe a ferramenta certa, acompanha o que já fez e erra menos em tarefas de várias etapas — como operar um sistema, fazer uma busca na web ou completar uma compra.
No jurídico, julga peças e questões com mais critério e escreve peças mais bem fundamentadas.
E, em conversa, as respostas tendem a ser mais completas e melhor organizadas.
No exemplo abaixo, o Sabiá 4 Thinking recebe um orçamento de workstation, busca na web o consumo real de cada peça e percebe que a fonte está subdimensionada:
Pode analisar esta proposta?
Pensou e consultou a web
techpowerup.comnvidia.comamd.com| Componente | Consumo (pico) |
|---|---|
| 2× NVIDIA RTX 5090 | 2 × 575 W = 1.150 W |
| AMD Ryzen 9 9950X | ~230 W |
| RAM, placa-mãe, SSDs e ventoinhas | ~135 W |
| Pico total estimado | ≈ 1.515 W |
| Fonte cotada | 1.200 W |
A fonte de 1.200 W está subdimensionada. Só as duas RTX 5090 já puxam 1.150 W — e a NVIDIA recomenda 1.000 W para uma única placa. Com o processador e o resto, o pico chega a ≈ 1.515 W. O recomendado é uma fonte de pelo menos 1.600 W — idealmente 2.000 W para ter folga.
Exemplo ilustrativo. O Sabiá 4 Thinking lê o PDF, busca o consumo oficial de cada peça e soma — encontrando um problema de dimensionamento que pode passar despercebido.
Sobre os benchmarks
Avaliamos o Sabiá 4 Thinking em onze benchmarks, agrupados em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Abaixo, o que cada um mede.
Pix-Bench
Interno · PT · turno único · pass@1
Pix-Bench avalia a capacidade dos modelos de auxiliar em tarefas financeiras cotidianas, como pagar uma conta ou fazer um Pix para outra pessoa. Assumindo o papel de assistente de uma plataforma bancária, o modelo precisa interpretar o pedido do usuário, identificar sozinho o contato ou a conta corretos e chamar as funções necessárias para executar a ação. Erros de identificação ou de parâmetro fazem a tarefa falhar, então o benchmark mede precisão de ponta a ponta, não apenas a intenção.
Ticket-Bench
Ticket-Bench avalia a capacidade dos modelos de operar uma plataforma de compra de ingressos. O ambiente fornece informações sobre o usuário e ferramentas para buscar eventos, escolher assentos e finalizar a compra; o modelo precisa encadear essas chamadas corretamente ao longo de uma conversa de múltiplos turnos. É um benchmark multilíngue, e aqui reportamos a execução em português, medindo a taxa de sucesso na compra completa (pass@1).
MARCA (MAritaca Research Checklist evAluation)
MARCA avalia a capacidade dos modelos de encontrar informação navegando na web, com foco em perguntas que exigem busca em largura — isto é, que envolvem coletar e sintetizar informação de múltiplas fontes para produzir um relatório listando várias entidades. Cada pergunta é acompanhada de um checklist, utilizado por um modelo-juiz (GPT-4.1) para medir a completude e a corretude da resposta.
OAB (juiz)
Interno
Neste benchmark o modelo atua como juiz: ele pontua peças e questões da segunda fase do Exame da OAB, e a métrica é a concordância da nota atribuída pelo modelo com a do examinador humano. É uma forma de medir o quanto o modelo domina os critérios de avaliação jurídica — não se ele próprio escreve bem, mas se julga como um avaliador experiente julgaria.
Redação jurídica
Interno
Aqui o modelo redige peças jurídicas: petições iniciais, contestações e sentenças. A qualidade de cada peça é julgada por um LLM (GPT-5.4) que compara a resposta a uma referência, avaliando estrutura, fundamentação e adequação ao que foi pedido. É o benchmark em que o Sabiá 4 Thinking lidera entre os modelos avaliados.
Extração de processos
Interno
Mede a capacidade de extrair campos estruturados de processos judiciais reais — partes, pedidos, valores, datas e demais metadados relevantes. A avaliação é feita por rubrica, comparando os campos extraídos com uma anotação de referência. É uma tarefa central para automatizar a triagem e a organização de acervos jurídicos.
BLUEX
BLUEX reúne questões dos vestibulares da USP e da UNICAMP, cobrindo todas as áreas do ensino médio brasileiro. São questões de múltipla escolha, com a resposta do modelo conferida por um modelo-juiz (Sabiazinho-4). Por usar provas brasileiras recentes, é um teste de conhecimento geral ancorado no nosso currículo.
ENAMED
Paper na PROPOR 2026 · huggingface.co/datasets/recogna-nlp/enamed-2025
ENAMED é baseado no Exame Nacional de Avaliação da Formação Médica (INEP), aplicado a estudantes concluintes de medicina. São questões de múltipla escolha corrigidas por correspondência exata (exact match), testando conhecimento médico em português — um domínio em que erros têm custo alto e a precisão importa.
POSCOMP
POSCOMP é o Exame Nacional para Ingresso na Pós-Graduação em Computação, organizado pela Sociedade Brasileira de Computação (SBC). Cobre fundamentos da computação, matemática e tecnologia, em questões de múltipla escolha corrigidas por correspondência exata. Exige raciocínio técnico e quantitativo, não apenas memorização.
PoETa v2
PoETa v2 é uma suíte ampla de avaliação de português, com 44 tarefas — 12 nativas em português e 32 traduzidas do inglês — cobrindo classificação, compreensão de texto e raciocínio. Por reunir tarefas tão diversas, mede a robustez do modelo de forma agregada; a pontuação é reportada na métrica NPM, com dez execuções por tarefa.
Sotaques Digitais
Sotaques Digitais avalia o entendimento do português do dia a dia: ironia, expressões idiomáticas e regionalismos, no tipo de texto que circula em redes sociais e no WhatsApp. São 90 cenários de geração aberta, com a resposta avaliada por um modelo-juiz (GPT-5.4) em uma escala de 1 a 5. É o benchmark mais próximo de como os brasileiros realmente escrevem.
Custo
Comparamos o custo de rodar a suíte inteira, não o preço de tabela por token — porque o número de tokens de raciocínio gerados por tarefa também pesa. Mesmo assim, rodar a suíte completa no Sabiá 4 Thinking custa menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8. Qualidade de fronteira em português não precisa vir com custo de fronteira.
Disponibilidade
O Sabiá 4 Thinking já está disponível via API. A documentação está em docs.maritaca.ai, e você pode conversar com os modelos da família Sabiá em chat.maritaca.ai.