Sabiá 4 Thinking — Maritaca AI

O Sabiá 4 Thinking é o modelo de raciocínio da família Sabiá. Ele alcança qualidade de fronteira em português e contextos brasileiros pelo menor custo entre os modelos avaliados. E melhora de forma expressiva sobre o Sabiá 4 — principalmente em uso de ferramentas, tarefas jurídicas e qualidade das respostas.

No Sabiá 4 Thinking, rodar a suíte inteira de benchmarks custa menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8.

Avaliação em benchmarks

Avaliamos o Sabiá 4 Thinking contra os principais modelos de fronteira — Gemini 3.1 Pro, GPT-5.4 e Opus 4.8 — em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Na média geral ele fica cerca de dois pontos atrás do topo (90,8% contra 92,4% a 92,8%), e no domínio jurídico ele lidera.

Categoria	Sabiá 4 Thinking	Gemini 3.1 Pro (medium)	GPT-5.4 (medium)	Opus 4.8 (medium)
Custo total para rodar · R$	R$206	R$281	R$449	R$590
Chamada de função / Agentes · Pix, Ticket, MARCA	94%	94,9%	97,1%	95,1%
Jurídico · OAB (juiz), redação, extração	86,7%	86,1%	86,7%	86,4%
Geral · BLUEX, ENAMED, POSCOMP, PoETa v2, Sotaques	91,3%	94,6%	93,8%	94,7%
Média geral	90,8%	92,4%	92,8%	92,5%

A tabela abaixo abre cada categoria nos benchmarks que a compõem. Em negrito, o melhor de cada linha.

Benchmark	Sabiá 4 Thinking	Gemini 3.1 Pro (medium)	GPT-5.4 (medium)	Opus 4.8 (medium)
Chamada de função / Agentes
Pix-Bench · interno	100%	100%	100%	97%
Ticket-Bench · público	98%	100%	98%	96,7%
MARCA · público	83,9%	84,8%	93,2%	91,5%
Jurídico
OAB (juiz) · interno	90,1%	91,1%	91,6%	90,1%
Redação jurídica · interno	77,7%	75,9%	72,8%	74,8%
Extração de processos · interno	92,3%	91,4%	95,7%	94,3%
Geral
BLUEX · público	93%	96,8%	95,7%	95,4%
ENAMED · público	94,4%	98,9%	97,8%	97,8%
POSCOMP · público	90,8%	94,6%	94,6%	96,2%
PoETa v2 · público	83,7%	85%	83,3%	86,3%
Sotaques Digitais · público	94,6%	97,6%	97,8%	97,8%

Médias simples por categoria (acurácia % por benchmark). Custos em R$ — valores de GPT, Opus e Gemini convertidos a R$5,14/US$ (cotação de 19/06).

O que melhorou em relação ao Sabiá 4

O Sabiá 4 Thinking pensa antes de responder, e esse passo extra rende ganhos principalmente em três frentes.

Agentes é onde o avanço é maior. O modelo encadeia chamadas de ferramentas com mais consistência: escolhe a ferramenta certa, acompanha o que já fez e erra menos em tarefas de várias etapas — como operar um sistema, fazer uma busca na web ou completar uma compra.

No jurídico, julga peças e questões com mais critério e escreve peças mais bem fundamentadas.

E, em conversa, as respostas tendem a ser mais completas e melhor organizadas.

No exemplo abaixo, o Sabiá 4 Thinking recebe um orçamento de workstation, busca na web o consumo real de cada peça e percebe que a fonte está subdimensionada:

Pergunta · orçamento em PDF

PDForcamento-workstation.pdf

Pode analisar esta proposta?

Sabiá 4 Thinking

Pensou e consultou a web

techpowerup.comnvidia.comamd.com

Componente	Consumo (pico)
2× NVIDIA RTX 5090	2 × 575 W = 1.150 W
AMD Ryzen 9 9950X	~230 W
RAM, placa-mãe, SSDs e ventoinhas	~135 W
Pico total estimado	≈ 1.515 W
Fonte cotada	1.200 W

A fonte de 1.200 W está subdimensionada. Só as duas RTX 5090 já puxam 1.150 W — e a NVIDIA recomenda 1.000 W para uma única placa. Com o processador e o resto, o pico chega a ≈ 1.515 W. O recomendado é uma fonte de pelo menos 1.600 W — idealmente 2.000 W para ter folga.

Exemplo ilustrativo. O Sabiá 4 Thinking lê o PDF, busca o consumo oficial de cada peça e soma — encontrando um problema de dimensionamento que pode passar despercebido.

Sobre os benchmarks

Avaliamos o Sabiá 4 Thinking em onze benchmarks, agrupados em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Abaixo, o que cada um mede.

Pix-Bench

Interno · PT · turno único · pass@1

Pix-Bench avalia a capacidade dos modelos de auxiliar em tarefas financeiras cotidianas, como pagar uma conta ou fazer um Pix para outra pessoa. Assumindo o papel de assistente de uma plataforma bancária, o modelo precisa interpretar o pedido do usuário, identificar sozinho o contato ou a conta corretos e chamar as funções necessárias para executar a ação. Erros de identificação ou de parâmetro fazem a tarefa falhar, então o benchmark mede precisão de ponta a ponta, não apenas a intenção.

Ticket-Bench

arxiv.org/abs/2509.14477

Ticket-Bench avalia a capacidade dos modelos de operar uma plataforma de compra de ingressos. O ambiente fornece informações sobre o usuário e ferramentas para buscar eventos, escolher assentos e finalizar a compra; o modelo precisa encadear essas chamadas corretamente ao longo de uma conversa de múltiplos turnos. É um benchmark multilíngue, e aqui reportamos a execução em português, medindo a taxa de sucesso na compra completa (pass@1).

MARCA (MAritaca Research Checklist evAluation)

github.com/maritaca-ai/MARCA

MARCA avalia a capacidade dos modelos de encontrar informação navegando na web, com foco em perguntas que exigem busca em largura — isto é, que envolvem coletar e sintetizar informação de múltiplas fontes para produzir um relatório listando várias entidades. Cada pergunta é acompanhada de um checklist, utilizado por um modelo-juiz (GPT-4.1) para medir a completude e a corretude da resposta.

OAB (juiz)

Interno

Neste benchmark o modelo atua como juiz: ele pontua peças e questões da segunda fase do Exame da OAB, e a métrica é a concordância da nota atribuída pelo modelo com a do examinador humano. É uma forma de medir o quanto o modelo domina os critérios de avaliação jurídica — não se ele próprio escreve bem, mas se julga como um avaliador experiente julgaria.

Redação jurídica

Interno

Aqui o modelo redige peças jurídicas: petições iniciais, contestações e sentenças. A qualidade de cada peça é julgada por um LLM (GPT-5.4) que compara a resposta a uma referência, avaliando estrutura, fundamentação e adequação ao que foi pedido. É o benchmark em que o Sabiá 4 Thinking lidera entre os modelos avaliados.

Extração de processos

Interno

Mede a capacidade de extrair campos estruturados de processos judiciais reais — partes, pedidos, valores, datas e demais metadados relevantes. A avaliação é feita por rubrica, comparando os campos extraídos com uma anotação de referência. É uma tarefa central para automatizar a triagem e a organização de acervos jurídicos.

BLUEX

arxiv.org/abs/2307.05410

BLUEX reúne questões dos vestibulares da USP e da UNICAMP, cobrindo todas as áreas do ensino médio brasileiro. São questões de múltipla escolha, com a resposta do modelo conferida por um modelo-juiz (Sabiazinho-4). Por usar provas brasileiras recentes, é um teste de conhecimento geral ancorado no nosso currículo.

ENAMED

Paper na PROPOR 2026 · huggingface.co/datasets/recogna-nlp/enamed-2025

ENAMED é baseado no Exame Nacional de Avaliação da Formação Médica (INEP), aplicado a estudantes concluintes de medicina. São questões de múltipla escolha corrigidas por correspondência exata (exact match), testando conhecimento médico em português — um domínio em que erros têm custo alto e a precisão importa.

POSCOMP

arxiv.org/abs/2511.17808

POSCOMP é o Exame Nacional para Ingresso na Pós-Graduação em Computação, organizado pela Sociedade Brasileira de Computação (SBC). Cobre fundamentos da computação, matemática e tecnologia, em questões de múltipla escolha corrigidas por correspondência exata. Exige raciocínio técnico e quantitativo, não apenas memorização.

PoETa v2

arxiv.org/abs/2511.17808

PoETa v2 é uma suíte ampla de avaliação de português, com 44 tarefas — 12 nativas em português e 32 traduzidas do inglês — cobrindo classificação, compreensão de texto e raciocínio. Por reunir tarefas tão diversas, mede a robustez do modelo de forma agregada; a pontuação é reportada na métrica NPM, com dez execuções por tarefa.

Sotaques Digitais

ramondomingos.com.br

Sotaques Digitais avalia o entendimento do português do dia a dia: ironia, expressões idiomáticas e regionalismos, no tipo de texto que circula em redes sociais e no WhatsApp. São 90 cenários de geração aberta, com a resposta avaliada por um modelo-juiz (GPT-5.4) em uma escala de 1 a 5. É o benchmark mais próximo de como os brasileiros realmente escrevem.

Custo

Comparamos o custo de rodar a suíte inteira, não o preço de tabela por token — porque o número de tokens de raciocínio gerados por tarefa também pesa. Mesmo assim, rodar a suíte completa no Sabiá 4 Thinking custa menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8. Qualidade de fronteira em português não precisa vir com custo de fronteira.

Disponibilidade

O Sabiá 4 Thinking já está disponível via API. A documentação está em docs.maritaca.ai, e você pode conversar com os modelos da família Sabiá em chat.maritaca.ai.