Sabiazinho-4 — Maritaca AI

Estamos lançando em versão preview o Sabiazinho-4, o primeiro modelo da próxima geração da família Sabiá, projetado com foco em custo e latência. O modelo representa um avanço significativo em relação ao Sabiazinho-3, especialmente em pontos onde a geração antiga apresentava limitações.

Benchmark	Descrição	Métrica	Sabiazinho 4	Sabiazinho 3	gpt-oss 120b	GPT-4.1 mini	GPT-5 mini
Custo	Custo para rodar os benchmarks abaixo	Reais gastos em tokens via API	R$15,87	R$9,42	R$33,24	R$47,59	R$102,13
OAB Bench	Redação jurídica (advogado), 21 provas	Pontuação média (0-10)	7,02	6,01	5,99	5,50	6,37
Magis Bench	Redação jurídica (juíz), 24 provas	Pontuação média (0-10)	4,50	3,64	3,62	3,67	4,47
Leis brasileiras	Conhecimento da legislação brasileira	Acurácia (5 alternativas)	85,0%	72,9%	52,3%	57,0%	68,2%
Capacidades agênticas	Uso de ferramentas e 4 ambientes em português	Pass³ e success@1	55,2%	14,1%	60,9%	59,4%	85,1%
Provas brasileiras	13 provas (ENEM, USP, OAB, etc)	Acurácia (4 e 5 alternativas)	81,5%	77,9%	77,0%	81,0%	84,6%
Multi-IF Português	Capacidade de seguir instruções	Strict, média de 3 turnos	81,4%	72,2%	82,0%	79,6%	85,8%
BRACEval	Habilidades conversacionais em português	Vitórias contra GPT-4o	66,5%	36,2%	55,8%	32,7%	56,3%

Tabela 1: comparação de desempenho e custo entre os modelos analisados.

Melhorias no pré-treino

Identificamos algumas limitações importantes em cenários mais exigentes para o Sabiazinho-3 e melhoramos nosso pré‑treino para cobrir esses pontos:

Domínio jurídico brasileiro — leis, súmulas, decisões e redação jurídica.
Contexto longo — até 128 mil tokens.
Conhecimento sobre o Brasil — atualidades, instituições e literatura nacional.
Capacidades de agente — function calling estável e orquestração de ferramentas.

Melhorias no pós-treino

Também trouxemos melhorias no pós‑treino do Sabiazinho-4, especialmente para cobrir limitações do modelo antigo:

Seguimento de instruções — respostas mais consistentes.
Chamada de funções — agora o modelo invoca corretamente as funções disponíveis.
Busca na web — uso adequado de ferramentas externas quando necessário.

Nas figuras a seguir, ilustramos a diferença de comportamento entre o Sabiazinho-3 e o Sabiazinho-4 ao responder a uma pergunta simples que exige uma busca na internet. O Sabiazinho-3 não chamava a função web_search() corretamente; o Sabiazinho-4 faz a chamada como esperado.

Figura 1: resposta dada pelo modelo antigo — Sabiazinho-3. Destaque para o modelo não chamando a função à qual tem acesso: web_search().

Figura 2: resposta dada pelo modelo novo — Sabiazinho-4. É possível ver que o novo modelo fez a chamada corretamente.

Avaliação em benchmarks

O Sabiazinho-4 foi avaliado em diversos benchmarks de avaliação:

OAB-Bench

arxiv.org/abs/2504.21202

OAB-Bench é um benchmark criado para avaliar a capacidade de modelos de linguagem em tarefas complexas de escrita jurídica, usando como base a segunda fase do Exame da OAB. O benchmark reúne 105 questões distribuídas em sete áreas do direito.

Magis-Bench

Magis-Bench é um benchmark voltado à avaliação de modelos de linguagem em tarefas jurídicas de alta complexidade, com foco em concursos públicos para juiz substituto no Brasil. Provas reais e recentes incluem prova discursiva e duas provas práticas (sentença cível e criminal).

Ticket-Bench

arxiv.org/abs/2509.14477

Ticket-Bench avalia a capacidade dos modelos de operar uma plataforma de compra de ingressos de jogos de futebol — buscar partidas, escolher assentos e finalizar a compra.

Pix-Bench

Pix-Bench avalia a capacidade de modelos auxiliarem em tarefas financeiras cotidianas, como pagar uma conta ou fazer um Pix. O modelo assume o papel de assistente de uma plataforma bancária e precisa interpretar o pedido do usuário e executar a ação correta.

MARCA (MAritaca Research Checklist evAluation)

MARCA avalia as capacidades dos modelos de encontrar informação através de navegação na web, focando principalmente em perguntas que demandam busca em largura. Cada pergunta é acompanhada de um checklist usado para avaliar completude e corretude da resposta.

CLIMB (CheckList-based Inference for Multihop with Browsing)

CLIMB testa a habilidade dos modelos em realizar buscas em cadeia (multi-hop) até alcançar uma resposta final, com perguntas complexas que exigem navegação encadeada entre páginas.

Leis Brasileiras

Este benchmark avalia o conhecimento dos modelos sobre a legislação federal brasileira (mais de 50 mil atos normativos). As questões são de múltipla escolha em duas variações: identificar a qual lei pertence um trecho, ou identificar a referência exata.

Multi-IF

arxiv.org/abs/2410.15553

O Multi-IF avalia se modelos são capazes de seguir instruções que se acumulam ao longo de uma conversa multi-turno, com restrições adicionadas a cada turno.

BRACeval (Brazilian Chat Evaluation)

arxiv.org/abs/2403.09887

BRACEval é um benchmark de perguntas abertas voltado à avaliação de chatbots em cenários complexos com ênfase no conhecimento sobre o Brasil. 150 perguntas multi-turno distribuídas em 13 categorias contextualizadas ao Brasil.

Custo total

Ao calcular o custo real de um modelo de linguagem, é importante considerar todos os fatores: preço por token de entrada e saída, latência, número de tokens necessários por tarefa e custo por benchmark.

Benchmark	sabiazinho-3	sabiazinho-4	gpt-oss-120b	gpt-4.1-mini	gpt-5-mini
OAB Bench	R$0,50	R$0,81	R$1,50	R$1,20	R$5,90
Magis Bench	R$0,30	R$0,46	R$0,71	R$0,89	R$3,84
Leis brasileiras	R$1,44	R$1,97	R$2,86	R$2,74	R$7,36
Capacidades agênticas	R$3,88	R$7,70	R$20,49	R$33,75	R$47,70
Provas brasileiras	R$0,62	R$0,54	R$1,62	R$2,16	R$8,51
Multi-IF Português	R$2,35	R$3,71	R$5,11	R$6,18	R$25,87
BRACEval	R$0,33	R$0,68	R$0,96	R$0,67	R$2,95
Total	R$9,42	R$15,87	R$33,24	R$47,59	R$102,13

Figura 12: custos em reais para avaliar os modelos nos benchmarks divulgados.

Próximos passos

O lançamento do Sabiazinho-4 é um passo importante para o desenvolvimento de nossas próximas gerações de modelos. Você pode encontrar mais detalhes sobre como usar o novo modelo em nossa documentação: docs.maritaca.ai.