Todos os posts
·7 min

Sabiazinho-4

Estamos introduzindo nosso novo modelo focado em velocidade e baixo custo: Sabiazinho-4, com melhorias no domínio jurídico, uso de contexto longo, seguir instruções e capacidades de agente.

Estamos lançando em versão preview o Sabiazinho-4, o primeiro modelo da próxima geração da família Sabiá, projetado com foco em custo e latência. O modelo representa um avanço significativo em relação ao Sabiazinho-3, especialmente em pontos onde a geração antiga apresentava limitações.

BenchmarkDescriçãoMétricaSabiazinho 4Sabiazinho 3gpt-oss
120b
GPT-4.1
mini
GPT-5
mini
CustoCusto para rodar os benchmarks abaixoReais gastos em tokens via APIR$15,87R$9,42R$33,24R$47,59R$102,13
OAB BenchRedação jurídica (advogado), 21 provasPontuação média (0-10)7,026,015,995,506,37
Magis BenchRedação jurídica (juíz), 24 provasPontuação média (0-10)4,503,643,623,674,47
Leis brasileirasConhecimento da legislação brasileiraAcurácia (5 alternativas)85,0%72,9%52,3%57,0%68,2%
Capacidades
agênticas
Uso de ferramentas e 4 ambientes em portuguêsPass³ e success@155,2%14,1%60,9%59,4%85,1%
Provas brasileiras13 provas (ENEM, USP, OAB, etc)Acurácia (4 e 5 alternativas)81,5%77,9%77,0%81,0%84,6%
Multi-IF PortuguêsCapacidade de seguir instruçõesStrict, média de 3 turnos81,4%72,2%82,0%79,6%85,8%
BRACEvalHabilidades conversacionais em portuguêsVitórias contra GPT-4o66,5%36,2%55,8%32,7%56,3%

Tabela 1: comparação de desempenho e custo entre os modelos analisados.

Melhorias no pré-treino

Identificamos algumas limitações importantes em cenários mais exigentes para o Sabiazinho-3 e melhoramos nosso pré‑treino para cobrir esses pontos:

  • Domínio jurídico brasileiro — leis, súmulas, decisões e redação jurídica.
  • Contexto longo — até 128 mil tokens.
  • Conhecimento sobre o Brasil — atualidades, instituições e literatura nacional.
  • Capacidades de agente — function calling estável e orquestração de ferramentas.

Melhorias no pós-treino

Também trouxemos melhorias no pós‑treino do Sabiazinho-4, especialmente para cobrir limitações do modelo antigo:

  • Seguimento de instruções — respostas mais consistentes.
  • Chamada de funções — agora o modelo invoca corretamente as funções disponíveis.
  • Busca na web — uso adequado de ferramentas externas quando necessário.

Nas figuras a seguir, ilustramos a diferença de comportamento entre o Sabiazinho-3 e o Sabiazinho-4 ao responder a uma pergunta simples que exige uma busca na internet. O Sabiazinho-3 não chamava a função web_search() corretamente; o Sabiazinho-4 faz a chamada como esperado.

Resposta do modelo antigo Sabiazinho-3

Figura 1: resposta dada pelo modelo antigo — Sabiazinho-3. Destaque para o modelo não chamando a função à qual tem acesso: web_search().

Resposta do modelo novo Sabiazinho-4

Figura 2: resposta dada pelo modelo novo — Sabiazinho-4. É possível ver que o novo modelo fez a chamada corretamente.

Avaliação em benchmarks

O Sabiazinho-4 foi avaliado em diversos benchmarks de avaliação:

OAB-Bench

arxiv.org/abs/2504.21202

OAB-Bench é um benchmark criado para avaliar a capacidade de modelos de linguagem em tarefas complexas de escrita jurídica, usando como base a segunda fase do Exame da OAB. O benchmark reúne 105 questões distribuídas em sete áreas do direito.

Magis-Bench

Magis-Bench é um benchmark voltado à avaliação de modelos de linguagem em tarefas jurídicas de alta complexidade, com foco em concursos públicos para juiz substituto no Brasil. Provas reais e recentes incluem prova discursiva e duas provas práticas (sentença cível e criminal).

Ticket-Bench

arxiv.org/abs/2509.14477

Ticket-Bench avalia a capacidade dos modelos de operar uma plataforma de compra de ingressos de jogos de futebol — buscar partidas, escolher assentos e finalizar a compra.

Pix-Bench

Pix-Bench avalia a capacidade de modelos auxiliarem em tarefas financeiras cotidianas, como pagar uma conta ou fazer um Pix. O modelo assume o papel de assistente de uma plataforma bancária e precisa interpretar o pedido do usuário e executar a ação correta.

MARCA (MAritaca Research Checklist evAluation)

MARCA avalia as capacidades dos modelos de encontrar informação através de navegação na web, focando principalmente em perguntas que demandam busca em largura. Cada pergunta é acompanhada de um checklist usado para avaliar completude e corretude da resposta.

CLIMB (CheckList-based Inference for Multihop with Browsing)

CLIMB testa a habilidade dos modelos em realizar buscas em cadeia (multi-hop) até alcançar uma resposta final, com perguntas complexas que exigem navegação encadeada entre páginas.

Leis Brasileiras

Este benchmark avalia o conhecimento dos modelos sobre a legislação federal brasileira (mais de 50 mil atos normativos). As questões são de múltipla escolha em duas variações: identificar a qual lei pertence um trecho, ou identificar a referência exata.

Multi-IF

arxiv.org/abs/2410.15553

O Multi-IF avalia se modelos são capazes de seguir instruções que se acumulam ao longo de uma conversa multi-turno, com restrições adicionadas a cada turno.

BRACeval (Brazilian Chat Evaluation)

arxiv.org/abs/2403.09887

BRACEval é um benchmark de perguntas abertas voltado à avaliação de chatbots em cenários complexos com ênfase no conhecimento sobre o Brasil. 150 perguntas multi-turno distribuídas em 13 categorias contextualizadas ao Brasil.

Custo total

Ao calcular o custo real de um modelo de linguagem, é importante considerar todos os fatores: preço por token de entrada e saída, latência, número de tokens necessários por tarefa e custo por benchmark.

Benchmarksabiazinho-3sabiazinho-4gpt-oss-120bgpt-4.1-minigpt-5-mini
OAB BenchR$0,50R$0,81R$1,50R$1,20R$5,90
Magis BenchR$0,30R$0,46R$0,71R$0,89R$3,84
Leis brasileirasR$1,44R$1,97R$2,86R$2,74R$7,36
Capacidades
agênticas
R$3,88R$7,70R$20,49R$33,75R$47,70
Provas brasileirasR$0,62R$0,54R$1,62R$2,16R$8,51
Multi-IF PortuguêsR$2,35R$3,71R$5,11R$6,18R$25,87
BRACEvalR$0,33R$0,68R$0,96R$0,67R$2,95
TotalR$9,42R$15,87R$33,24R$47,59R$102,13

Figura 12: custos em reais para avaliar os modelos nos benchmarks divulgados.

Próximos passos

O lançamento do Sabiazinho-4 é um passo importante para o desenvolvimento de nossas próximas gerações de modelos. Você pode encontrar mais detalhes sobre como usar o novo modelo em nossa documentação: docs.maritaca.ai.