Sabiazinho-4

5 de jan.
7 min de leitura

Atualizado: 6 de jan.

Introdução

Estamos lançando em versão preview o Sabiazinho-4, o primeiro modelo da próxima geração da família Sabiá, projetado com foco em custo e latência. O modelo representa um avanço significativo em relação à versão anterior, com melhorias relevantes no domínio jurídico, incluindo maior precisão na redação de peças processuais e sentenças. Ele também apresenta avanços em extração de informações em documentos longos, seguimento de instruções complexas e capacidades de agente, que ampliam seu potencial de uso em fluxos mais estruturados.

Tabela 1: comparação de desempenho e custo entre os modelos analisados.

Pré treino

Identificamos algumas limitações importantes em cenários mais exigentes para o Sabiazinho-3 e melhoramos nosso pré treino para cobrir esses pontos:

Incrementamos a cobertura de dados jurídicos brasileiros, especialmente em legislação recente e jurisprudência. Assim, a nova geração de modelos foi treinada em uma ampla base de dados jurídicos junto com nossa base atualizada de conteúdos em português.
A janela de contexto foi expandida de 32k para 128k na nova geração do Sabiazinho.

Pós-treino

Também trouxemos melhorias no pós treino do Sabiazinho-4, especialmente para cobrir limitações do modelo antigo:

Melhorias em seguir instruções, sobretudo em tarefas com vários turnos de conversa ou cenários zero-shot.
Melhorias em function calling. Em alguns benchmarks não era possível avaliar o Sabiazinho-3 por este não possuir capacidade mínima de execução do sistema de agentes. Nessa nova versão, conseguimos bons resultados ao reformular totalmente como lidamos com os nossos dados de treino focados em chamadas de funções e agentes.
Também aprimoramos o fluxo conversacional do modelo, possibilitando uma conversa mais natural e focada em responder de forma mais assertiva questões que envolvam buscas em fontes externas.

Nas figuras 1 e 2, ilustramos a diferença de comportamento entre o Sabiazinho-3 e o Sabiazinho-4 ao responder a uma pergunta simples que exige uma busca na internet. Vale destacar que, por padrão, o Sabiazinho-3 opera em nosso chat sem acesso à pesquisa na web; para este exemplo específico, essa funcionalidade foi habilitada temporariamente.

Figura 1: resposta dada pelo modelo antigo - sabiazinho-3. Destaque para o modelo não chamando a função ao qual tem acesso: web_search().

Figura 2: resposta dada pelo modelo novo - sabiazinho-4. Onde é possível ver que o novo modelo fez a chamada corretamente.

Principais habilidades

O sabiazinho-4 foi avaliado em diversos benchmarks de avaliação, dentre os quais destacamos alguns com exemplos:

OAB-Bench https://arxiv.org/abs/2504.21202

OAB-Bench é um benchmark criado para avaliar a capacidade de modelos de linguagem em tarefas complexas de escrita jurídica, usando como base a segunda fase do Exame da Ordem dos Advogados do Brasil (OAB), uma prova profissional de direito com questões discursivas e produção de peças jurídicas. As tarefas exigem interpretação normativa, argumentação jurídica estruturada, uso adequado da linguagem técnica e aderência a critérios formais de correção, refletindo um cenário realista de avaliação profissional no domínio jurídico brasileiro.

O benchmark reúne 105 questões retiradas de edições recentes do exame, distribuídas em sete áreas do direito, e inclui as mesmas diretrizes de avaliação completas usadas por avaliadores humanos para garantir consistência nas notas. As tarefas exigem interpretação normativa, argumentação jurídica estruturada, uso adequado da linguagem técnica e aderência a critérios formais de correção, refletindo um cenário realista de avaliação profissional no domínio jurídico brasileiro.

Figura 3: exemplo de pergunta do benchmark OAB-Bench.

Magis-Bench

Magis-Bench é um benchmark voltado à avaliação de modelos de linguagem em tarefas jurídicas de alta complexidade, com foco em concursos públicos para o cargo de juiz substituto no Brasil. Diferentemente de benchmarks baseados em exames de ordem para advogados, o Magis-Bench avalia competências exigidas da magistratura, como interpretação aprofundada do ordenamento jurídico, capacidade decisória e fundamentação técnica adequada.

O benchmark é construído a partir de provas reais e recentes de concursos públicos, abrangendo, para cada certame, uma prova discursiva e duas provas práticas: elaboração de sentença cível e elaboração de sentença criminal. As avaliações seguem rigorosamente as mesmas diretrizes e critérios oficiais utilizados para candidatos humanos.

Figura 4: exemplo de pergunta do benchmark Magis-Bench.

Ticket-Bench

https://arxiv.org/abs/2509.14477

Ticket Bench busca avaliar a capacidade dos modelos de operar uma plataforma de compra de ingressos de jogos de futebol. O ambiente fornece ao modelo informações sobre o usuário e a capacidade de buscar jogos e consultar resultados passados; o modelo deve utilizar tais recursos para atender ao pedido do usuário.

Figura 5: exemplo de pergunta do benchmark Ticket-bench.

Pix-Bench

Pix-bench avalia a capacidade de modelos auxiliarem em tarefas financeiras cotidianas, como realizar o pagamento de uma conta ou fazer um Pix para outra pessoa. Assumindo o papel de assistente de uma conta bancária pessoal, o modelo tem acesso a informações bancárias, histórico de contas pagas e pendentes, e capacidade de realizar pagamentos e transferências. Com essas informações, o modelo deve responder da melhor forma possível aos pedidos do usuário.

Figura 6: exemplo de pergunta do benchmark Pix-bench.

MARCA (MAritaca Research Checklist evAluation)

MARCA é um benchmark que avalia as capacidades dos modelos de encontrar informação através de navegação na web, focando principalmente em perguntas que demandam busca em largura, isto é, que envolvem várias entidades em paralelo.

Cada pergunta do MARCA é acompanhada de um checklist, utilizado para avaliar a completude e a corretude da resposta do modelo.

Figura 7: exemplo de pergunta do benchmark MARCA.

CLIMB (CheckList-based Inference for Multihop with Browsing)

CLIMB é um benchmark projetado para testar a habilidade dos modelos em realizar buscas em cadeia até alcançar uma resposta final. Esse benchmark é composto por perguntas complexas que exigem navegação por múltiplas camadas de informação. Essas tarefas exigem que o modelo identifique entidades intermediárias, resolva subproblemas sucessivos e utilize os resultados de cada etapa como insumo para a próxima, caracterizando um cenário de busca em profundidade e exigindo planejamento sistemático dos passos de pesquisa, frequentemente estruturado a partir de checklists. Todas as perguntas partem de um fato ou evento recente (2024 ou 2025), estimulando o modelo a fazer pesquisas na web desde o começo.

Figura 8: exemplo de pergunta do benchmark Climb.

Leis federais brasileiras

Este benchmark foi elaborado para avaliar o conhecimento dos modelos sobre a legislação federal brasileira, que compreende mais de 50 mil atos normativos, incluindo leis, decretos e medidas provisórias. O benchmark abrange leis federais brasileiras amostradas de forma a contemplar tanto normas amplamente utilizadas e conhecidas quanto aquelas menos populares, favorecendo uma avaliação mais representativa do conhecimento do modelo sobre a legislação brasileira.

As questões são de múltipla escolha e podem assumir duas variações: na primeira, o modelo recebe um trecho da legislação e deve identificar a lei à qual ele pertence; na segunda, o modelo deve identificar, entre os trechos disponíveis, aquele que corresponde à lei apresentada. O exemplo abaixo ilustra um caso em que o modelo deve indicar qual é a lei correspondente à descrição fornecida.

Figura 9: exemplo de pergunta do benchmark leis brasileiras.

Multi-if

https://arxiv.org/abs/2410.15553

O Multi-IF é um benchmark que avalia se modelos são capazes de seguir instruções que se acumulam ao longo de uma conversa. Diferentemente da maioria dos testes de seguimento de instruções, que envolvem apenas uma única pergunta e uma única resposta, o Multi-IF mede a capacidade do modelo de manter memória e atenção em múltiplas etapas.

Nesse cenário, o usuário inicialmente faz um pedido simples; em seguida, solicita a reformulação da tarefa, adicionando uma restrição de formato; e, por fim, impõe uma nova modificação. Para que a resposta seja considerada correta, o modelo deve produzir o resultado final respeitando todas as regras acumuladas (as iniciais, as intermediárias e as finais) sem omitir nenhuma. A partição apresentada corresponde às perguntas em português do benchmark.

Figura 10: exemplo de pergunta do benchmark multi-IF.

BRACeval (Brazilian Chat Evaluation) https://arxiv.org/abs/2403.09887

BRACEval é um benchmark de perguntas abertas voltado à avaliação de chatbots em cenários de instruções complexas e diálogos multi-turno, com ênfase no conhecimento sobre o Brasil. O conjunto de perguntas explora a capacidade dos modelos de compreender e responder a conteúdos relacionados à cultura, história, indicadores socioeconômicos e temas contemporâneos do país, ao mesmo tempo em que avalia habilidades gerais de conversação, seguimento de instruções e interação contextualizada.

O BRACEval é composto por 150 perguntas multi-turno distribuídas em 13 categorias que incluem tarefas contextualizadas ao Brasil — como escrita criativa, roleplay, extração de informação, humanidades, entidades e análise de contradições — além de avaliações de abstenção e segurança. O benchmark também incorpora categorias mais gerais, como raciocínio, matemática e programação, cujas perguntas foram adaptadas e traduzidas do MT-Bench, bem como categorias específicas para medir bajulação, analisando até que ponto o modelo altera suas respostas diante de desafios do usuário ou alinha-se indevidamente às crenças expressas pelo interlocutor.

Figura 11: exemplo de pergunta do benchmark BRACeval.

Análise de custo

Ao calcular o custo real de um modelo de linguagem, é importante considerar todos os fatores envolvidos para obter uma visão completa e precisa. Embora o preço por token de entrada e saída seja um ponto de partida útil, uma análise mais completa leva em conta aspectos como a eficiência de compressão da linguagem e a concisão das respostas geradas por cada modelo. Além disso, modelos que realizam raciocínio geram tokens adicionais que, embora invisíveis ao usuário, impactam diretamente o custo total. Considerar todos esses elementos proporciona uma estimativa mais justa e realista do investimento necessário para cada tarefa. Abaixo, apresentamos os custos estimados para diferentes tipos de tarefas e modelos, baseada em dados coletados de nossos conjuntos de avaliação.

Figura 12: custos em reais para avaliar os modelos nos benchmarks divulgados.

Trabalho Futuro

O lançamento do sabiazinho-4 é um passo importante para o desenvolvimento de nossas próximas gerações de modelos. Destacamos algumas de nossas linhas de pesquisa e desenvolvimento futuros:

Lançamento de uma versão definitiva de nossa quarta geração de modelos com melhorias em cima da versão preview a partir de feedbacks coletados.
Em breve disponibilizaremos uma versão preview de nosso maior modelo: Sabiá-4.
Estamos ativamente trabalhando para disponibilizar um modelo com reasoning para otimizar o seu desempenho em tarefas gerais.

Como acessar o novo modelo

Você pode encontrar mais detalhes sobre como usar o novo modelo em nossa documentação: https://docs.maritaca.ai.