Sabiá-4

19 de jan.
6 min de leitura

Introdução

Estamos lançando em versão preview o Sabiá-4, nosso modelo da próxima geração da família Sabiá, projetados com foco em custo e desempenho em tarefas complexas. Os modelos representam um avanço significativo em relação à versão anterior, com melhorias relevantes no domínio jurídico, incluindo maior precisão na redação de peças processuais e sentenças. Ele também apresenta avanços em extração de informações em documentos longos, na capacidade de seguir instruções complexas e em capacidades de agente, que ampliam seu potencial de uso em fluxos mais estruturados como o RAG. A Figura 1 mostra o desempenho do modelo ao comparar o custo (eixo X) e a média de qualidade nos benchmarks (eixo Y).

Figura 1: gráfico com custo (eixo X) vs qualidade (eixo Y) dos modelos avaliados.

Pré treino

Identificamos algumas limitações importantes em cenários mais exigentes para a geração antiga e melhoramos nosso pré treino para cobrir esses pontos:

Incrementamos a cobertura de dados jurídicos brasileiros, especialmente em legislação recente e jurisprudência. Assim, a nova geração de modelos foi treinada em uma ampla base de dados jurídicos junto com nossa base atualizada de conteúdos em português.
Para o nosso maior modelo Sabiá-4, o tamanho da janela de contexto foi mantida em 128k, mas estamos trabalhando na expansão para 256k na versão definitiva.

Pós-treino

Também trouxemos melhorias no pós-treino, especialmente para cobrir limitações da geração antiga:

Melhorias em seguir instruções, sobretudo em tarefas com vários turnos de conversa ou cenários zero-shot.
Melhorias em function calling. Nessa nova versão, conseguimos bons resultados ao reformular totalmente como lidamos com os nossos dados de treino focados em chamadas de funções e agentes. Garantindo maior precisão e eficiência no uso de chamadas de função e no gerenciamento de diálogos mais complexos.
Também aprimoramos o fluxo conversacional dos modelos, possibilitando uma conversa mais natural e focada em responder de forma mais assertiva questões que envolvam buscas em fontes externas.

Principais habilidades

Os modelos foram avaliados em diversos benchmarks de avaliação, dentre os quais destacamos alguns com exemplos, as tabelas 1 e 2 apresentam o desempenho de modelos em faixas de custo diferentes.

Tabela 1: Sabiá-4: comparação de qualidade e custo entre modelos de fronteira.

OAB-Bench https://arxiv.org/abs/2504.21202

OAB-Bench é um benchmark criado para avaliar a capacidade de modelos de linguagem em tarefas complexas de escrita jurídica, usando como base a segunda fase do Exame da Ordem dos Advogados do Brasil (OAB), uma prova profissional de direito com questões discursivas e produção de peças jurídicas. As tarefas exigem interpretação normativa, argumentação jurídica estruturada, uso adequado da linguagem técnica e aderência a critérios formais de correção, refletindo um cenário realista de avaliação profissional no domínio jurídico brasileiro.

O benchmark reúne 105 questões retiradas de edições recentes do exame, distribuídas em sete áreas do direito, e inclui as mesmas diretrizes de avaliação completas usadas por avaliadores humanos para garantir consistência nas notas. As tarefas exigem interpretação normativa, argumentação jurídica estruturada, uso adequado da linguagem técnica e aderência a critérios formais de correção, refletindo um cenário realista de avaliação profissional no domínio jurídico brasileiro.

Figura 2: exemplo de pergunta do benchmark OAB-Bench.

Magis-Bench

Magis-Bench é um benchmark voltado à avaliação de modelos de linguagem em tarefas jurídicas de alta complexidade, com foco em concursos públicos para o cargo de juiz substituto no Brasil. Diferentemente de benchmarks baseados em exames de ordem para advogados, o Magis-Bench avalia competências exigidas da magistratura, como interpretação aprofundada do ordenamento jurídico, capacidade decisória e fundamentação técnica adequada.

O benchmark é construído a partir de provas reais e recentes de concursos públicos, abrangendo, para cada certame, uma prova discursiva e duas provas práticas: elaboração de sentença cível e elaboração de sentença criminal. As avaliações seguem rigorosamente as mesmas diretrizes e critérios oficiais utilizados para candidatos humanos.

Figura 3: exemplo de pergunta do benchmark Magis-Bench.

Ticket-Bench

https://arxiv.org/abs/2509.14477

Ticket Bench busca avaliar a capacidade dos modelos de operar uma plataforma de compra de ingressos de jogos de futebol. O ambiente fornece ao modelo informações sobre o usuário e a capacidade de buscar jogos e consultar resultados passados; o modelo deve utilizar tais recursos para atender ao pedido do usuário.

Figura 4: exemplo de pergunta do benchmark Ticket-bench.

Pix-Bench

Pix-bench avalia a capacidade de modelos auxiliarem em tarefas financeiras cotidianas, como realizar o pagamento de uma conta ou fazer um Pix para outra pessoa. Assumindo o papel de assistente de uma conta bancária pessoal, o modelo tem acesso a informações bancárias, histórico de contas pagas e pendentes, e capacidade de realizar pagamentos e transferências. Com essas informações, o modelo deve responder da melhor forma possível aos pedidos do usuário.

Figura 5: exemplo de pergunta do benchmark Pix-bench.

MARCA (MAritaca Research Checklist evAluation)

MARCA é um benchmark que avalia as capacidades dos modelos de encontrar informação através de navegação na web, focando principalmente em perguntas que demandam busca em largura, isto é, que envolvem várias entidades em paralelo.

Cada pergunta do MARCA é acompanhada de um checklist, utilizado para avaliar a completude e a corretude da resposta do modelo.

Figura 6: exemplo de pergunta do benchmark MARCA.

CLIMB (CheckList-based Inference for Multihop with Browsing)

CLIMB é um benchmark projetado para testar a habilidade dos modelos em realizar buscas em cadeia até alcançar uma resposta final. Esse benchmark é composto por perguntas complexas que exigem navegação por múltiplas camadas de informação. Essas tarefas exigem que o modelo identifique entidades intermediárias, resolva subproblemas sucessivos e utilize os resultados de cada etapa como insumo para a próxima, caracterizando um cenário de busca em profundidade e exigindo planejamento sistemático dos passos de pesquisa, frequentemente estruturado a partir de checklists. Todas as perguntas partem de um fato ou evento recente (2024 ou 2025), estimulando o modelo a fazer pesquisas na web desde o começo.

Figura 7: exemplo de pergunta do benchmark Climb.

Leis federais brasileiras

Este benchmark foi elaborado para avaliar o conhecimento dos modelos sobre a legislação federal brasileira, que compreende mais de 50 mil atos normativos, incluindo leis, decretos e medidas provisórias. O benchmark abrange leis federais brasileiras amostradas de forma a contemplar tanto normas amplamente utilizadas e conhecidas quanto aquelas menos populares, favorecendo uma avaliação mais representativa do conhecimento do modelo sobre a legislação brasileira.

As questões são de múltipla escolha e podem assumir duas variações: na primeira, o modelo recebe um trecho da legislação e deve identificar a lei à qual ele pertence; na segunda, o modelo deve identificar, entre os trechos disponíveis, aquele que corresponde à lei apresentada. O exemplo abaixo ilustra um caso em que o modelo deve indicar qual é a lei correspondente à descrição fornecida.

Figura 8: exemplo de pergunta do benchmark leis brasileiras.

Multi-if

https://arxiv.org/abs/2410.15553

O Multi-IF é um benchmark que avalia se modelos são capazes de seguir instruções que se acumulam ao longo de uma conversa. Diferentemente da maioria dos testes de seguimento de instruções, que envolvem apenas uma única pergunta e uma única resposta, o Multi-IF mede a capacidade do modelo de manter memória e atenção em múltiplas etapas.

Nesse cenário, o usuário inicialmente faz um pedido simples; em seguida, solicita a reformulação da tarefa, adicionando uma restrição de formato; e, por fim, impõe uma nova modificação. Para que a resposta seja considerada correta, o modelo deve produzir o resultado final respeitando todas as regras acumuladas (as iniciais, as intermediárias e as finais) sem omitir nenhuma. A partição apresentada corresponde às perguntas em português do benchmark.

Figura 9: exemplo de pergunta do benchmark multi-IF.

BRACeval (Brazilian Chat Evaluation) https://arxiv.org/abs/2403.09887

BRACEval é um benchmark de perguntas abertas voltado à avaliação de chatbots em cenários de instruções complexas e diálogos multi-turno, com ênfase no conhecimento sobre o Brasil. O conjunto de perguntas explora a capacidade dos modelos de compreender e responder a conteúdos relacionados à cultura, história, indicadores socioeconômicos e temas contemporâneos do país, ao mesmo tempo em que avalia habilidades gerais de conversação, seguimento de instruções e interação contextualizada.

O BRACEval é composto por 150 perguntas multi-turno distribuídas em 13 categorias que incluem tarefas contextualizadas ao Brasil — como escrita criativa, roleplay, extração de informação, humanidades, entidades e análise de contradições — além de avaliações de abstenção e segurança. O benchmark também incorpora categorias mais gerais, como raciocínio, matemática e programação, cujas perguntas foram adaptadas e traduzidas do MT-Bench, bem como categorias específicas para medir bajulação, analisando até que ponto o modelo altera suas respostas diante de desafios do usuário ou alinha-se indevidamente às crenças expressas pelo interlocutor.

Figura 10: exemplo de pergunta do benchmark BRACeval.

Análise de custo

Ao calcular o custo real de um modelo de linguagem, é importante considerar todos os fatores envolvidos para obter uma visão completa e precisa. Embora o preço por token de entrada e saída seja um ponto de partida útil, uma análise mais completa leva em conta aspectos como a eficiência de compressão da linguagem e a concisão das respostas geradas por cada modelo. Além disso, modelos que realizam raciocínio geram tokens adicionais que, embora invisíveis ao usuário, impactam diretamente o custo total. Considerar todos esses elementos proporciona uma estimativa mais justa e realista do investimento necessário para cada tarefa. Abaixo, apresentamos os custos estimados para diferentes tipos de tarefas e modelos, baseada em dados coletados de nossos conjuntos de avaliação.

Figura 11: Sabiá-4: custos em reais para avaliar os modelos nos benchmarks divulgados.

Trabalho Futuro

O lançamento dos modelos da geração 4 (sabiazinho-4 e sabiá-4) é um passo importante para o desenvolvimento de nossas próximas gerações de modelos. Destacamos algumas de nossas linhas de pesquisa e desenvolvimento futuros:

Lançamento de uma versão definitiva de nossa quarta geração de modelos com melhorias em cima da versão preview a partir de feedbacks coletados.
Expansão de contexto de 128k para 256k.
Estamos ativamente trabalhando para disponibilizar modelos com reasoning para otimizar o desempenho em tarefas gerais.
Em breve lançaremos o technical report de nossa quarta geração de modelos

Como acessar o novo modelo

Você pode encontrar mais detalhes sobre como usar o novo modelo em nossa documentação: https://docs.maritaca.ai.