top of page
Screen Shot 2025-01-21 at 8.25.49 AM.png

Este artigo tenta responder à seguinte pergunta: "À medida que a disponibilidade de recursos computacionais continua a crescer, o futuro será dominado por alguns modelos que sabem tudo, ou por uma sociedade de agentes, cada um especializado em um domínio específico?"

Para abordar essa questão, investigamos as leis que governam o pré-treinamento contínuo de modelos de diversos tamanhos quando treinados em dados gerais ou especializados.

Para nossa surpresa, descobrimos que, em termos de recursos computacionais de treinamento, modelos maiores se beneficiam mais da especialização de domínio do que modelos menores. Essa conclusão é tirada a partir de curvas divergentes com respeito aos recursos computacionais na Figura 1a. Se essas curvas convergissem, ou seja, se cruzassem em algum ponto com o aumento dos recursos computacionais, então os modelos generalistas seriam mais eficientes do que os especializados.

shutterstock_2321763115.jpg

Neste relatório técnico, avaliamos as capacidades do modelo Sabiá-3 em diversos benchmarks, incluindo 73 exames nacionais (Enem, ENADE, OAB, Revalida, etc), chamada de funções, tarefas que requerem capacidade de agente, seguir instruções e lidar com contexto longos.

Screen_Shot_2024-03-10_at_9_41_edited_jp.webp

Neste relatório técnico, introduzimos a nova geração de modelos da Maritaca, os Sabiá-2, e apresentamos a mais completa análise de LLMs em tarefas em portugues, cobrindo 64 exames brasileiros como ENEM, ENADE, OAB, vestibulares da USP e UNICAMP, provas de residência em medicina, dentro outros.

Nosso melhor modelo, Sabiá-2 Medium, supera grandemente diversos LLMs concorrentes na mesma faixa de preço.

6cb9d6_2a555c4c601a4a0ea267b3e2f6c01265~mv2.webp

Neste estudo, mostramos que uma quantidade modesta de treinamento em domínio específico traz grandes melhorias em tarefas few-shot.

Nosso melhor modelo, Sabiá-65B, supera, em média, o ChatGPT-3.5 em 14 tarefas em português. O trabalho foi publicado na conferência BRACIS 2023.

O modelo Sabiá-7B está disponível na Hugging Face

papagaio.webp

Juru é o primeiro LLM treinado em dados jurídicos brasileiros. Neste estudo, mostramos que treinar o Sabiá-2 Small em documentos relacionados ao direito provindo de sites confiáveis, como a biblioteca do CNPQ, traz ganhos em provas de direito do Enade e OAB.

enem.webp

Neste estudo, avaliamos o GPT-3.5 e o GPT-4 no ENEM e mostramos que ao utilizar a técnica de Chain-of-Thought o desempenho do GPT-4 melhora significativamente.

Artigo subsequente sobre a capacidade de "enxergar" imagens do GPT-4 Vision

Captura de Tela 2023-07-02 às 13_34_21.webp

BLUEX é um conjunto de dados composto por provas de admissão da USP e UNICAMP. Seu objetivo principal é servir como referência para a avaliação de modelos de IA atuais e futuros, incluindo aqueles com capacidades multimodais (imagem+texto). O trabalho foi publicado na conferência BRACIS 2023.

Publicações Científicas

Descubra os projetos de pesquisa em que temos trabalhado recentemente.

Créditos API para Ensino e Pesquisa

Se você é estudante ou pesquisador e deseja usar os modelos Sabiá que são LLMs especializados no Português, a Maritaca AI oferece um programa de créditos da API para apoiar seus projetos.

Para participar, é simples: preencha o formulário abaixo com um resumo do seu projeto (até um parágrafo) e informe o orçamento aproximado que você prevê para a utilização dos nossos modelos via API.

Após o envio, nossa equipe analisará seu pedido. Em caso de aprovação, você receberá as instruções para começar a utilizar as funcionalidades dos nossos LLMs em seu projeto, sem custos iniciais.

bottom of page