Contribuindo com
a pesquisa em IA

Avançando o conhecimento com inteligência brasileira

Na Maritaca, pesquisa é parte essencial do nosso DNA. Investimos continuamente no desenvolvimento de novas tecnologias, com foco em processamento de linguagem natural (PLN), modelos de linguagem em português e IA responsável.

Nossa equipe participa ativamente da comunidade científica, contribuindo com artigos, estudos e colaborações que buscam expandir os limites do que a inteligência artificial pode fazer — sempre com um olhar atento ao contexto local e às especificidades culturais e linguísticas do Brasil.

Publicações científicas

Sabiá-4: Relatório Técnico

2026

Este relatório técnico apresenta o Sabiá-4 e o Sabiazinho-4, uma nova geração de modelos de linguagem com foco em português brasileiro. Os modelos foram desenvolvidos em quatro etapas: pré-treino contínuo em corpora em português e jurídico brasileiro, extensão de contexto longo para 128K tokens, ajuste fino supervisionado e alinhamento de preferências.

MARCA: MAritaca Research Checklist evAluation

2026

Benchmark que avalia a capacidade dos modelos de encontrar informação na web por meio de busca em largura, com perguntas acompanhadas de checklists para avaliar completude e corretude.

Capitu: Avaliação de LLMs em Compreensão de Literatura Brasileira

2026

Benchmark de literatura brasileira para avaliar compreensão profunda de obras canônicas por modelos de linguagem em português.

Prosa: Avaliação de Geração de Texto em Português Brasileiro

2026

Conjunto de avaliação para qualidade de geração de texto em português brasileiro, abrangendo escrita criativa, técnica e jornalística.

LLM Bias Bench: Medindo Viés de Opinião e Sycophancy em LLMs

2026

Benchmark para mensurar viés ideológico/de opinião e sycophancy (concordância excessiva) em modelos de linguagem, com análise comparativa de modelos comerciais e abertos.

BRoverbs - Um benchmark para medir o quanto que LLMs entendem de provérbios brasileiros

2025

Dataset que avalia a compreensão de provérbios brasileiros por LLMs, endereçando lacunas dos benchmarks existentes em nuances linguísticas e culturais do português.

ClassiCC-PT: Construindo Corpora de Nível Industrial a partir do Common Crawl

2025

Métodos escaláveis para gerar corpus de português de alta qualidade a partir do Common Crawl. Resultado: 120 bilhões de tokens.

OAB-Bench: Avaliação Automática da Redação Jurídica de LLMs

2025

Avaliação automática de redação jurídica usando questões da 2ª fase do exame da OAB.

TiEBe: Avaliação da Memória de LLMs sobre Eventos Globais ao Longo do Tempo

2025

Benchmark com mais de 17.000 perguntas sobre eventos globais para avaliar conhecimento temporal de modelos.

Relações entre especialização de domínio e tamanho do modelo

2025

Investigação de leis de pré-treino para modelos de tamanhos variados em dados gerais vs. especializados.

Sabiá-3: Relatório Técnico

2024

Relatório técnico do Sabiá-3, geração anterior da família Sabiá.

Sabiá-2: Uma Nova Geração de Grandes Modelos de Linguagem em Português

2024

Apresentação dos modelos Sabiá-2, com avanços em fluência e desempenho em benchmarks brasileiros.

Sabiá: Grandes Modelos de Linguagem em Português

2023

Primeiro relatório técnico da família Sabiá, mostrando ganhos significativos em PT-BR sobre modelos generalistas.

Juru: Grande Modelo de Linguagem Jurídico Brasileiro a partir de Fontes Reputáveis

2024

Primeiro LLM treinado em dados jurídicos brasileiros, a partir de fontes reputáveis.

GPT-3.5 e GPT-4 avaliados no ENEM

2023

Estudo demonstrando ganhos com Chain-of-Thought em provas brasileiras.

BLUEX: Um benchmark multimodal baseado em provas da USP e UNICAMP

2023

Benchmark multimodal baseado nos vestibulares da USP e UNICAMP.

Para pesquisa e ensino

Apoio a projetos acadêmicos e científicos com tecnologia brasileira

A Maritaca acredita que o avanço da inteligência artificial precisa caminhar junto com a educação e a pesquisa aberta. Por isso, oferecemos créditos gratuitos de API para estudantes, professores e pesquisadores que queiram utilizar os modelos da família Sabiá, LLMs especializados na língua portuguesa, em projetos de ensino ou investigação científica.

Essa iniciativa busca democratizar o acesso às nossas tecnologias, contribuindo com a formação de novos profissionais, o desenvolvimento de soluções relevantes e a produção de conhecimento no ecossistema da IA em português.

Submeta sua aplicação