top of page
pesquisa.png

Construindo o futuro
da IA brasileira

Avançando o conhecimento com inteligência brasileira

Na Maritaca, pesquisa é parte essencial do nosso DNA. Investimos continuamente no desenvolvimento de novas tecnologias, com foco em processamento de linguagem natural (PLN), modelos de linguagem em português e IA responsável.
Nossa equipe participa ativamente da comunidade científica, contribuindo com artigos, estudos e colaborações que buscam expandir os limites do que a inteligência artificial pode fazer — sempre com um olhar atento ao contexto local e às especificidades culturais e linguísticas do Brasil.

Publicações científicas

Este trabalho apresenta BRoverbs, um novo dataset voltado para avaliar o desempenho de LLMs em português brasileiro. Ele surge diante das limitações de benchmarks existentes, que em grande parte se baseiam em traduções ou em exames estruturados e análises de redes sociais, sem capturar plenamente nuances linguísticas e culturais. Os provérbios brasileiros são utilizados como recurso avaliativo por condensarem sabedoria popular, expressões figurativas e estruturas sintáticas complexas que desafiam a compreensão dos modelos. Artigo publicado no Journal of the Brazilian Computer Society (JBCS).

Este estudo apresenta métodos escaláveis para criar um corpus de alta qualidade em português, essencial para o treinamento de LLMs. Focado em filtrar e adaptar dados específicos da língua, incluindo conteúdos STEM e não tóxicos, o trabalho resultou em um corpus de 120 bilhões de tokens que rivaliza com padrões industriais. Artigo publicado no Journal of the Brazilian Computer Society (JBCS).

Este estudo apresenta o OAB-Bench, um conjunto de dados para avaliar a escrita jurídica de LLMs, utilizando questões da segunda fase de exames recentes da Ordem dos Advogados do Brasil (OAB). Mostramos que os melhores modelos já conseguem passar em todos os exames e que modelos com capacidades de raciocíonio dão notas muito parecidas com as de especialistas humanos, sugerindo que podem funcionar como corretores automáticos. O código e os dados do estudo estão disponíveis.

Este estudo apresenta TiEBe, um novo benchmark com mais de 17.000 perguntas e respostas sobre eventos importantes que acontecem no mundo todo e em diferentes regiões. Esse benchmark foi construído a partir de informações organizadas da Wikipedia, e serve para avaliar o conhecimento de modelos de linguagem sobre acontecimentos recentes. Nossos resultados mostram que esses modelos têm dificuldades diferentes para lembrar fatos dependendo da região geográfica e do idioma, destacando a necessidade de uma representação mais equilibrada e inclusiva ao treinar esses modelos, especialmente para línguas menos faladas.

Este artigo tenta responder à seguinte pergunta: "À medida que a disponibilidade de recursos computacionais continua a crescer, o futuro será dominado por alguns modelos que sabem tudo, ou por uma sociedade de agentes, cada um especializado em um domínio específico?"

Para abordar essa questão, investigamos as leis que governam o pré-treinamento contínuo de modelos de diversos tamanhos quando treinados em dados gerais ou especializados.

Para nossa surpresa, descobrimos que, em termos de recursos computacionais de treinamento, modelos maiores se beneficiam mais da especialização de domínio do que modelos menores. Essa conclusão é tirada a partir de curvas divergentes com respeito aos recursos computacionais na Figura 1a. Se essas curvas convergissem, ou seja, se cruzassem em algum ponto com o aumento dos recursos computacionais, então os modelos generalistas seriam mais eficientes do que os especializados.

Neste relatório técnico, avaliamos as capacidades do modelo Sabiá-3 em diversos benchmarks, incluindo 73 exames nacionais (Enem, ENADE, OAB, Revalida, etc), chamada de funções, tarefas que requerem capacidade de agente, seguir instruções e lidar com contexto longos.

Neste relatório técnico, avaliamos as capacidades do modelo Sabiá-3 em diversos benchmarks, incluindo 73 exames nacionais (Enem, ENADE, OAB, Revalida, etc), chamada de funções, tarefas que requerem capacidade de agente, seguir instruções e lidar com contexto longos.

Neste relatório técnico, avaliamos as capacidades do modelo Sabiá-3 em diversos benchmarks, incluindo 73 exames nacionais (Enem, ENADE, OAB, Revalida, etc), chamada de funções, tarefas que requerem capacidade de agente, seguir instruções e lidar com contexto longos.

Juru é o primeiro LLM treinado em dados jurídicos brasileiros. Neste estudo, mostramos que treinar o Sabiá-2 Small em documentos relacionados ao direito provindo de sites confiáveis, como a biblioteca do CNPQ, traz ganhos em provas de direito do Enade e OAB.

Neste estudo, avaliamos o GPT-3.5 e o GPT-4 no ENEM e mostramos que ao utilizar a técnica de Chain-of-Thought o desempenho do GPT-4 melhora significativamente.

Artigo subsequente sobre a capacidade de "enxergar" imagens do GPT-4 Vision

BLUEX é um conjunto de dados composto por provas de admissão da USP e UNICAMP. Seu objetivo principal é servir como referência para a avaliação de modelos de IA atuais e futuros, incluindo aqueles com capacidades multimodais (imagem+texto). O trabalho foi publicado na conferência BRACIS 2023.

Para pesquisa e ensino

elemento_1.png

Apoio a projetos acadêmicos e científicos com tecnologia brasileira

A Maritaca acredita que o avanço da inteligência artificial precisa caminhar junto com a educação e a pesquisa aberta. Por isso, oferecemos créditos gratuitos de API para estudantes, professores e pesquisadores que queiram utilizar os modelos da família Sabiá, LLMs especializados na língua portuguesa, em projetos de ensino ou investigação científica.

Essa iniciativa busca democratizar o acesso às nossas tecnologias, contribuindo com a formação de novos profissionais, o desenvolvimento de soluções relevantes e a produção de conhecimento no ecossistema da IA em português.

elemento_pena_1 copy 7.png
Layer_1.png

© 2025 by Capina Studio©

bottom of page