Os criadores do MariTalk perceberam que, ao ser treinado com base em dados da língua na qual quer se especializar, o modelo apresentava melhora robusta —o ChatGPT é alimentado em inglês, embora possa responder em português.
Os criadores do MariTalk perceberam que são mais robustos os modelos treinados na língua em que querem se especializar—ainda que responda em português, o ChatGPT foi alimentado em inglês.
Vimos que era possível deixá-las melhor para o Brasil, entendendo leis brasileiras, por exemplo, que poderiam passar despercebidas por IAs genéricas, como o ChatGPT, que tenta aprender um pouco de tudo sobre todos os países
Rodrigo Nogueira, sócio e CEO da Maritaca AI, empresa que criou o MariTalk
IA aprende com prova da OAB e Enem
Tanto MariTalk quanto ChatGPT se apóiam em um LLM (grande modelo de linguagem, na sigla em inglês).
Os LLMs são treinados com grandes quantidades de dados, obtidas em uma varredura de páginas na internet. As respostas dadas por eles partem do conhecimento adquirido com as informações dessa coleta.
A diferença entre MariTalk e ChatGPT está no banco de dados. O aprimoramento da IA nacional ocorreu com a leitura de documentos brasileiros. O chatbot da Maritaca AI visita sobretudo páginas do Brasil. Até recorre a sites em outros idiomas, desde que falem sobre nosso país.
Os pesquisadores ainda colocaram as habilidades do MariTalk sobre questões do país ao submetê-lo a provas da OAB, do Enem, do Enade e de vestibulares da Fuvest, exames que milhões de brasileiros se submetem todos os anos.
Possuir LLMs treinados em linguagem local é considerado estratégico para especialistas em IA. O governo federal incluiu no plano brasileiro para o tema a criação de um modelo robusto em português e destinou investimento de R$ 1,1 bilhão.
ChatGPT x MariTalk
A Maritaca AI admite que perde para o ChatGPT quando o que está em jogo são assuntos genéricos.
A gente não é melhor que o ChatGPT em matemática, porque é algo meio universal. Aprender a fazer conta em português ou inglês não tem tanta diferença, né? Agora somos melhores em diversos outros testes avaliados, como conhecimento em Geografia e História do Brasil. [...] O ChatGPT, em média, acerta de 45% a 50% das questões. O MariTalk é uns 20% maior. Perguntas de conhecimento do Brasil a gente sabe mais.
Rodrigo Nogueira
Treinado com supercomputador do Google
Pesquisador na área de IA há mais de 10 anos, Nogueira percebeu a oportunidade de criar o chatbot brasileiro um ano antes de o ChatGPT surgir. Na época, a OpenAI o seu modelo de linguagem liberou para desenvolvedores. Nogueira passou a alinhá-lo ao português, após ter constatado na academia que o foco em um único idioma tornava a IA melhor.
No fim de 2022, enquanto o mundo ainda aprendia a usar o ChatGPT, a Maritaca AI começava a dar forma ao seu próprio modelo de linguagem de IA em português, o Sabiá 2. Em maio de 2023, o MariTalk estava no ar.
A nossa aposta é que o mundo estará povoado por IAs especializadas e estamos na vanguarda disso
Rodrigo Nogueira
Para chegar ao estágio atual — gratuito para qualquer usuário-, a Maritaca AI recebeu R$ 20 milhões de investimentos do Google. O dinheiro foi oferecido em crédito para uso em uma rede de supercomputadores do Google especializados em treinamento de redes neurais de IAs. Seis meses custam US$ 1 milhão.
"Expliquei a minha ideia, e o Google cedeu um cluster por seis meses sem precisar pagar nada e sem contrapartida. Esses créditos foram renovados com o avanço dos treinamentos do modelo de linguagem", diz Nogueira.
Como usar o 'ChatGPT brasileiro'
Para Nogueira, o LLM da Maritaca AI pode ser usada pelo mercado interno, como empresas ou instituições públicas.
Num exemplo prático, se um tribunal de Justiça ou de Contas no Brasil usar o modelo de linguagem da Maritaca AI, é possível que a IA encontre padrões e apresente soluções mais aderentes às decisões do colegiado e da legislação brasileira.
É como um funcionário que sabe de tudo e tem toda a informação para ajudar em decisões
Rodrigo Nogueira
O MariTalk está disponível para download pago por empresas ou instituições públicas que não queiram inserir dados na nuvem. Depois disso, o chatbot é treinado localmente com os dados do contratante. Para o futuro, Nogueira espera exportar essa tecnologia.