Pela 1ª vez, IA alcança desempenho digno de medalha em Olimpíada de matemática

há 4 meses 47

Na sede do Google DeepMind, um laboratório de inteligência artificial em Londres, os pesquisadores têm um ritual antigo para anunciar resultados importantes: eles tocam um grande gongo cerimonial.

Em 2016, o gongo soou para o AlphaGo, um sistema de IA que se destacou no jogo Go. Em 2017, o gongo reverberou quando o AlphaZero conquistou o xadrez. Em cada ocasião, o algoritmo havia derrotado campeões mundiais humanos.

Na semana passada, os pesquisadores do DeepMind pegaram o gongo novamente para celebrar o que Alex Davies, líder da iniciativa de matemática do Google DeepMind, descreveu como um "avanço massivo" no raciocínio matemático por um sistema de IA.

Um par de modelos do Google DeepMind tentou a sorte com o conjunto de problemas da Olimpíada Internacional de Matemática de 2024, ou IMO, realizada de 11 a 22 de julho, cerca de 160 km a oeste de Londres, na Universidade de Bath. O evento é considerado a principal competição de matemática para os "mais brilhantes matemáticos" do mundo, de acordo com uma postagem promocional nas redes sociais.

Os participantes humanos —609 estudantes do ensino médio de 108 países— ganharam 58 medalhas de ouro, 123 de prata e 145 de bronze. A IA teve um desempenho ao nível de um medalhista de prata, resolvendo 4 dos 6 problemas para um total de 28 pontos. Foi a primeira vez que uma IA alcançou um desempenho digno de medalha nos problemas de uma Olimpíada.

"Não é perfeito, não resolvemos tudo," disse Pushmeet Kohli, vice-presidente de pesquisa do Google DeepMind, em uma entrevista. "Queremos ser perfeitos."

No entanto, Kohli descreveu o resultado como uma "transição de fase" —uma mudança transformadora— "no uso da IA na matemática e na capacidade dos sistemas de IA de fazer matemática."

O laboratório pediu a dois especialistas independentes para julgar o desempenho da IA: Timothy Gowers, um matemático da Universidade de Cambridge, na Inglaterra, e medalhista Fields, que tem interesse na interação entre matemática e IA há 25 anos; e Joseph Myers, um desenvolvedor de software em Cambridge.

Ambos ganharam ouro na IMO em seus tempos. Myers foi presidente do comitê de seleção de problemas deste ano e em Olimpíadas anteriores atuou como coordenador, julgando soluções humanas.

Gowers acrescentou em um e-mail: "Fiquei definitivamente impressionado." O laboratório havia discutido suas ambições para a Olimpíada com ele algumas semanas antes, então "minhas expectativas eram bastante altas," disse ele. "Mas o programa as atendeu, e em uma ou duas instâncias as superou significativamente." O programa encontrou as "chaves mágicas" que desbloquearam os problemas, disse ele.

Tocando o gongo

Após meses de treinamento rigoroso, os estudantes fizeram dois exames, três problemas por dia —em álgebra, combinatória, geometria e teoria dos números.

A contraparte de IA trabalhou arduamente em paralelo no laboratório em Londres. (Os estudantes não sabiam que o Google DeepMind estava competindo, em parte porque os pesquisadores não queriam roubar os holofotes.) Os pesquisadores moveram o gongo para a sala onde se reuniram para assistir ao trabalho do sistema. "Toda vez que o sistema resolvia um problema, tocávamos o gongo para celebrar," disse David Silver, um cientista de pesquisa.

Haojia Shi, um estudante da China, ficou em primeiro lugar e foi o único competidor a obter uma pontuação perfeita —42 pontos para seis problemas; cada problema vale sete pontos para uma solução completa. A equipe dos EUA ganhou o primeiro lugar com 192 pontos; a China ficou em segundo lugar com 190.

O sistema do Google ganhou seus 28 pontos resolvendo completamente quatro problemas —dois em álgebra, um em geometria e um em teoria dos números. (Falhou em dois problemas de combinatória.) O sistema teve tempo ilimitado; para alguns problemas, levou até três dias. Os estudantes tiveram apenas 4,5 horas por exame.

Para a equipe do Google DeepMind, a velocidade é secundária ao sucesso geral, pois "é realmente apenas uma questão de quanta potência de computação você está preparado para investir nessas coisas," disse Silver.

"O fato de termos alcançado esse limiar, onde é possível enfrentar esses problemas, é o que representa uma mudança de paradigma na história da matemática," acrescentou. "E, esperançosamente, não é apenas uma mudança de paradigma na IMO, mas também representa o ponto em que passamos de computadores capazes de provar coisas muito, muito simples para computadores capazes de provar coisas que os humanos não conseguem."

Ingredientes algorítmicos

Aplicar IA à matemática tem sido parte da missão do DeepMind por vários anos.

"A matemática requer essa combinação interessante de raciocínio abstrato, preciso e criativo," disse Davies. Em parte, ele observou, esse repertório de habilidades é o que torna a matemática um bom teste de fogo para o objetivo final: alcançar a chamada inteligência geral artificial, ou AGI, um sistema com capacidades que vão de emergentes a competentes, virtuosas e super-humanas. Empresas como OpenAI, Meta AI e xAI estão perseguindo objetivos semelhantes.

Os problemas de matemática da Olimpíada passaram a ser considerados um marco de referência.

Em janeiro, um sistema do Google DeepMind chamado AlphaGeometry resolveu uma amostra de problemas de geometria da Olimpíada quase ao nível de um medalhista de ouro humano. "AlphaGeometry 2 agora superou os medalhistas de ouro na resolução de problemas da IMO," disse Thang Luong, o investigador principal, em um e-mail.

Aproveitando esse impulso, o Google DeepMind intensificou seu esforço multidisciplinar para a Olimpíada, com duas equipes: uma liderada por Thomas Hubert, um engenheiro de pesquisa em Londres, e outra liderada por Luong e Quoc Le em Mountain View, cada uma com cerca de 20 pesquisadores. Para sua "equipe de raciocínio super-humano," Luong disse que recrutou uma dúzia de medalhistas da IMO —"de longe a maior concentração de medalhistas da IMO no Google!"

O ataque do laboratório na Olimpíada deste ano implantou a versão aprimorada do AlphaGeometry. Não surpreendentemente, o modelo se saiu muito bem no problema de geometria, resolvendo-o em 19 segundos.

A equipe de Hubert desenvolveu um novo modelo que é comparável, mas mais generalizado. Chamado AlphaProof, ele foi projetado para lidar com uma ampla gama de assuntos matemáticos. No total, AlphaGeometry e AlphaProof fizeram uso de várias tecnologias de IA diferentes.

Uma abordagem foi um sistema de raciocínio informal, expresso em linguagem natural. Este sistema aproveitou o Gemini, o grande modelo de linguagem do Google. Ele usou o corpus em inglês de problemas e provas publicadas e similares como dados de treinamento.

O sistema informal se destaca em identificar padrões e sugerir o que vem a seguir; é criativo e fala sobre ideias de uma maneira compreensível.

Outra abordagem foi um sistema de raciocínio formal, baseado em lógica e expresso em código. Ele usou software de provador de teoremas e assistente de provas chamado Lean, que garante que, se o sistema disser que uma prova está correta, então ela está de fato correta.

Outro componente crucial foi um algoritmo de aprendizado por reforço na linhagem do AlphaGo e AlphaZero. Esse tipo de IA aprende por si mesma e pode escalar indefinidamente, disse Silver, que é vice-presidente de aprendizado por reforço do Google DeepMind. Como o algoritmo não requer um professor humano, ele pode "aprender e continuar aprendendo e continuar aprendendo até que, em última análise, possa resolver os problemas mais difíceis que os humanos podem resolver," disse ele. "E então talvez um dia até ir além desses."

Hubert acrescentou: "O sistema pode redescobrir o conhecimento por si mesmo."

Foi o que aconteceu com o AlphaZero: Ele começou com zero conhecimento, disse Hubert, "e apenas jogando jogos, e vendo quem ganha e quem perde, ele pôde redescobrir todo o conhecimento do xadrez. Levou menos de um dia para redescobrir todo o conhecimento do xadrez, e cerca de uma semana para redescobrir todo o conhecimento do Go. Então, pensamos, vamos aplicar isso à matemática."

Gowers não se preocupa —muito— com as consequências a longo prazo. "É possível imaginar um estado de coisas onde os matemáticos basicamente não têm nada para fazer," disse ele. "Isso seria o caso se os computadores se tornassem melhores, e muito mais rápidos, em tudo o que os matemáticos fazem atualmente."

"Ainda parece haver um longo caminho a percorrer antes que os computadores sejam capazes de fazer matemática em nível de pesquisa," acrescentou. "É uma aposta bastante segura que, se o Google DeepMind pode resolver pelo menos alguns problemas difíceis da IMO, então uma ferramenta de pesquisa útil não pode estar muito longe."

Uma ferramenta realmente hábil pode tornar a matemática acessível a mais pessoas, acelerar o processo de pesquisa, empurrar os matemáticos para fora da caixa. Eventualmente, pode até mesmo propor novas ideias.

Leia o artigo completo