A OpenAI adotou essa técnica em seu modelo recém-lançado, conhecido como "o1", anteriormente conhecido como Q* e Strawberry, que a Reuters noticiou pela primeira vez em julho. O modelo O1 pode "pensar" em problemas em várias etapas, de forma semelhante ao raciocínio humano, e também envolve o uso de dados e feedback selecionados por PhDs e especialistas do setor. O ingrediente secreto da série o1 é outro conjunto de treinamento realizado em cima de modelos "básicos" como o GPT-4, e a empresa diz que planeja aplicar essa técnica com modelos básicos cada vez maiores.
Ao mesmo tempo, pesquisadores de outros grandes laboratórios de IA, como Anthropic, xAI e Google DeepMind, também têm trabalhado para desenvolver suas próprias versões da técnica, de acordo com cinco pessoas familiarizadas com os esforços.
"Somos capazes de colher muitos frutos para melhorar esses modelos muito rapidamente", disse Kevin Weil, diretor de produtos da OpenAI, em uma conferência de tecnologia em outubro. "Quando as pessoas se atualizarem, tentaremos estar três passos à frente."
O Google e a xAI não responderam aos pedidos de comentários e a Anthropic não se manifestou.
As implicações podem alterar o cenário competitivo do hardware de IA, até agora dominado pela demanda insaciável pelos chips de IA da Nvidia. Investidores de capital de risco proeminentes, da Sequoia à Andreessen Horowitz, que investiram bilhões para financiar o desenvolvimento de modelos de IA em vários laboratórios, incluindo OpenAI e xAI, estão percebendo a transição e avaliando o impacto em suas apostas caras.
"Essa mudança nos levará de um mundo de clusters maciços de pré-treinamento para nuvens de inferência, que são servidores distribuídos e baseados em nuvem para inferência", disse Sonya Huang, sócia da Sequoia Capital, à Reuters.