DeepSeek: por que a nova IA chinesa abalou o Vale do Silício

há 2 meses 5

Porém, foi no fim do ano passado que surgiu o modelo que hoje chacoalha todo o mercado de IA. A DeepSeek é uma startup chinesa que desenvolveu um modelo de código-aberto com desempenho similar ao ChatGPT, mas com o diferencial de ser mais otimizado e barato.

O que chama atenção nesse processo é que os chineses conseguiram driblar as sanções americanas que os impediam de ter acesso aos chips mais avançados para conseguir esse resultado, conforme comentamos no podcast "Deu Tilt" do UOL.

As GPUs H100 e H200 da Nvidia estão entre as mais poderosas, mas também estão na lista daquelas que não podem ser comercializadas com a China. Sem acesso ao que tem de mais avançado em chips, os chineses tiveram que pensar em estratégias para criar um modelo mais otimizado e eficiente. E foi isso que aconteceu.

De acordo com o Relatório Técnico da DeepSeek, eles precisaram de apenas 2,78 milhões de horas de uso de GPUs H800 - um chip com capacidade inferior customizado para a China. Para termos um grau de comparação, a Meta precisou de 30 milhões de horas de uso de GPU H100 para treinar o Llama 3.1, modelo por trás da MetaAI.

Podemos também fazer uma comparação financeira. Estima-se que o custo para treinar o DeepSeek tenha sido menos de 6 milhões de dólares, enquanto o Google investiu mais de 170 milhões para treinar o Gemini.

Esse processo de otimização no treinamento acaba refletido no custo de uso para seus clientes. Enquanto o preço da API do GPT-4o é de 2,50 dólares para cada 1 milhão de tokens de entrada, o DeepSeek custa apenas 27 centavos. O mercado agora tem a sua disposição um modelo com desempenho parecido com o ChatGPT que custa praticamente 1/10 do valor.
O que era impensável há alguns meses atrás, agora traz ainda mais questionamentos para um paradigma que já estava sendo questionado. As Bigtechs trabalham com a lei de escala, a perspectiva de que aumentando a capacidade computacional, a quantidade de dados e o tamanho do modelo, aumenta proporcionalmente o desempenho da IA. Apesar do custo ambiental, essa é a justificativa para os investimentos absurdos que estão acontecendo por lá, conforme comentei na minha última coluna.

Leia o artigo completo