Empresas de IA da China correm para alcançar DeepSeek no feriado nacional

há 2 meses 5

Grupos chineses de inteligência artificial estão se apressando para lançar atualizações de modelos na semana do feriado do Ano Novo chinês, dias após a startup chinesa DeepSeek anunciar avanços em seu modelo de IA, apesar das restrições de chips dos EUA.

Na segunda-feira (27), véspera do feriado anual mais importante da China, a DeepSeek lançou um modelo de código aberto para geração de imagens, consolidando sua reputação como a principal disruptora em um campo anteriormente dominado por gigantes dos EUA. Isso ocorreu logo após os lançamentos de modelos da gigante de tecnologia Alibaba e das startups Moonshot e Zhipu.

Um gerente de produto de uma startup de modelos de linguagem de grande porte afirmou que as equipes estão fazendo hora extra para viabilizar os lançamentos no feriado e comparou o momento ao que ocorre antes do Natal. O Ano Novo chinês será comemorado nesta quarta-feira (29), mas o feriado começou na terça-feira (28) e vai até a próxima terça-feira (4).

Ao mesmo tempo que a conquista da DeepSeek gerou preocupação nos EUA sobre os avanços que os laboratórios chineses estão fazendo com orçamentos reduzidos, pessoas que trabalham no setor dizem que o anúncio aumentou a confiança na China que haverá um impulso nos investimentos.

De acordo com um investidor de IA na China. a DeepSeek motivou os rivais locais a buscarem alcançá-la na disputa pelo modelo de IA.

A DeepSeek chamou a atenção mundial com uma série de lançamentos de modelos que mostram desempenho semelhante aos dos rivais dos EUA, como OpenAI e Meta, com um custo bem menor e um tempo de pesquisa inferior, usando modelos antigos dos chips da Nvidia.

Na semana passada, lançou seu modelo de raciocínio R1, um modelo avançado que rivaliza com o o1 da OpenAI e pode aprender e melhorar automaticamente sem supervisão humana.

"A DeepSeek animou o mercado de concorrentes na China e, mais amplamente, a comunidade global de IA de código aberto que usará suas descobertas do artigo R1 para avançar em modelos de raciocínio", avaliou Wang Tiezhen, engenheiro do centro de pesquisa de IA Hugging Face.

Nesta semana, investidores venderam ações relacionadas à IA, com a Nvidia perdendo quase US$ 600 bilhões em valor de mercado na segunda-feira. Eles estavam reagindo aos avanços chineses que mostram ser possível construir modelos poderosos enquanto se persegue uma estratégia diferente da dos EUA, que é construir clusters computacionais cada vez maiores para se destacar na corrida da IA.

Na segunda-feira, a Qwen da Alibaba lançou o Qwen2.5-1M, uma série de novos modelos capazes de lidar com entradas mais longas, um desenvolvimento importante que significaria que o modelo poderia ser implantado para aplicações de agentes de IA com maiores demandas de memória, segundo Wang.

No mesmo dia, a DeepSeek exibiu ao público o Janus-Pro, um modelo de geração de texto para imagem que afirma poder superar os modelos de ponta de concorrentes como o Dall-E 3 da OpenAI e o Stable Diffusion 3 da Stability AI em alguns benchmarks.

A Zhipu, avaliada em sua última rodada de financiamento em dezembro em US$ 3 bilhões, lançou na semana passada uma atualização para o GLM-PC. O modelo de agente de IA é voltado para clientes empresariais, permitindo que computadores completem automaticamente tarefas como preencher formulários ou analisar relatórios financeiros.

Desvendando IA

Um guia do New York Times em formato de newsletter para você entender como funciona a IA

Embora a Zhipu não tenha atraído muita atenção para seu desenvolvimento de LLM, ela tem uma liderança entre as startups locais de IA na comercialização de sua tecnologia, com apoio de governos locais e empresas estatais que se associaram à empresa com sede em Pequim para implantar seus modelos.

Na semana passada, outra startup de Pequim, a Moonshot, que possui o popular chatbot de IA Kimi, atualizou seu modelo de raciocínio para o Kimi k1.5, demonstrando bons resultados na comparação com modelos de IA estabelecidos para tarefas de raciocínio complexo. O último lançamento pode processar textos e imagens enquanto lida com consultas longas e complexas.

É prática comum para empresas de tecnologia chinesas lançar produtos antes do Ano Novo chinês, com o objetivo de aproveitar que potenciais clientes com muito tempo livre durante o feriado podem testá-los e explorá-los.

Uma vez que as empresas chinesas de IA retornem de sua pausa, a corrida voltará com a disputa para se tornar o principal desenvolvedor de aplicações de IA para uso comercial.

Leia o artigo completo