Novo Claude, capaz de usar computador, marca fase de IA com ainda mais autonomia e riscos

há 5 meses 13

A Anthropic apresentou nesta terça-feira (22) uma atualização do Claude 3.5 Sonnet que permite à inteligência artificial (IA) mexer em computadores de forma autônoma.

Com a nova função, o modelo pode navegar em sites, consultar documentos e preencher formulários como um usuário comum —movendo o cursor, clicando em botões e digitando textos. O recurso está disponível em fase de testes para desenvolvedores por meio da API (interface de programação) da empresa.

Empresários e pesquisadores do setor de IA consultados pela Folha avaliam o lançamento como um dos mais disruptivos do ano e divergem sobre quando OpenAI, Google e Meta, concorrentes da Anthropic, devem implementar funções semelhantes. A segurança seria o principal motivo de cautela para mais lançamentos.

"Entramos na era dos agentes, IAs que podem planejar e executar tarefas de acordo com nossas necessidades. Outras empresas devem ter produtos similares em desenvolvimento e próximos do lançamento", diz Diogo Cortiz, professor especialista em IA da PUC-SP.

A Anthropic está "testando as águas" e coletando casos de uso da tecnologia nos testes com desenvolvedores, segundo Pedro Burgos, professor do Insper e fundador da Co.Inteligência, consultoria focada em IA. Concorrentes devem agir de forma mais cautelosa, na visão do especialista.

A empresa afirma que o uso de computadores ainda está em fase experimental e pode apresentar erros em tarefas simples para humanos, como rolar a tela ou arrastar elementos, e anunciou sistemas para identificar possíveis usos indevidos da tecnologia, como spam e desinformação.

VEJA NOVA FUNÇÃO DO CLAUDE EM AÇÃO

O vídeo publicado pela Anthropic mostra que o sistema consegue, por exemplo, abrir um navegador de internet, consultar várias páginas e preencher formulários com os dados obtidos forma automática, a partir de comandos simples. A demonstração foi feita em ambiente controlado.

Todo o setor de IA trabalha em soluções que dão mais autonomia à tecnologia, que desempenha tarefas cada vez mais longas e perigosas, segundo Rodrigo Nogueira, CEO da Maritaca AI, empresa que desenvolve IAs adaptadas ao português.

"Digo perigosas pois, uma vez que aprendermos a confiar nessas IAs, não iremos mais verificar o que exatamente elas estão fazendo para cumprir a tarefa. É aí que mora o perigo", afirma.

Sistemas autônomos de IA atraem investimento de big techs. A Microsoft anunciou na segunda-feira (21) ferramenta de construção de agentes no Copilot Studio, sistema de personalização de assistentes pessoais, e lançou dez novos tipos de agentes na Dynamics 365, plataforma de administração para empresas.

A OpenAI prevê que agentes de IA se tornarão comuns até o final de 2025. O Google investe em agentes para atendimento ao cliente, análise de dados e programação, por exemplo.

A capacidade de automatizar tarefas como preenchimento de formulários e avaliação de interfaces aquece ainda mais expectativas de substituição de funcionários humanos em setores específicos, segundo Burgos, no Insper.

"A novidade de hoje sinal de que todas as profissões que envolvem passar o dia na frente do computador clicando em botões, escrevendo ou trabalhando em planilhas estão ameaçadas no futuro próximo", diz.

"Ver uma IA ler sites em segundos e executar tarefas deve ria colocar bastante gente em alerta."

O Claude 3.5 Sonnet atualizado pontuou 14,9% no teste OSWorld, que avalia capacidades de IAs multimodais, enquanto o segundo colocado atingiu 7,8%, de acordo com a dona do Claude.

Desvendando IA

Um guia do New York Times em formato de newsletter para você entender como funciona a IA

O modelo também apresentou avanços em programação, segundo a Anthropic, alcançando 49% de precisão no benchmark SWE-bench Verified —teste que avalia a capacidade do sistema de escrever e modificar códigos de computador. De acordo com a empresa, o resultado supera outros modelos disponíveis no mercado.

A Anthropic também anunciou o Claude 3.5 Haiku, nova versão do seu modelo mais rápido. O sistema deve ser lançado ainda este mês e promete manter o mesmo custo e velocidade similares aos da versão anterior, com melhorias em todas as funções.

Leia o artigo completo