Labirinto contra a IA: como sites enganam a coleta de dados

há 17 horas 4

Da mesma maneira que a IA pode aprender um estilo artístico de uma imagem, também captura os padrões com os quais grandes escritores concatenam suas palavras. E o aprendizado não se restringe apenas à forma, mas também invade o conteúdo.

Se a IA consegue responder sua pergunta, é porque ela leu a resposta em algum lugar - certamente em algum texto escrito por alguém.

Não tem jeito, para a Inteligência Artificial Generativa existir, os modelos precisam ser treinados com uma quantidade absurda de conteúdos em diferentes formatos: textos, imagens, vídeos, entre outros. E quanto mais dados, melhor será o desempenho do modelo. É por este motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permissão para os seus donos.

As técnicas para conseguir os conteúdos variam muito. Tudo é possível. Recentemente, vazou que a Meta chegou até mesmo a baixar livros pirateados para treinar sua IA. No entanto, uma das técnicas mais comum é o "web scraping", que consiste no uso de "crawlers", bots automatizados que acessam sites e coletam os conteúdos.

Jornais, revistas, artigos científicos, livros, portais, blogs, tudo que está online é alvo dos "crawlers". Essa estratégia é tão agressiva que está sobrecarregando os servidores da Wikipédia. A Fundação Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informação e aumentado em 50% o uso de banda para download de conteúdo.

A resposta dos donos de conteúdos

Os donos de portais, no entanto, estão começando a reagir. E a resposta está vindo de muitas direções. Desde ações jurídicas, como o The New York Times que processou a OpenAI, como também com soluções técnicas.

Leia o artigo completo