: Direitos autorais e treinamento de inteligência artificial

há 3 semanas 3

O equilíbrio entre fomentar a inovação e garantir a proteção de direitos autorais é um dos principais desafios da regulação global de IA. Modelos de inteligência artificial generativa dependem de grandes volumes de dados para treinar suas redes neurais, mas o uso de conteúdo protegido —sem autorização ou remuneração— levanta questões legais e éticas.

A discussão envolve a aplicabilidade do "fair use" —doutrina que permite o uso de obras protegidas em determinadas circunstâncias— adaptada ao contexto do treinamento de IA ("fair training").

As teses favoráveis ao "fair training" são

  • Dados são utilizados como insumos técnicos para ensinar o modelo sobre as relações estatísticas entre os seus elementos, não sendo relevante o conteúdo autoral em si para o seu treinamento
  • Aprendizagem de máquina é comparável ao processo humano de autoaprendizagem indutivo
  • É possível coibir práticas anticompetitivas e abusivas vedando o uso de dados exclusivamente extraídos para o treinamento de sistema de concorrente
  • "fair training" não impede a responsabilização dos agentes pelos resultados ("outputs") que violem direitos autorais
  • Aumento da concorrência, evitando que apenas grandes empresas monopolizem o treinamento de modelos devido aos custos de licenciamento

Por outro lado, diversos litígios nos EUA ajudam a ilustrar a complexidade do debate. Casos como Richard Kadrey x Meta e Doe x GitHub apontam que o uso de conteúdo protegido por IA pode infringir direitos autorais.

No caso do GitHub, o tribunal considerou que até mesmo um risco de 1% de reprodução não autorizada no treinamento do Copilot justificava a continuidade do processo. Já no embate entre The New York Times e OpenAI, questiona-se o uso indevido de grandes volumes de dados qualificados para treinamento, resultando em "outputs" similares às obras originais.

Já acordos como o da OpenAI com a agência de notícias Associated Press demonstram alternativas cooperativas, nas quais o uso de conteúdo protegido é remunerado e ocorre dentro de parâmetros transparentes.

Na União Europeia, o EU AI Act exige conformidade com as leis de direitos autorais e publicação de resumos detalhados sobre os conteúdos utilizados no treinamento, para permitir que os titulares identifiquem possíveis violações.

Paralelamente, a Copyright Directive estabelece exceções para mineração de texto e dados, aplicáveis a fins de pesquisa e outros usos comerciais ou não, desde que os titulares não tenham reservado seus direitos de forma explícita.

O EU AI Act também exclui sua aplicação de sistemas de IA desenvolvidos exclusivamente para pesquisa científica e atividades de teste antes de sua colocação em serviço.

Assim, o Marco Regulatório do Brasil pode se beneficiar dessas experiências, abordando questões como:

  • Divulgação de resumos dos conteúdos protegidos usados no treinamento
  • Modelos de IA remunerem titulares de forma razoável, considerando fatores como porte da empresa, complexidade do sistema, grau de utilização do conteúdo e impacto econômico da prática
  • Permitir o treinamento para fins de pesquisa e desenvolvimento, desde que observados limites proporcionais e o respeito aos direitos dos titulares
  • Estimular acordos entre titulares e desenvolvedores para criar um ambiente regulatório flexível

O desafio central do Marco Regulatório será permitir o desenvolvimento de práticas responsáveis que garantam um mercado competitivo e inovador, sem violar direitos, comprometer a criatividade humana ou desestimular quem gera conteúdo qualificado.

Colunas e Blogs

Receba no seu email uma seleção de colunas e blogs da Folha

Leia o artigo completo