: Direitos autorais e treinamento de inteligência artificial

há 4 meses 8

O equilíbrio entre fomentar a inovação e garantir a proteção de direitos autorais é um dos principais desafios da regulação global de IA. Modelos de inteligência artificial generativa dependem de grandes volumes de dados para treinar suas redes neurais, mas o uso de conteúdo protegido —sem autorização ou remuneração— levanta questões legais e éticas.

A discussão envolve a aplicabilidade do "fair use" —doutrina que permite o uso de obras protegidas em determinadas circunstâncias— adaptada ao contexto do treinamento de IA ("fair training").

As teses favoráveis ao "fair training" são

Dados são utilizados como insumos técnicos para ensinar o modelo sobre as relações estatísticas entre os seus elementos, não sendo relevante o conteúdo autoral em si para o seu treinamento
Aprendizagem de máquina é comparável ao processo humano de autoaprendizagem indutivo
É possível coibir práticas anticompetitivas e abusivas vedando o uso de dados exclusivamente extraídos para o treinamento de sistema de concorrente
"fair training" não impede a responsabilização dos agentes pelos resultados ("outputs") que violem direitos autorais
Aumento da concorrência, evitando que apenas grandes empresas monopolizem o treinamento de modelos devido aos custos de licenciamento

Por outro lado, diversos litígios nos EUA ajudam a ilustrar a complexidade do debate. Casos como Richard Kadrey x Meta e Doe x GitHub apontam que o uso de conteúdo protegido por IA pode infringir direitos autorais.

No caso do GitHub, o tribunal considerou que até mesmo um risco de 1% de reprodução não autorizada no treinamento do Copilot justificava a continuidade do processo. Já no embate entre The New York Times e OpenAI, questiona-se o uso indevido de grandes volumes de dados qualificados para treinamento, resultando em "outputs" similares às obras originais.

Já acordos como o da OpenAI com a agência de notícias Associated Press demonstram alternativas cooperativas, nas quais o uso de conteúdo protegido é remunerado e ocorre dentro de parâmetros transparentes.

Na União Europeia, o EU AI Act exige conformidade com as leis de direitos autorais e publicação de resumos detalhados sobre os conteúdos utilizados no treinamento, para permitir que os titulares identifiquem possíveis violações.

Paralelamente, a Copyright Directive estabelece exceções para mineração de texto e dados, aplicáveis a fins de pesquisa e outros usos comerciais ou não, desde que os titulares não tenham reservado seus direitos de forma explícita.

O EU AI Act também exclui sua aplicação de sistemas de IA desenvolvidos exclusivamente para pesquisa científica e atividades de teste antes de sua colocação em serviço.

Assim, o Marco Regulatório do Brasil pode se beneficiar dessas experiências, abordando questões como:

Divulgação de resumos dos conteúdos protegidos usados no treinamento
Modelos de IA remunerem titulares de forma razoável, considerando fatores como porte da empresa, complexidade do sistema, grau de utilização do conteúdo e impacto econômico da prática
Permitir o treinamento para fins de pesquisa e desenvolvimento, desde que observados limites proporcionais e o respeito aos direitos dos titulares
Estimular acordos entre titulares e desenvolvedores para criar um ambiente regulatório flexível

O desafio central do Marco Regulatório será permitir o desenvolvimento de práticas responsáveis que garantam um mercado competitivo e inovador, sem violar direitos, comprometer a criatividade humana ou desestimular quem gera conteúdo qualificado.