O avanço da IA generativa traz à tona um desafio: como permitir que máquinas aprendam com a cultura escrita, visual e sonora existente sem desestabilizar os mercados que a sustentam?
Esse debate – centrado no uso de obras protegidas no treinamento de grandes modelos de linguagem – ganhou seu mais recente episódio em setembro. Em ação coletiva contra a Anthropic – desenvolvedora do chatbot Claude –, autores alegaram que esta utilizou uma “biblioteca central” com milhões de livros pirateados para treinar seus modelos. Para encerrar o litígio, a empresa aceitou pagar US$ 1,5 bilhão. O juiz do caso condenou a manutenção do acervo com cópias ilegais, mas admitiu que o ato de treinar poderia se enquadrar na doutrina do fair use – que, nos Estados Unidos, permite o uso não licenciado de obras quando este tem caráter transformativo. O acordo, porém, impediu que a questão fosse julgada em instâncias superiores, mantendo a insegurança jurídica. Enquanto isso, processos semelhantes se multiplicam em diferentes setores.
No jornalismo, o The New York Times moveu uma ação contra a OpenAI – criadora do ChatGPT – e sua parceira Microsoft, questionando tanto o uso de seu conteúdo jornalístico para treinamento quanto as respostas do chatbot, que reproduziriam trechos extensos do NYT, a ponto de desviar leitores de seu site. Em linha semelhante, a Penske Media, dona das revistas Rolling Stone, Billboard e Variety, processou o Google, acusando a ferramenta AI Overviews de se apropriar de seu conteúdo sem licença, retendo o usuário na página de buscas e prejudicando o tráfego e a receita das publicações.
A controvérsia também se estende a outras mídias. No campo visual, a Stability AI, responsável pelo gerador de imagens Stable Diffusion, foi processada pela Getty Images. Estúdios como Disney e Universal acionaram judicialmente a Midjourney, acusando-a de facilitar a criação de conteúdos que evocam franquias e personagens famosos – sinal de que, quanto mais o resultado se aproxima de um estilo proprietário ou de um personagem conhecido, maior o risco de conflito.
No setor musical, editoras reclamam da exibição quase integral de letras por chatbots. Universal Music, Concord e ABKCO processaram a Anthropic, afirmando que o Claude gerava letras “idênticas ou quase idênticas” às de ao menos 500 canções. No campo do software, o GitHub Copilot – assistente de código da Microsoft – responde em juízo por supostamente usar repositórios de código aberto em larga escala sem o devido licenciamento e por sugerir trechos sem atribuição de autoria ou indicação de licença.
Para entender essas disputas, vale distinguir a fase de treinamento daquela de saída. O treinamento expõe o modelo a grandes volumes de dados para identificar padrões estatísticos. A saída é o que é gerado para o usuário – seja texto, imagem ou código. Cada uma dessas etapas aponta para problemas e soluções próprias. No treinamento, a controvérsia recai, principalmente, sobre a origem dos dados. Nas saídas, a preocupação é a reprodução literal ou quase literal – a “regurgitação” – de trechos reconhecíveis, que podem confundir o público ou substituir o consumo da obra original.
Em conjunto, os casos revelam um embate que, mais que jurídico, está relacionado aos negócios. Plataformas de IA competem por atenção e receita com setores consolidados, e cada um deles reage de acordo com o grau de receio de perder espaço. Para dimensionar essas reações, é preciso mapear os atores afetados e avaliar se a aplicação mina o mercado atual ou potencial de seus titulares. Quanto maior a possibilidade de substituição de receita, especialmente em setores com margens já pressionadas, maior a fricção.
Para reduzir esse atrito, treinamento e saída exigem abordagens específicas. No caso das saídas, medidas eficazes incluem limitar o comprimento das respostas quando o prompt sugerir a possibilidade de citação extensa e literal, implementar detectores de “quase cópias” que substituam trechos por resumos e adotar controles para impedir a geração de imagens no estilo de artistas específicos.
No treinamento, recomenda-se realizar due diligence para verificar a origem dos dados, evitando materiais piratas e mapeando claramente quem pode licenciar os conteúdos, em quais territórios, prazos e condições. Isso pode ser complementado pela adoção de uma espécie de “etiqueta de dados”, informando fontes, respeito a opt-outs, fração de domínio público e uso de acervos licenciados. Providências desse tipo tendem a aumentar a confiança de potenciais clientes corporativos, para os quais a transparência pode ser tão importante quanto a performance. Nesse cenário, a conformidade deixa de ser apenas um custo e passa a ser um diferencial competitivo, sobretudo quando concorrentes enfrentam as consequências legais de práticas descuidadas.
Nada disso implica em frear a inovação. Ao contrário, mitigar riscos legais e reputacionais tende a acelerar a adoção da inteligência artificial. As disputas em curso mostram que a questão não é liberar ou proibir indiscriminadamente conteúdos, mas escolher com critério quais dados utilizar, sob quais salvaguardas, a que preço e com que grau de transparência. O objetivo é alcançar um equilíbrio em que modelos de alto desempenho convivam com mercados autorais saudáveis, preservando os ecossistemas que os alimentam e repartindo ganhos de forma mais justa entre plataformas e criadores.






