As Instituições de Referência Contra-Atacam

Encyclopedia Britannica e Merriam-Webster, duas das editoras de referência mais veneráveis do mundo de língua inglesa, apresentaram uma ação judicial contra OpenAI, alegando que a empresa treinou seus modelos ChatGPT com conteúdo protegido por direitos autorais sem autorização. A ação argumenta que OpenAI transformou efetivamente o trabalho intelectual de gerações de editores, lexicógrafos e especialistas em uma dados de treinamento para um sistema de AI comercial, e agora está utilizando as capacidades resultantes para competir diretamente com os editores originais pelo tráfego da web e receita publicitária que sustentam suas operações.

A alegação central é familiar do crescente corpo de litígios sobre direitos autorais de AI: que treinar um grande modelo de linguagem em texto protegido por direitos autorais constitui uma infração de direitos autorais, independentemente de o modelo memorizar passagens específicas ou meramente incorporar padrões e conhecimento do corpus de treinamento. O que distingue esta ação é a franqueza do argumento de dano competitivo — estas são organizações cujo modelo de negócio depende de usuários visitarem seus sites para procurar informações, usuários que agora obtêm suas respostas do ChatGPT em vez disso.

O Problema da Canibalização de Tráfego

Os autores da ação alegam que ChatGPT está canibalizando seu tráfego — um termo contundente para um fenômeno que está remodelando a economia da informação em muitos setores. Quando um usuário pergunta ao ChatGPT para explicar um evento histórico, definir uma palavra ou resumir um tópico, e recebe uma resposta fluida e abrangente, não há razão para esse usuário visitar Britannica ou Merriam-Webster. A pesquisa de referência que poderia ter gerado uma visualização de página e receita publicitária agora acontece inteiramente na interface do ChatGPT.

Essa dinâmica é existencial para editoras de referência de uma forma que pode não ser para organizações de notícias ou criadores de conteúdo criativo. O modelo de negócio de Britannica — que mudou das vendas de enciclopédia impressa para assinatura digital após o surgimento da internet — depende de usuários terem uma razão para vir ao Britannica especificamente. Se assistentes de AI puderem responder confiávelmente a perguntas no nível de enciclopédia, a lógica de tráfego para a assinatura de Britannica pode se dissipar completamente.

Merriam-Webster enfrenta um problema semelhante. As pesquisas em dicionário foram um alicerce do tráfego da web desde o início da era da internet, sustentando sites de dicionário com suporte de anúncios. Modelos de AI que podem definir palavras, explicar etimologia, fornecer exemplos de uso e esclarecer nuances de significado — extraindo de dados de treinamento que quase certamente incluíram conteúdo do dicionário de Merriam-Webster — são um substituto direto do produto que Merriam-Webster vende.

A Teoria Legal e seus Precedentes

A teoria de infração de direitos autorais em casos de treinamento de AI foi contestada em múltiplas frentes desde que The New York Times apresentou sua ação histórica contra OpenAI e Microsoft no final de 2023. A defesa principal de OpenAI — que treinar em conteúdo disponível publicamente constitui uso justo — ainda não foi totalmente adjudicada, e os tribunais emitiram sinais mistos sobre a força do argumento.

A análise de uso justo envolve quatro fatores: o propósito e caractere do uso, a natureza da obra protegida por direitos autorais, a quantidade utilizada e o efeito no mercado da obra original. Para editoras de referência especificamente, o quarto fator — efeito de mercado — pode ser o elemento mais convincente de seu caso. Se conseguirem demonstrar declínios mensuráveis em tráfego e receita causalmente ligados ao treinamento de OpenAI em seu conteúdo, eles têm evidências que vão além da especulação sobre dano hipotético.

Ao mesmo tempo, o argumento de uso justo de OpenAI é mais forte para conteúdo de referência factual do que pode ser para obras criativas. Direitos autorais protegem a expressão, não fatos — enciclopédias não podem reivindicar direitos autorais em eventos históricos ou descobertas científicas em si, apenas na linguagem específica usada para descrevê-los. Isto pode limitar o escopo de alívio que Britannica e Merriam-Webster podem eventualmente obter mesmo se sua reivindicação de infração tiver sucesso.

Um Padrão Mais Amplo de Resistência do Editor

A ação se une a um corpo substancial de litígios sobre direitos autorais de AI. A Authors Guild, várias organizações de notícias, gravadoras, artistas visuais e plataformas de código apresentaram ou ameaçaram ações. OpenAI chegou a acordo com alguns editores, mais notavelmente a Associated Press, e licenciou conteúdo de outros, incluindo News Corp e The Atlantic.

O padrão sugere que OpenAI está seletivamente chegando a acordo com criadores de conteúdo cuja cooperação contínua tem valor estratégico — organizações de notícias cujo conteúdo pode manter modelos atualizados — enquanto contesta reivindicações de partes onde dados de treinamento eram históricos em vez de contínuos. Se Britannica e Merriam-Webster caem em uma categoria onde acordo é mais valioso que litígio dependerá de alavancagem de negociação, custos de litígio e avaliação de OpenAI do risco legal que o caso representa para seus argumentos de uso justo mais amplos.

Este artigo é baseado em relatórios de Gizmodo. Leia o artigo original.