Les Institutions de Référence Contre-Attaquent
Encyclopedia Britannica et Merriam-Webster, deux des plus vénérables éditeurs de référence du monde anglophone, ont intenté une action en justice contre OpenAI, alléguant que l'entreprise a formé ses modèles ChatGPT sur du contenu protégé par le droit d'auteur sans autorisation. L'action soutient qu'OpenAI a effectivement transformé le travail intellectuel de générations d'éditeurs, de lexicographes et d'experts en matière en données de formation pour un système d'IA commercial, et utilise désormais les capacités résultantes pour concurrencer directement les éditeurs originaux pour le trafic web et les revenus publicitaires qui soutiennent leurs opérations.
L'allégation principale est familière dans un corpus croissant de litiges sur les droits d'auteur en IA: que la formation d'un grand modèle de langage sur un texte protégé par le droit d'auteur constitue une violation du droit d'auteur, que le modèle mémorise ou non des passages spécifiques ou incorpore simplement des modèles et des connaissances du corpus d'entraînement. Ce qui distingue cette action, c'est le caractère direct de l'argument de préjudice concurrentiel — ce sont des organisations dont le modèle commercial dépend des utilisateurs visitant leurs sites web pour rechercher des informations, des utilisateurs qui obtiennent désormais leurs réponses de ChatGPT à la place.
Le Problème du Cannibalisme du Trafic
Les demandeurs allèguent que ChatGPT cannibalise leur trafic — un terme direct pour un phénomène qui remodèle l'économie de l'information dans de nombreux secteurs. Quand un utilisateur demande à ChatGPT d'expliquer un événement historique, de définir un mot ou de résumer un sujet, et reçoit une réponse fluide et complète, il n'y a aucune raison pour que cet utilisateur visite Britannica ou Merriam-Webster. La recherche de référence qui aurait pu générer une vue de page et des revenus publicitaires se produit maintenant entièrement dans l'interface ChatGPT.
Cette dynamique est existentielle pour les éditeurs de référence d'une manière qui pourrait ne pas l'être pour les organisations de presse ou les créateurs de contenu créatif. Le modèle commercial de Britannica — qui a pivoté des ventes d'encyclopédie imprimée à l'abonnement numérique après l'émergence d'Internet — dépend des utilisateurs ayant une raison de venir à Britannica spécifiquement. Si les assistants d'IA peuvent répondre de manière fiable à des questions au niveau de l'encyclopédie, la logique du trafic pour l'abonnement à Britannica peut s'éroder complètement.
Merriam-Webster fait face à un problème similaire. Les recherches en dictionnaire ont été un élément fondamental du trafic web depuis le début de l'ère d'Internet, soutenant les sites de dictionnaire soutenus par la publicité. Les modèles d'IA qui peuvent définir des mots, expliquer l'étymologie, fournir des exemples d'utilisation et clarifier les nuances de sens — tirant de données de formation qui incluaient presque certainement le contenu du dictionnaire Merriam-Webster — sont un substitut direct du produit que Merriam-Webster vend.
La Théorie Juridique et ses Précédents
La théorie de la violation du droit d'auteur dans les cas de formation en IA a été contestée sur de multiples fronts depuis que The New York Times a intenté son action historique contre OpenAI et Microsoft à la fin de 2023. La principale défense d'OpenAI — que la formation sur du contenu disponible publiquement constitue une utilisation équitable — n'a pas encore été pleinement jugée, et les tribunaux ont envoyé des signaux mitigés sur la force de l'argument.
L'analyse de l'utilisation équitable implique quatre facteurs: le but et le caractère de l'utilisation, la nature de l'œuvre protégée par le droit d'auteur, la quantité utilisée et l'effet sur le marché de l'œuvre originale. Pour les éditeurs de référence spécifiquement, le quatrième facteur — l'effet du marché — peut être l'élément le plus convaincant de leur cas. S'ils peuvent démontrer des baisses mesurables du trafic et des revenus causalement liées à la formation d'OpenAI sur leur contenu, ils ont des preuves qui vont au-delà de la spéculation sur un préjudice hypothétique.
En même temps, l'argument d'utilisation équitable d'OpenAI est plus fort pour le contenu de référence factuel que pour les œuvres créatives. Le droit d'auteur protège l'expression, pas les faits — les encyclopédies ne peuvent pas revendiquer les droits d'auteur sur les événements historiques ou les découvertes scientifiques eux-mêmes, seulement sur le langage spécifique utilisé pour les décrire. Cela peut limiter l'étendue de la réparation que Britannica et Merriam-Webster peuvent finalement obtenir même si leur réclamation de violation a du succès.
Un Modèle Plus Largé de Résistance de l'Éditeur
L'action s'ajoute à un corps important de litiges sur les droits d'auteur en IA. The Authors Guild, diverses organisations de presse, maisons de disques, artistes visuels et plates-formes de code ont tous intenté ou menacé des actions. OpenAI a réglé avec certains éditeurs, notamment l'Associated Press, et a autorisé le contenu d'autres, y compris News Corp et The Atlantic.
Le modèle suggère qu'OpenAI règle sélectivement avec les créateurs de contenu dont la coopération continue a une valeur stratégique — les organisations de presse dont le contenu peut maintenir les modèles à jour — tout en contestant les réclamations des parties où les données de formation étaient historiques plutôt que continues. Que Britannica et Merriam-Webster tombent dans une catégorie où le règlement est plus précieux que le litige dépendra de l'effet de levier de négociation, des frais de litige et de l'évaluation par OpenAI du risque juridique que l'affaire pose à ses arguments plus larges sur l'utilisation équitable.
Cet article est basé sur des reportages de Gizmodo. Lisez l'article original.

