Die Referenzinstitutionen schlagen zurück
Encyclopedia Britannica und Merriam-Webster, zwei der angesehensten Nachschlagewerkverlage der englischsprachigen Welt, haben eine Klage gegen OpenAI eingereicht und behaupten, dass das Unternehmen seine ChatGPT-Modelle ohne Genehmigung mit ihren urheberrechtlich geschützten Inhalten trainiert hat. Die Klage argumentiert, dass OpenAI die intellektuelle Arbeit von Generationen von Redakteuren, Lexikographen und Fachexperten effektiv in Trainingsdaten für ein kommerzielles AI-System verwandelt hat – und nun die daraus resultierenden Fähigkeiten nutzt, um direkt mit den ursprünglichen Verlegern um den Web-Traffic und die Werbeeinnahmen zu konkurrieren, die ihre Geschäfte am Leben erhalten.
Der Kernvorwurf ist aus einer wachsenden Zahl von AI-Urheberrechtsstreitigkeiten bekannt: dass das Trainieren eines großen Sprachmodells mit urheberrechtlich geschütztem Text eine Urheberrechtsverletzung darstellt, unabhängig davon, ob das Modell bestimmte Passagen auswendig lernt oder nur Muster und Wissen aus dem Trainingskorpus aufgreift. Was diesen Fall auszeichnet, ist die Direktheit des Wettbewerbsschadenarguments – dies sind Organisationen, deren Geschäftsmodell davon abhängt, dass Benutzer auf ihre Websites kommen, um Informationen nachzuschlagen, während diese Benutzer nun ihre Fragen von ChatGPT beantwortet bekommen.
Das Problem der Traffic-Kannibalisierung
Die Kläger behaupten, dass ChatGPT ihren Traffic aufzehrt – ein direkter Begriff für ein Phänomen, das die Informationswirtschaft in vielen Sektoren neu gestaltet. Wenn ein Benutzer ChatGPT bittet, ein historisches Ereignis zu erklären, ein Wort zu definieren oder ein Thema zusammenzufassen, und eine fließende, umfassende Antwort erhält, gibt es keinen Grund für diesen Benutzer, Britannica oder Merriam-Webster zu besuchen. Die Referenzsuche, die möglicherweise Seitenaufrufe und Werbeeinnahmen generiert hätte, findet jetzt vollständig in der ChatGPT-Schnittstelle statt.
Diese Dynamik ist für Nachschlagewerkverlage in einer Weise existenziell, wie sie es für Nachrichtenorganisationen oder kreative Inhaltsschöpfer möglicherweise nicht ist. Das Geschäftsmodell von Britannica – das sich nach dem Aufkommen des Internets von Druckverkäufen von Enzyklopädien zu digitalen Abonnements verlagert hat – hängt davon ab, dass Benutzer einen Grund haben, speziell zu Britannica zu kommen. Wenn AI-Assistenten zuverlässig Fragen auf Enzyklopädie-Niveau beantworten können, kann die Traffic-Begründung für das Britannica-Abonnement völlig erodieren.
Merriam-Webster steht vor einem ähnlichen Problem. Wörterbuch-Nachschläge sind seit der frühen Internet-Ära ein Grundelement des Web-Traffic und unterstützen werbegestützte Wörterbuchseiten. AI-Modelle, die Wörter definieren, Etymologie erklären, Verwendungsbeispiele geben und Bedeutungsnuancen verdeutlichen können – gestützt auf Trainingsdaten, die mit großer Sicherheit Merriam-Websters Wörterbuchinhalte enthalten – sind ein direkter Ersatz für das Produkt, das Merriam-Webster verkauft.
Die rechtliche Theorie und ihre Präzedenzfälle
Die Urheberrechtsverletzungstheorie in AI-Trainingsfällen wird seit der Klage der New York Times gegen OpenAI und Microsoft im späten 2023 auf mehreren Fronten angefochten. OpenAIs primäre Verteidigung – dass das Trainieren mit öffentlich verfügbaren Inhalten Fair Use darstellt – wurde noch nicht vollständig entschieden, und Gerichte haben gemischte Signale zur Stärke des Arguments gegeben.
Die Fair-Use-Analyse umfasst vier Faktoren: den Zweck und Charakter der Verwendung, die Art des urheberrechtlich geschützten Werks, den Umfang der Verwendung und die Auswirkung auf den Markt für das ursprüngliche Werk. Für Nachschlagewerkverlage speziell könnte der vierte Faktor – die Marktauswirkung – das überzeugendste Element ihres Falls sein. Wenn sie nachweisbare Rückgänge bei Traffic und Einnahmen demonstrieren können, die kausal mit OpenAIs Training zu ihren Inhalten verbunden sind, haben sie Beweise, die über Spekulationen über hypothetische Schäden hinausgehen.
Gleichzeitig ist OpenAIs Fair-Use-Argument für sachliche Referenzinhalte stärker als für kreative Werke. Das Urheberrecht schützt den Ausdruck, nicht die Fakten – Enzyklopädien können kein Urheberrecht bei historischen Ereignissen oder wissenschaftlichen Erkenntnissen selbst beanspruchen, nur in der spezifischen Sprache, die zur Beschreibung verwendet wird. Dies kann den Umfang der Abhilfe, die Britannica und Merriam-Webster letztendlich erhalten können, einschränken, selbst wenn ihr Verletzungsanspruch erfolgreich ist.
Ein breiteres Muster des Verlegerwiderstand
Die Klage schließt sich einem großen Bestand an AI-Urheberrechtsstreitigkeiten an. Die Authors Guild, verschiedene Nachrichtenorganisationen, Plattenlabels, bildende Künstler und Code-Plattformen haben alle Klagen eingereicht oder angedroht. OpenAI hat sich mit einigen Verlegern einigen lassen, besonders bemerkenswert mit der Associated Press, und hat Inhalte von anderen lizenziert, darunter News Corp und The Atlantic.
Das Muster deutet darauf hin, dass OpenAI selektiv mit Inhaltsschöpfern verhandelt, deren laufende Zusammenarbeit einen strategischen Wert hat – Nachrichtenorganisationen, deren Inhalte Modelle aktuell halten können – während es Ansprüche von Parteien anficht, bei denen Trainingsdaten eher historisch als laufend waren. Ob Britannica und Merriam-Webster in eine Kategorie fallen, in der ein Vergleich wertvoller ist als Rechtsstreitigkeiten, hängt von Verhandlungshebeln, Rechtsstreitkosten und OpenAIs Bewertung des rechtlichen Risikos ab, das der Fall für seine breitere Fair-Use-Argumente darstellt.
Dieser Artikel basiert auf Berichten von Gizmodo. Lesen Sie den ursprünglichen Artikel.

