大英百科全书起诉OpenAI使用训练数据

参考资料机构的反击

大英百科全书和韦氏词典作为英语世界最负盛名的两家参考资料出版社，已对OpenAI提起诉讼，声称该公司未经授权在其ChatGPT模型上使用了它们受版权保护的内容。诉讼主张OpenAI实际上已将几代编辑、词汇学家和主题专家的知识转化为商业AI系统的训练数据——现在正在利用由此产生的能力与原始出版商直接竞争网络流量和广告收入。

这一核心主张在日益增多的AI版权诉讼中并不陌生：在受版权保护的文本上训练大型语言模型构成版权侵犯，无论模型是否记忆了特定段落或只是融入了训练语料库中的模式和知识。该诉讼的独特之处在于竞争伤害论点的直接性——这些机构的商业模式取决于用户来到其网站查找信息，而这些用户现在正从ChatGPT获得答案。

流量蚕食问题

原告声称ChatGPT在蚕食他们的流量——这是一个生硬的术语，用来描述正在重塑许多行业信息经济的现象。当用户要求ChatGPT解释历史事件、定义单词或总结主题，并收到流畅全面的答案时，用户就没有理由访问大英百科全书或韦氏词典。原本可能产生页面浏览量和广告收入的参考查询现在完全在ChatGPT界面内进行。

这种动态对参考资料出版商来说是存亡问题，对新闻机构或创意内容创作者可能不是这样。大英百科全书的商业模式——在互联网出现后从印刷百科全书销售转向数字订阅——取决于用户有特别理由访问大英百科全书。如果AI助手能可靠地回答百科全书级别的问题，大英百科全书订阅的流量理由可能会完全消失。

韦氏词典面临类似的问题。词典查询自互联网早期以来一直是网络流量的主要来源，维持了广告支持的词典网站。能够定义单词、解释词源、提供使用示例并澄清含义细微差别的AI模型——基于几乎肯定包含韦氏词典内容的训练数据——是对韦氏词典销售产品的直接替代。

China Just Dropped Another Bomb on America's Frontier AI Companies

Moonshot 的 Kimi K3 以大型开放模型加剧 AI 竞赛

Moonshot 表示，其新的 Kimi K3 模型在多项任务上已接近领先的闭源系统，这进一步加大了外界对中美 AI 差距的既有判断所承受的压力。

Read article

法律理论及其先例

自《纽约时报》在2023年末对OpenAI和微软提起里程碑式诉讼以来，AI训练案件中的版权侵犯理论一直在多个方面受到争议。OpenAI的主要辩护——在公开可用的内容上进行训练构成合理使用——尚未得到完全裁定，法院对该论点的强度发出了混合信号。

合理使用分析涉及四个因素：使用的目的和性质、受版权保护作品的性质、使用的数量以及对原始作品市场的影响。对于参考资料出版商来说，第四个因素——市场影响——可能是其案件中最有说服力的要素。如果他们能证明与OpenAI对其内容的训练有因果关系的流量和收入明显下降，他们就有超越对假设伤害的猜测的证据。

与此同时，OpenAI的合理使用论点对事实参考内容的适用性比对创意作品的适用性更强。版权保护表达，而非事实——百科全书不能声称对历史事件或科学发现本身拥有版权，只能对用于描述它们的具体语言拥有版权。即使其侵权索赔成功，这也可能限制了大英百科全书和韦氏词典最终能够获得的救济范围。

更广泛的出版商抵抗模式

该诉讼加入了大量AI版权诉讼。作家协会、各种新闻机构、唱片公司、视觉艺术家和代码平台都已提起或威胁提起诉讼。OpenAI已与一些出版商达成和解，最著名的是美联社，并已从包括新闻集团和《大西洋月刊》在内的其他机构获得了内容许可。

这种模式表明OpenAI有选择地与持续合作具有战略价值的内容创作者达成和解——其内容能保持模型最新的新闻机构——而对来自训练数据为历史性而非持续性的各方的索赔进行争议。大英百科全书和韦氏词典是否属于和解比诉讼更有价值的类别，将取决于谈判杠杆、诉讼成本以及OpenAI对该案件对其更广泛的合理使用论点构成的法律风险的评估。

本文基于Gizmodo的报道。阅读原文。

Japan vs. Ireland 2026 livestream: How to watch Nations Championship for free

在ITVX免费观看2026年国家锦标赛日本对爱尔兰

在ITVX免费观看2026年国家锦标赛日本对爱尔兰的直播。使用VPN可从任何地方观看。比赛于7月11日英国夏令时11:10开球。

Read article

Originally published on gizmodo.com

大英百科全书起诉OpenAI使用其训练数据