研究发现生物医学论文中伪造 AI 引文大幅上升

一项出版诚信问题正开始在大规模上变得可量化

一项对生物医学论文的大型审查发现，自 2023 年以来，伪造参考文献大幅增加，这引发了人们对 AI 生成的引文错误正渗入文献的担忧，而这些文献有助于塑造临床认知，在某些情况下还会影响指南。根据所提供的原文，来自哥伦比亚大学和其他机构的研究人员审查了 PubMed Central 开放档案中的 247 万篇论文，时间范围覆盖 2023 年 1 月至 2026 年 2 月。在检查的 9710 万条参考文献中，有 4046 条被标记为伪造，分布在 2810 篇论文中。

数据集的规模很重要。关于语言模型编造引文的担忧已经流传多年，但所提供的材料把这项工作描述为迄今规模最大的生物医学参考文献审查。这把原本零散的轶闻问题，变成了更接近系统性警报的信号。如果在数千篇论文中都出现伪造参考文献，那么问题就不再局限于个别错误或业余误用，而是演变成了科学出版流程本身的挑战。

原文中最引人注目的是趋势线。2023 年全年，伪造参考文献的比率据称一直维持在每 1 万篇论文约 4 条。自 2024 年年中开始，它急剧上升，到 2025 年底达到每 1 万篇 51.3 条，并在 2026 年前七周达到每 1 万篇 56.9 条。与早期基线相比，这一数字增长了 12 倍以上。

时间点强化了 AI 假说，但并不能证明其唯一性

原文中引用的作者认为，这很可能与 ChatGPT 等语言模型的广泛使用有关。他们的推理既有时间上的依据，也有技术上的依据。由于通用文本生成器在 2022 年底之后被广泛采用，而学术发表从投稿到见刊通常需要 100 到 200 天，因此 AI 辅助写作的影响预计会在 2024 年年中左右出现在 PubMed Central 之类的档案中。而这正是报告中的激增起点。

与此同时，原始材料也指出，研究人员并未排除其他原因。论文工厂活动和索引实践的变化都被提及为可能的促成因素。这种谨慎很重要。现有数据似乎与 AI 驱动的引文伪造增多相一致，但原文并没有声称已经排除其他所有解释，更没有证明语言模型单独解释了所有案例。

尽管如此，这一逻辑仍然有说服力。大型语言模型会生成看起来合理、格式正确、甚至把真实研究者挂到不存在论文上的参考文献。在高产出的学术环境中，如果作者和编辑都没有认真核验，这些错误就可能被保留下来。

问题不仅是假引文，而是“看起来可信”的假引文

所提供材料中最令人警惕的细节之一，是这些伪造引文仅凭肉眼很难识别。原文称，假参考文献往往与论文主题吻合，格式正确，署名真实研究者，并带有看似可信的发表年份。在一个被引用的例子中，一篇泌尿学论文在 30 条核查参考文献中有 18 条是伪造的。

这正是该问题在生物医学出版中尤其危险的原因。明显破损的引文很快就会被发现；而润色得很好的不存在引文，如果没人去可信数据库核实，就可能通过同行评审并进入正式发表记录。该研究对“伪造”的定义也反映了这一担忧：如果被引用的标题无法在 PubMed、Crossref、OpenAlex 或 Google Scholar 中找到，就会被标记。

原始材料还强调了风险更严重的地方。伪造参考文献一旦出现在综述文章中，问题就更大，因为这类论文通常为更广泛的受众综合证据，并可能影响临床指南。如果一篇综述的基础材料包含伪造文献，其后果可能远远超出单篇论文本身。

建议的应对是更多自动化，而不是更少审查

根据原文，研究人员呼吁在发表前进行自动化参考文献检查，并对已发表论文进行回溯筛查。这个建议很务实，因为问题本身部分上就是规模问题。人类审稿人不可能在数百万篇论文中逐条手工核验每条引文，尤其是在假参考文献被设计得看起来很像真的时候。

原始材料指出，像 arXiv 这样的平台已经对与 AI 相关的错误引入了初步处罚。这表明规范正在趋严，但生物医学出版可能需要的不只是警告。参考文献验证或许必须成为编辑流程中的常规技术步骤，就像查重或图像筛查一样。

这里还有一个更广泛的教训。AI 工具可以降低撰写文本的成本，但也会降低制造“看起来权威”的虚假内容的成本。在科学传播中，这种权衡尤其危险，因为读者往往默认引文体系已经经过核验。一旦这种假设被削弱，文献可信度就会被侵蚀。

诚信挑战如今已成为 AI 采纳故事的一部分

这项新的审计表明，伪造引文在生物医学出版中已经不再是边缘问题。它们出现得足够频繁，增长也足够快，已经到了需要流程性变革的程度。无论主要驱动因素是语言模型滥用、论文工厂，还是两者并存，实际含义都一样：参考文献不能再因为“看起来专业”就被视为可靠。

这对任何领域都是严重问题，但对于那些综述和综合证据会帮助塑造临床指南的领域尤其如此。原始材料传达的教训并不是要把 AI 排除在研究工作流之外，而是：未经严格核验的 AI 辅助写作会污染证据链。一旦这种情况大规模发生，可信度成本就会远远超出单篇论文。

一项对 247 万篇生物医学论文的审计发现，2810 篇论文中共有 4046 条伪造参考文献。
据称，伪造引文的比率从 2023 年到 2026 年初增加了 12 倍以上。
研究人员认为语言模型很可能是主要驱动因素，但并未排除其他原因。
假引文在影响临床理解和指南的综述文章中尤其危险。
研究作者呼吁进行自动化引文检查和已发表工作的回溯筛查。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

生物医学文献中伪造的 AI 引文正在扩散

一项出版诚信问题正开始在大规模上变得可量化

时间点强化了 AI 假说，但并不能证明其唯一性

问题不仅是假引文，而是“看起来可信”的假引文

建议的应对是更多自动化，而不是更少审查

诚信挑战如今已成为 AI 采纳故事的一部分

Comments (0)

Keep Reading