出版倫理の問題が大規模に可視化されつつある
生物医学論文の大規模なレビューにより、2023年以降、偽造された参考文献が急増していることが明らかになり、AIが生成した引用ミスが、臨床の理解や場合によってはガイドラインの形成に関わる文献へ入り込んでいるのではないかという懸念が高まっている。提供された原文によれば、コロンビア大学などの研究者は、2023年1月から2026年2月までの公開PubMed Centralアーカイブにある247万本の論文を調査した。確認された9710万件の参考文献のうち、4046件が偽造と判定され、2810本の論文にまたがっていた。
このデータセットの規模は重要だ。言語モデルによる捏造引用への懸念は何年も前から語られてきたが、提供された材料ではこれを生物医学の参考文献に関する史上最大規模のレビューとして位置づけている。そうなると、これは個別の逸話的な問題ではなく、システム全体への警告に近いものになる。偽造参考文献が何千本もの論文に現れているなら、もはや孤立したミスや素人の誤用ではなく、科学出版のワークフローそのものの課題になる。
原文で最も目を引くのは傾向線だ。2023年を通じて、偽造参考文献の率は1万本あたり約4件にとどまっていたという。2024年半ばから急上昇し、2025年末には1万本あたり51.3件、2026年の最初の7週間では56.9件に達した。これは初期の基準値と比べて12倍以上の増加だ。
時期はAI仮説を強めるが、唯一の原因とは証明しない
原文で引用されている著者たちは、ChatGPTのような言語モデルの普及との明白な関連を見ている。彼らの考え方は、時系列と技術の両面に基づいている。汎用テキスト生成器が2022年後半以降に広く採用され、学術出版は投稿から掲載までに100日から200日ほどかかることが多いため、AI支援の執筆の影響は2024年半ばごろにPubMed Centralのようなアーカイブに表れると予想される。そして、報告されている急増はまさにそこから始まっている。
同時に、原資料は研究者たちが他の要因を排除していないことも示している。ペーパーミル活動や索引付けの慣行変更も、寄与要因として挙げられている。この慎重さは重要だ。データはAIによる引用捏造の増加と整合的に見えるが、原文は言語モデルだけで全てのケースを説明できるとまでは主張していない。
それでも理屈は説得力がある。大規模言語モデルは、もっともらしく見え、正しい書式に従い、実在の研究者を存在しない論文に結びつける参考文献を生成することが知られている。高回転の学術環境では、著者も編集者も丁寧に検証しなければ、そうした誤りはそのまま通り抜けてしまう。
問題は単なる偽の参考文献ではなく、もっともらしく見える偽の参考文献だ
提供された材料の中で最も不気味なのは、こうした偽造引用が目視だけでは検出しにくいことだ。原文によれば、偽の参考文献は論文のテーマに合っており、正しい形式を使い、実在の研究者に帰属し、もっともらしい出版年まで含んでいることが多い。引用された例のひとつでは、泌尿器科の論文に30件中18件の偽造参考文献が含まれていた。
それが、生物医学出版でこの問題を特に危険にしている。見た目に壊れた引用ならすぐに気づけるが、洗練されているのに実在しない引用は、信頼できるデータベースで誰も照合しなければ査読を通り、出版記録に載ってしまう。研究で使われた「偽造」の定義はこの懸念を反映している。引用された題名がPubMed、Crossref、OpenAlex、Google Scholarのいずれでも見つからなければ偽造と判定された。
原資料は、どこでリスクがより深刻になるのかも強調している。偽造参考文献が特に問題なのは、レビュー論文に現れる場合だ。レビューは幅広い読者向けに証拠を統合し、臨床ガイドラインに影響を与えることがあるからだ。もしレビューの土台に捏造された文献が含まれていれば、その下流への影響は1本の論文を超えて広がりうる。
提案されている対応は、監視を弱めることではなく自動化の強化だ
原文によれば、研究者たちは出版前の自動参考文献チェックと、すでに出版された論文の遡及的スクリーニングを求めている。これは実務的な提案だ。問題そのものが、部分的には規模の問題だからだ。人間の査読者が何百万本もの論文のすべての引用を手作業で検証するのは現実的ではない。特に偽の参考文献が本物らしく見えるよう設計されている場合はなおさらだ。
原資料は、arXivのようなプラットフォームがすでにAI関連の誤りに対する初期の制裁を導入していることにも触れている。これはより厳格な規範への動きを示しているが、生物医学出版に必要なのは警告以上かもしれない。参考文献の検証は、盗用チェックや画像スクリーニングと同じように、編集工程の標準的な技術ステップになる必要があるかもしれない。
ここにはより広い教訓もある。AIツールは文章作成のコストを下げるが、権威がありそうに見える虚偽を作るコストも下げてしまう。科学コミュニケーションでは、読者が引用装置はすでに検証済みだと想定しがちなので、このトレードオフは特に危険だ。その前提が崩れると、文献への信頼は損なわれる。
倫理の課題は、いまやAI導入の物語の一部になった
今回の新しい監査は、偽造引用が生物医学出版においてもはや周縁的な問題ではないことを示している。十分な頻度で現れ、十分な速さで増えているため、プロセスの変更が必要だ。主因が言語モデルの誤用であれ、ペーパーミルであれ、その組み合わせであれ、実際の意味は同じだ。参考文献は、見た目が პროფესიონালだからといって信頼できるとは限らない。
これはどの分野にとっても重大な問題だが、レビューや総説が臨床ガイドラインの形成に関わる分野ではなおさらだ。原資料から得られる教訓は、AIを研究ワークフローから排除すべきだということではない。厳密な検証なしのAI支援執筆は、証拠の連鎖を汚染しうるということだ。それが大規模に起きれば、信頼性の代償は1本の論文をはるかに超えて広がる。
- 247万本の生物医学論文の監査で、2810本にわたり4046件の偽造参考文献が見つかった。
- 偽造引用の率は2023年から2026年初頭にかけて12倍以上に増えたとされる。
- 研究者は言語モデルを有力な原因とみているが、他の要因も排除していない。
- 偽の引用は、臨床の理解やガイドラインに影響するレビュー論文で特に危険だ。
- 研究の著者らは、自動引用チェックと既発表論文の遡及的スクリーニングを求めている。
この記事はThe Decoderの報道に基づいています。元記事を読む。
Originally published on the-decoder.com
