答えが正しいだけではもはや不十分

人工知能分野では、モデルが質問に答えられるかどうかから、その答えがどこから来たのかを証明できるかどうかへと、関心が移りつつある。The Decoder が取り上げた新たな研究は、多くの主要システムがその2つ目の部分で依然として苦戦していることを示唆している。

北京大学と上海人工知能研究所の研究者は、文書質問応答における回答精度と出典帰属の両方を測定するために、CiteVQA というベンチマークを作成した。その結論は、高リスクの場面で AI に頼ろうとする人にとって気がかりなものだ。モデルは正しい答えを出しても、実際には誤った証拠を示してしまうことがある。

研究チームはこの失敗モードを「帰属ハルシネーション」と呼んでいる。実際には、最終的な応答が正確なために AI システムは信頼できそうに見える一方で、裏付けとして提示された引用はその答えを本当に正当化していない、ということだ。

なぜ引用の質が重要なのか

DocVQA や MMLongBench-Doc のような標準的な文書分析ベンチマークは、通常、最終的な回答のみを採点する。そのため大きな盲点が生まれる。モデルはソース資料に基づいて推論していたかもしれないが、事前知識、パターン照合、あるいはプロンプト中の部分的な手がかりから推測しただけかもしれない。

多くの一般用途では、その違いは見過ごされるかもしれない。しかし、法務、医療、金融、監査ではそうはいかない。論文は、トレーサビリティこそが AI 出力をそもそも利用可能にするものだと主張する。システムが、回答を支える段落、表、図を信頼性高く特定できなければ、洗練された応答であっても運用上は安全とは言えない。

CiteVQA はそのギャップを直接あぶり出すよう設計されている。ページ番号だけでは不十分で、モデルは文書内の正確なソース位置、具体的な支援要素まで特定しなければならない。

通常の文書QAより難しいテスト

このベンチマークには、7つの分野にまたがる 711 件の PDF から 1,897 問が含まれており、その内訳は英語文書が 451 件、中国語文書が 260 件である。文書の平均長は 40.6 ページで、既存の多くの文書ベンチマークよりかなり長い。

研究者は完全な手作業ラベリングに頼らず、自動化パイプラインを構築した。文書は個々の要素に分割され、モデルは証拠の連鎖をたどる。システムは、文書を1つずつ取り除いてもモデルが答えられるかを確認することで、引用された各要素が本当に必要かどうかを検証する。答えられない場合、その証拠は不可欠と見なされる。

中心となる指標は Strict Attributed Accuracy である。この採点では、答えが正しく、かつ引用が正しい裏付け資料に当たっている場合にのみ得点が与えられる。正しい答えに誤った引用が付いた場合は0点となる。

上位モデルでもなお大きく失点

現在の20モデルが評価された。最も高い性能を示したのは Gemini-3.1-Pro-Preview で、厳格指標では100点満点中76点だった。相対的には優秀だが、利用可能な最良結果と、ほぼ完璧な信頼できる帰属との間にはまだ大きな差がある。

このベンチマークは、回答品質と証拠品質の間に明確な差があることも示した。報道によれば、GPT-5.4 は生の回答性能では 87.1 点だったが、正しい引用が求められると 59 点まで下がった。つまり、このモデルは何を言うべきかはよく分かっていても、その答えが文書のどこに由来するのかを一貫して示せていなかった。

オープンソース系システムは、報告結果でははるかに不振だった。比較で最も強い自由利用可能モデルとされた Qwen3-VL-235B-A22B は 22.5 点だった。より小規模なオープンモデルの多くは 10 点未満にとどまった。研究者はこの水準を、規制産業にとって極めて危険だと位置づけている。

正しいページを見つけるだけでも難関

ベンチマークから最も明確に読み取れるのは、多くのモデルがより細かな引用タスクに入る前の段階から苦戦しているということだ。正しいページを特定できないことが多く、そのため段落単位や図表単位での正確な帰属はさらに難しくなる。

ユーザーは引用を組み込みの安全機能だと受け止めがちだが、実際には引用形式が弱い検索ステップを覆い隠してしまうことがある。証拠らしき参照を付けたシステムは、参照なしで答えるシステムより信頼できそうに見えるかもしれないが、証拠が間違っていれば意味がない。

CiteVQA は、出典にリンクした出力を本質的に信頼できるものとして扱うのは慎重であるべきだと示している。帰属は仮定ではなく、測定しなければならない。

実用的な信頼性を狙うベンチマーク

この研究の意義は、単に勝者を宣言することではなく、目標を再定義することにある。AI が専門的な読解、コンプライアンス確認、デューデリジェンス、証拠に基づく支援に使われるなら、基準は流暢な要約やおおむね正しい答えで止まるべきではない。

重要なのは、モデルが自分で使っていると主張する正確な裏付けを取得できるかどうかだ。このベンチマークはそれを可視化し、定量化する。また、最上位を含む現在のシステムがこの点でなおばらついていることも示している。

だからといって、文書AIが使い物にならないという意味ではない。むしろ、導入判断では「うまく答えること」と「うまく根拠づけること」を区別すべきだということだ。CiteVQA はこの2つを別の能力として扱っており、結果は後者がまだ遅れていることを示唆している。

企業の導入担当者、規制当局、研究ワークフローに AI を組み込むチームにとって、これが最も重要な示唆だろう。文書インテリジェンスの次の競争軸は、より自信に満ちた文章を生成することではないかもしれない。むしろ、その文章が正しい出典の正しい行に正確に結び付いていることを証明することになる可能性がある。

この記事は The Decoder の報道に基づいています。原文を読む

Originally published on the-decoder.com