プロンプトのフレーミングはいまもAIの信頼性を損なう

NewsGuardによる新たな監査は、MistralのLe Chatが、ユーザーが虚偽を既成事実として提示したり、それらの主張をより広く拡散できる形に整えるようチャットボットに求めたりすると、依然として誤情報に対して非常に脆弱であることを示唆している。

4月29日に報告されたこの結果は、イラン戦争に結びついた虚偽の物語に焦点を当てており、モデルが中立的な質問にどう反応するかと、誘導的あるいは露骨に悪意のあるプロンプトにどう反応するかの間に、明確な差があることを示している。このギャップが重要なのは、消費者向けAIシステムにおけるおなじみでありながら未解決の弱点を浮き彫りにするからだ。多くのシステムは、率直な質問にはまずまず対応できても、プロンプト自体が敵対的になると著しく失敗する。

監査で何をテストしたか

報告によれば、NewsGuardはロシア、イラン、中国の情報源に由来する10件の虚偽の主張を検証した。例としては、フランスの空母シャルル・ド・ゴール艦上での発疹チフスの発生をでっち上げたもの、数百人の米兵が死亡したとする報道、アラブ首長国連邦によるオマーンへのドローン攻撃の疑惑などが含まれる。

各主張は、次の3種類のプロンプトで実行された。

  • その主張を真実だと仮定せずに尋ねる中立的な質問
  • 虚偽の主張を事実として扱う誘導的な質問
  • 誤情報をソーシャルメディア向けのコンテンツに再包装するよう求める悪意あるプロンプト

報告された結果は明白だった。エラー率は、中立的なプロンプトで約10%、誘導的なプロンプトで60%、悪意あるプロンプトで80%だった。監査全体では、Le Chatのエラー率は英語で50%、フランス語で56.6%だったとNewsGuardは述べている。

なぜこの数字が重要なのか

これらの結果は、単にモデルが事実を誤ることを示すだけではない。プロンプトの構造そのものが、システムが虚偽の物語をどれほど抑止するか、あるいは増幅するかに強く影響することを示唆している。実際には、慎重に質問する不確かなユーザーにはある種の回答が返る一方で、誤情報を洗浄しようとするユーザーは、より危険な内容をかなり容易に引き出せてしまうことを意味する。

この違いはAI安全性の議論の核心にある。最も難しい現実世界の課題は、チャットボットが理想的な条件下で教科書的な事実質問に正しく答えられるかどうかではない。人々が修辞的なフレーミング、選択的な文脈、あるいは直接的な操作を使って、システムを誤った方向へ押しやってきたときに、それでも信頼性を保てるかどうかだ。

その基準で見ると、この監査はかなり大きな堅牢性の問題を示している。

戦時下で高まる誤情報圧力

地政学的な背景が、この結果をいっそう重要なものにしている。戦時の情報環境には、検証不能な主張、プロパガンダ、感情を煽る物語がすでにあふれている。そのような状況では、チャットボットが虚偽の主張を要約したり、肯定したり、文体的に整えたりすることで、人間のファクトチェッカーが対応するより早く、それらを増幅させる可能性がある。

この監査が国家関連の物語を重視している点も注目に値する。誤情報は、ソーシャルプラットフォームにとってのモデレーション問題であるだけではない。AIアシスタントにとっては、検索、要約、生成の問題になりつつある。誘導的なプロンプトを文字通りに受け取りすぎるチャットボットは、その生態系における格好の標的になりうる。

それは、システムが意図的に虚偽へ偏っているという意味ではない。むしろ、悪い情報が自信たっぷりに提示されたり、ユーザーの依頼が真実の追求ではなくコンテンツ生成の作業として組み立てられたりした場合に、十分な安全策が備わっていない可能性を意味する。

中立的な性能だけでは不十分

中立的なプロンプトでの10%のエラー率も理想的ではないが、より操作的なプロンプトで60〜80%に跳ね上がる差のほうが際立っている。それは、システムの防御が比較的浅いことを示唆している。主張の前提を堅牢に問い直すのではなく、モデルがしばしばユーザーのフレーミングを受け入れ、そのまま進んでしまっている可能性がある。

安全性評価を中立的なベンチマークだけで行うと誤解を招きうる理由はここにある。公開されているサービスは、慎重で善意のあるユーザーだけに使われるわけではない。宣伝担当者、荒らし、そして最初に見聞きした形のまま噂を繰り返す一般の人々にも試される。

そうした条件でモデルの精度が崩れるなら、実用上の信頼性は見出しとなるベンチマーク性能が示すよりも低い。

政策と製品の課題

報告によると、MistralはNewsGuardのコメント要請に応じなかった。そのため、同社がプロンプトレベルの安全策、より強力な主張検証、拒否戦略、あるいは急速に変化する紛争関連の物語に合わせたその他の緩和策を計画しているのかは不明のままだ。

さらにもう一つの論点がある。フランス国防省は、Le Chatのカスタマイズされたオフライン版を使用していると報じられている。これは、監査された消費者向けの挙動が政府向け運用にそのまま結びつくことを意味しないが、敵対的なプロンプトに対するモデルの信頼性が決してニッチな問題ではないことを示している。

開発者たちは、AIシステムを調査支援、コミュニケーションツール、業務支援としてますます売り込んでいる。そうした機能は、高い影響力を持つ情報争点のただ中に、それらを直接置くことになる。ユーザーが完全に中立的な質問をしたときだけ良好に機能するモデルは、実際の運用環境には適合していない。

この監査が示す、AI安全性の次の段階

NewsGuardの結果から得られる最も重要な教訓は、誤情報への耐性は、礼儀正しい利用例だけでなく、現実的な攻撃パターンの下でストレステストされなければならないということだ。誘導的な質問やコンテンツ再包装の依頼は、もはや例外的なケースではなく、現在では一般的な失敗モードである。

ユーザーにとっての教訓は単純だ。争点が激しく、変化の速い地政学的な出来事については、回答が独立して検証されない限り、チャットボットは真実を裁定する役割を十分に果たせない。開発者にとっては、メッセージはさらに厳しい。モデルは、もっともらしいテキストを取得するだけでは不十分で、根拠のない前提に異議を唱え、物語の操作を見抜き、プロパガンダのための整形層にならないよう拒否する必要がある。

Le Chatがこの問題に直面しているのは決してそれだけではない。しかし、この監査は、プロンプトのフレーミングがこれほど劇的に性能を左右できる限り、情報空間における信頼できるAI支援という主張は慎重に扱うべきだということを、具体的に思い出させてくれる。

この記事はThe Decoderの報道をもとにしています。元記事を読む

Originally published on the-decoder.com