OpenAIのIH-Challengeは操作に対する耐性を訓練するLLM

AIモデルに正しい指示を従わせることを教える

OpenAIは、展開されたAIシステムにおける最も執拗な問題の1つを解決するために設計された、IH-Challengeと呼ばれる新しい訓練方法論に関する研究を発表しました。その問題とは、モデルが開発者、オペレーター、検証済みユーザーなどの信頼できるプリンシパルからの指示を、Webコンテンツやツール出力などの信頼できないチャネルを通じて到着する潜在的に対抗的な指示より確実に優先することです。

このワークは、AI安全コミュニティが指示階層問題と呼ぶものに対処しています。エージェントとして動作する大規模言語モデルは、複数のソースから同時に指示を受け取る可能性があります。開発者からのシステムプロンプト、ユーザーからの指示、およびWebまたは外部ツールから取得したコンテンツ。これらの指示が矛盾する場合、モデルはどれに従うべきかを決定するための原則的な方法が必要です。

指示階層がなぜ難しいことが判明したか

理論的には、解決策は単純です。システムプロンプトは常にユーザー入力より優先され、ユーザー入力は外部ソースからのコンテンツより優先されるべきです。実際には、主に人間フィードバックで訓練された言語モデルは、対抗的な圧力下でこれらの階層を維持するのが驚くほど下手であることが判明しました。

攻撃者はこの弱点を広範囲に利用してきました。プロンプトインジェクション攻撃—Webページまたはドキュメントに埋め込まれた悪意のあるテキストがAIにそのシステムプロンプトを無視し、新しい指令に従うよう指示する場合—は、実世界での多数の展開でAIエージェントを侵害しました。攻撃は多くの場合、「以前のすべての指示を無視する」などのフレーズを使用して、一見無害に見えるコンテンツに埋め込まれています。

IH-Challengeは、指示階層の遵守をストレステストするために特別に設計された訓練例を生成することでこれに対処します。データセットには、低信頼ソースからの対抗的指示が高信頼システムプロンプトと直接矛盾するシナリオが含まれており、モデルをこれらの操作の試みを認識し、抵抗するように訓練します。

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic、候補者を見極めるため面接でのAIツール使用を禁止

Anthropicは、明示的に許可されない限り、ライブの採用面接でのAI支援を禁じていると報じられており、応募者が自力でどのように考えるかを評価しようとしている。

Read article

改善の3つの柱

OpenAIは3つの異なる次元にわたる改善を報告しています。第1に、指示階層の遵守：IH-Challengeで訓練されたモデルは、矛盾するユーザー指示に直面した場合、システムプロンプト指令に従う可能性がはるかに高くなります。第2に、セーフティ操舵性：オペレーターはOpenAIのポリシーで確立された範囲内でモデルの動作をより確実にカスタマイズできます。第3に、プロンプトインジェクション耐性：モデルは直接的および間接的な形式の両方での注入攻撃への感受性が大幅に低下しています。

研究はまた、IH-Challenge訓練が訓練で使用された特定のシナリオを超えて一般化されることを発見しています。モデルは信頼レベルのより堅牢な内部表現を開発し、訓練中に見られなかった新しい攻撃パターンに学習した階層を適用しているようです。

AIエージェント展開への影響

このワークは重要な時期に到着しています。AIエージェントがメール、ブラウザ、コード実行環境、およびエンタープライズソフトウェアへのアクセスを取得すると、プロンプトインジェクション攻撃の成功による結果が恥ずかしいものから壊滅的なものへとエスカレートします。悪意のあるWebページを通じてハイジャックされる可能性のあるエージェントは、機密データを漏洩したり、認証情報を流出させたり、規模で破壊的な行動を取ったりする可能性があります。

IH-Challengeは、より大きなパズルの一部を表しています。訓練レベルでの技術的防御は、アーキテクチャ上のセーフガード—サンドボックス実行環境、ハイリスクアクション用の確認ゲート、および慎重なツール権限スコープ—と組み合わせられ、意味のある保護を提供する必要があります。しかし、モデル自体に組み込まれた基礎レベルの防御として、ベースラインを大幅に引き上げます。

この記事はOpenAIの報告に基づいています。元の記事を読む。