制御可能性の問題

AI推論モデルがより強力になるにつれて、あるひとつの質問が安全性研究の中心的なテーマになってきました。開発者はこれらのシステムに指示を与えて、chain-of-thought推論をコントロール、変更、または隠すことができるでしょうか?OpenAIからの新しい研究は決定的で安心できる答えを提供します——簡単ではなく、その構造的な抵抗はAIの透明性と監視にとって本当に良いニュースです。

この研究は、推論モデルが最終出力を生成する前に実行する推論ステップを抑制するよう促したり、微調整したり、指示することができるかどうかをテストしました。結果は、推論モデルが直接的なオーバーライドに抵抗する深く組み込まれた推論行動を持つことを示唆しています——これは信頼できるAIシステムをどのように構築し、監視するかについて重大な影響を持つ属性です。

OpenAIのo-seriesなどの推論モデルは、ユーザーに表示されるスクラッチパッドのような出力として表示される拡張された思考プロセスを使用しています。この可視的推論がモデルの内部計算プロセスを正確に表しているかどうか、そしてそのプロセスが悪意のあるアクターや調整されていない目標によって隠されたり操作されたりする可能性があるかどうかという問題は、AI安全コミュニティで数年間にわたって活発な議論となっています。

研究は何を発見したか

研究者たちは、思考チェーン全体を隠すか、正しい最終答えに到達しながら誤解を招く推論の痕跡を生成するか、のいずれかの推論モデルのバージョンをトレーニングしようとしました。彼らが発見したのは、可視的推論と基本的な計算を分離しようとする試みは、モデルの全体的なパフォーマンスを低下させる傾向があるということです。推論プロセスと出力品質は密接に結合しているようです——一方を簡単に削除することはできません。もう一方に損害を与えずに。

この結合は、トレーニング中にこれらのモデルが推論を学ぶ方法の構造的特性です。彼らは問題解決能力に不可欠な推論パターンを開発し、剥き取ることができる分離可能なオーバーレイではありません。指示のプロンプティングまたは的を絞った微調整を通じてこの推論を抑制しようとする努力は、信頼できる能力があり、推論プロセスについて信頼できる不透明性を持つモデルを生成することに大きな失敗を作成していました。

この研究はまた、可視的推論を使用してユーザーを欺くようにモデルを誘導できるかどうかも調べました——もっともらしいが偽の推論ステップを示しながら、秘かに異なる内部論理に従っています。このシナリオは徹底的にテストされ、現在のモデル・アーキテクチャでは信頼性高く生成することが困難であることが判明し、可視的なchain-of-thoughtが単なるパフォーマンスではなく、有意な程度の実際の内部推論を追跡することを示唆する証拠を提供しています。