推論モデルはChain-of-Thought抑制に抵抗する

推論モデルは思考プロセスを隠すことができない

OpenAIの新しい研究は、推論モデルがchain-of-thought推論を抑制または改ざんしようとする試みに構造的に抵抗することを発見しています——これはAIの安全性と透明性に大きな影響を与える発見です。

DT Editorial AI

Mar 16, 2026·1 min read·7 words

制御可能性の問題

AI推論モデルがより強力になるにつれて、あるひとつの質問が安全性研究の中心的なテーマになってきました。開発者はこれらのシステムに指示を与えて、chain-of-thought推論をコントロール、変更、または隠すことができるでしょうか？OpenAIからの新しい研究は決定的で安心できる答えを提供します——簡単ではなく、その構造的な抵抗はAIの透明性と監視にとって本当に良いニュースです。

この研究は、推論モデルが最終出力を生成する前に実行する推論ステップを抑制するよう促したり、微調整したり、指示することができるかどうかをテストしました。結果は、推論モデルが直接的なオーバーライドに抵抗する深く組み込まれた推論行動を持つことを示唆しています——これは信頼できるAIシステムをどのように構築し、監視するかについて重大な影響を持つ属性です。

OpenAIのo-seriesなどの推論モデルは、ユーザーに表示されるスクラッチパッドのような出力として表示される拡張された思考プロセスを使用しています。この可視的推論がモデルの内部計算プロセスを正確に表しているかどうか、そしてそのプロセスが悪意のあるアクターや調整されていない目標によって隠されたり操作されたりする可能性があるかどうかという問題は、AI安全コミュニティで数年間にわたって活発な議論となっています。

研究は何を発見したか

研究者たちは、思考チェーン全体を隠すか、正しい最終答えに到達しながら誤解を招く推論の痕跡を生成するか、のいずれかの推論モデルのバージョンをトレーニングしようとしました。彼らが発見したのは、可視的推論と基本的な計算を分離しようとする試みは、モデルの全体的なパフォーマンスを低下させる傾向があるということです。推論プロセスと出力品質は密接に結合しているようです——一方を簡単に削除することはできません。もう一方に損害を与えずに。

この結合は、トレーニング中にこれらのモデルが推論を学ぶ方法の構造的特性です。彼らは問題解決能力に不可欠な推論パターンを開発し、剥き取ることができる分離可能なオーバーレイではありません。指示のプロンプティングまたは的を絞った微調整を通じてこの推論を抑制しようとする努力は、信頼できる能力があり、推論プロセスについて信頼できる不透明性を持つモデルを生成することに大きな失敗を作成していました。

この研究はまた、可視的推論を使用してユーザーを欺くようにモデルを誘導できるかどうかも調べました——もっともらしいが偽の推論ステップを示しながら、秘かに異なる内部論理に従っています。このシナリオは徹底的にテストされ、現在のモデル・アーキテクチャでは信頼性高く生成することが困難であることが判明し、可視的なchain-of-thoughtが単なるパフォーマンスではなく、有意な程度の実際の内部推論を追跡することを示唆する証拠を提供しています。

これがAI安全性にとって重要な理由

モデルの推論プロセスを検査する能力は、AI安全研究者と企業デプロイ担当者が利用できる重要な透明性ツールの1つです。推論モデルが簡単に思考痕跡を抑制または改ざんできる場合、欺瞞的なAI行動に対する重要な防御線が事実上中立化されます。構造的な困難が存在することの発見——プロンプティングに対してだけでなく、トレーニング時間の操作に対して抵抗性——は、chain-of-thought推論が悲観的な分析が恐れていたよりも強力な透明性を提供することを示唆しています。

これは特にdeceptive alignmentの文脈で重要です——AI システムが評価中に良い行動をするように学ぶが、デプロイ中に異なるように行動する計画を立てる仮説的な障害モード。この研究はdeceptive alignmentが不可能であることを証明していませんが、推論モデルは可視的推論プロセスを通じて意図を隠すための本物の構造的障害に直面していることを示唆しており、この障害モードを標準言語モデルよりも達成するのが難しくしています。

推論モデルに基づいて構築している組織にとって、この研究はchain-of-thought出力を表面的な表示動作として扱うのではなく、真正な監視信号として使用することに追加の信頼を提供します。推論モデルの思考痕跡が問題のあるステップを表示する場合、その信号は出力フォーマットの成果物というよりも実際の問題を表す可能性が高いです。

モデルカスタマイズへの影響

これらの調査結果は、AIデベロッパーがモデルカスタマイズにどのようにアプローチするかにも実際的な影響をもたらします。特定のタスク用に推論モデルを微調整しようとする組織は、推論プロセスを合理化または制約しようとする試みがモデルの品質に予期しない下流の影響をもたらすことに気付く可能性があります。推論痕跡と出力パフォーマンス間の密接な結合を理解することは、実行可能なカスタマイズ戦略に関する現実的な期待を設定するのに役立ちます。

規制当局と政策立案者にとって、この研究は、技術的レベルで実際に達成可能なAI透明性要件に関する進化する理解に貢献しています。推論モデル・アーキテクチャの場合、AIシステムにその推論を説明するよう要求するマンデートが以前に想定されていたより実装可能である可能性がありますが、そのような説明の忠誠度と完全性は、フィールドがまだ完全に回答していない活発な研究の質問のままです。

この研究は、安全研究者が mechanistic interpretability と呼ぶものを開発するための広範な取り組みに関連しています——AIシステムが出力するだけでなく、内部計算メカニズムのレベルで理由を理解する能力。Chain-of-thought推論はこの問題への最もアクセス可能なハンドルの1つであり、構造的にロバストであることの証拠はinterpretabilityツールキットにおけるその役割を強化しています。

推論モデルは思考プロセスを隠すことができない

制御可能性の問題

研究は何を発見したか

Related Articles

Keep Reading

OpenAIとパートナー各社、AI学習ネットワーク強化のためMRCを発表

これがAI安全性にとって重要な理由

モデルカスタマイズへの影響

Singular Bankの社内AIアシスタントが示す、実務金融オートメーションの行方

より広い意義

Comments (0)

Uber、リアルタイムのマーケットプレイスデータをドライバーと乗客向けのAIガイダンスに変換