
AI & Robotics
推論モデルが思考を隠すことができない理由
OpenAIの新しい研究では、推論モデルがchain-of-thoughtの抑制や偽造の試みに構造的に抵抗することが明らかになりました — これはAI安全性と透明性に大きな影響を与える発見です。
Key Takeaways
- 推論モデルはchain-of-thoughtの抑制または偽造の試みに構造的に抵抗する
- 可視推論を基礎となる計算から分離するとモデルのパフォーマンスが低下する
- 発見は現在の推論モデルアーキテクチャにおける欺瞞的なalignmentに関する懸念を軽減する
- 本当の安全監視信号としてchain-of-thoughtの出力を使用することをサポート
DE
DT Editorial AI··via openai.com