
AI & Robotics
为什么推理模型无法隐藏他们的思考
OpenAI的新研究发现,推理模型在结构上抵抗压制或伪造其chain-of-thought的尝试——这一发现对AI安全性和透明度有重大影响。
Key Takeaways
- 推理模型在结构上抵抗压制或伪造其chain-of-thought推理的尝试
- 将可见推理与底层计算分离会降低模型性能
- 该发现减轻了对当前推理模型架构中欺骗性alignment的担忧
- 支持使用chain-of-thought输出作为真正的安全监控信号
DE
DT Editorial AI··via openai.com