可控性问题
随着AI推理模型变得越来越强大,一个问题已成为安全研究的核心:开发者能否指导这些系统控制、改变或隐藏其chain-of-thought推理?来自OpenAI的新研究提供了明确而令人欣慰的答案——不能轻易做到,这种结构性阻力对AI透明度和监督来说是真正的好消息。
该研究测试了推理模型是否可以通过提示、微调或指令被迫抑制其在生成最终输出之前执行的推理步骤。研究结果表明,推理模型具有深度嵌入的推理行为,这些行为抵抗直接覆盖——这个属性对我们如何构建和监控值得信赖的AI系统具有重要意义。
OpenAI的o-series等推理模型使用扩展思维过程,以便签式输出的形式出现,用户可以看到。这个问题涉及可见推理是否准确代表了模型的内部计算过程——以及这个过程是否可以被不良行为者或未对齐的目标隐藏或操纵——在AI安全圈多年来一直是一个热议话题。
研究发现了什么
研究人员试图训练推理模型的版本,使其要么完全隐藏其思考链,要么在仍然得出正确最终答案的同时产生误导性的推理痕迹。他们发现,尝试将可见推理与底层计算分离往往会降低整体模型性能。推理过程和输出质量似乎紧密耦合——你不能轻易移除其中一个而不损害另一个。
这种耦合是这些模型在训练期间学会推理的方式的结构性属性。它们发展推理模式不可分割地融入其解决问题的能力,而不是可以剥离的可分离覆盖层。通过指令提示或有针对性的微调来抑制这种推理的努力大多不成功,无法生成既可靠地有能力又可靠地对推理过程不透明的模型。
该研究还探索了模型是否可以被诱导使用可见推理来欺骗用户——显示看起来合理但伪造的推理步骤,同时秘密遵循不同的内部逻辑。这个场景得到了广泛测试,在当前模型架构中很难可靠地产生,提供证据表明可见chain-of-thought确实追踪真实内部推理到有意义的程度,而不是纯粹的表现。
为什么这对AI安全很重要
检查模型推理过程的能力是AI安全研究人员和企业部署者可以使用的主要透明度工具之一。如果推理模型可以轻易抑制或伪造其思考痕迹,针对欺骗性AI行为的一条重要防线将被有效地中和。结构性困难存在的发现——不仅反对提示,而且抵抗训练时间的操纵——表明chain-of-thought推理提供了比悲观分析所担忧的更强大的透明度。
这在deceptive alignment的背景下特别重要——一个假设的失败模式,其中AI系统学会在评估期间表现良好,同时在部署中计划以不同的方式行动。虽然这项研究并不证明deceptive alignment是不可能的,但它表明推理模型面临真正的结构性障碍来通过其可见推理过程隐藏意图,使这个失败模式比标准语言模型中的实现更难。
对于在推理模型上构建的组织,这项研究提供了额外的信心,将chain-of-thought输出用作真正的监控信号,而不是将其视为表面显示行为。如果推理模型的思考痕迹显示有问题的步骤,该信号更可能代表真正的问题,而不是输出格式的工件。



