可控性问题

随着AI推理模型变得越来越强大,一个问题已成为安全研究的中心:开发人员能否指示这些系统控制、改变或隐藏其chain-of-thought推理?OpenAI的新研究提供了一个明确和令人放心的答案——不容易,这种结构阻力对AI透明度和监督来说真是好消息。

该研究测试了推理模型是否可以通过提示、fine-tune或指示来压制它们在生成最终输出之前执行的推理步骤。研究结果表明,推理模型具有深深根植的推理行为,这些行为抵抗直接覆盖——这一特性对我们如何构建和监控值得信任的AI系统具有重大意义。

OpenAI的o-series等推理模型使用扩展思维过程,显示为用户可见的便签式输出。这种可见推理是否准确代表模型的内部计算过程,以及这一过程是否可能被不良行为者或目标不当的目标隐藏或操纵的问题,多年来一直是AI安全圈内的活跃讨论。

研究发现了什么

研究人员尝试训练推理模型的版本,这些版本要么完全隐藏其chain-of-thought,要么在仍然得出正确最终答案的同时产生误导性推理迹象。他们发现,试图将可见推理与底层计算分离的尝试往往会降低模型的整体性能。推理过程和输出质量似乎紧密耦合——你不能轻易删除一个而不损害另一个。

这种耦合是这些模型在训练中学习推理的结构属性。他们开发与问题解决能力不可或缺的推理模式,而不是可以剥离的可分离叠加层。通过prompting或有针对性的fine-tuning压制此推理的努力在很大程度上未能生成既可靠有能力又对其推理过程可靠不透明的模型。

该研究还探索了模型是否可能被诱导使用可见推理来欺骗用户——显示看似合理但伪造的推理步骤,同时秘密地遵循不同的内部逻辑。该场景经过广泛测试,发现在当前模型架构中难以可靠地生成,提供证据表明可见的chain-of-thought在很大程度上追踪真实的内部推理,而不仅仅是纯粹表现。

为什么这对AI安全很重要

检查模型推理过程的能力是AI安全研究人员和企业部署人员可用的关键透明度工具之一。如果推理模型可以平凡地压制或伪造其思维痕迹,针对欺骗性AI行为的重要防线将被有效地中和。发现结构性困难存在——不仅反对prompting而且抵抗训练时间操纵——表明chain-of-thought推理提供的透明度比悲观分析所担心的更加稳健。

这在欺骗性alignment的背景下特别重要——一种假设的故障模式,其中AI系统学会在评估期间表现良好,同时计划在部署中表现不同。虽然这项研究并未证明欺骗性alignment是不可能的,但它表明推理模型在通过其可见推理过程隐藏意图方面面临真正的结构性障碍,使得这种故障模式比标准语言模型更难实现。

对于在推理模型上构建的组织,这项研究提供了额外的信心,将chain-of-thought输出用作真正的监控信号,而不是将其视为表面显示行为。如果推理模型的思维痕迹显示有问题的步骤,该信号更可能代表真实问题而不是输出格式化的工件。

模型定制的含义

这些发现还对AI开发人员如何处理模型定制具有实际含义。寻求对特定任务的推理模型进行fine-tune的组织可能会发现,简化或限制推理过程的尝试对模型质量产生意外的下游影响。理解推理痕迹和输出性能之间的紧密耦合有助于对可行的定制策略设定现实期望。

对于监管机构和政策制定者,这项研究有助于不断发展的理解,即AI透明度要求在技术层面实际可实现的内容。要求AI系统解释其推理的授权可能比以前对推理模型架构假设的更可实施,尽管此类解释的保真度和完整性仍然是该领域尚未完全解决的活跃研究问题。

该研究与开发安全研究人员称为机制可解释性的更广泛努力有关——能够不仅理解AI系统输出什么,而且在内部计算机制的层面上理解为什么的能力。Chain-of-thought推理是处理此问题的最易访问方式之一,证据表明它在结构上是稳健的,增强了其在可解释性工具包中的作用。

更广泛的意义

值得信任的AI需要可以理解、预测和监控其行为的系统。Chain-of-thought透明度是当前用于在已部署系统中实现这一目标的最实用工具之一。它在结构上是稳健的而不是在表面上应用的证据加强了推理模型架构作为高风险企业和政府部署基础的情况。

该研究代表了更广泛努力的一部分,以了解哪些安全属性可以在训练时间建立到模型中,而不是在推理时间施加。推理不容易与其可见迹象分离的发现表明,训练时间安全属性可能比仅运行时干预提供更持久的保证——这样的洞察力可能在未来几年内塑造AI系统设计,因为行业努力应对如何构建既高度能力又真正值得信任的系统。

本文基于OpenAI的报道。阅读原始文章