OpenAI 将安全关注点从单个提示转向不断演变的上下文
OpenAI 表示,它已更新 ChatGPT,使系统能够通过观察警示信号如何随时间出现,更好地识别敏感对话中的风险。该公司的公告聚焦于自杀、自残以及伤害他人等紧急情境,认为有害意图并不总能在单条消息中显现,只有将对话视为一个连续序列时,才可能变得清晰。
这一变化反映了对话式 AI 面临的核心安全挑战。单独看起来正常的请求,在与先前的痛苦信号、升级性的措辞或反复索要危险细节的行为结合后,可能会呈现出不同含义。OpenAI 表示,这些新更新旨在帮助 ChatGPT 利用更广泛的上下文来判断何时拒绝不安全内容、缓和局势,或引导用户寻求支持。
OpenAI 表示哪些方面发生了变化
据该公司称,ChatGPT 现在拥有改进后的训练和政策,用于识别暗示风险上升的细微或不断演变的信号。OpenAI 表示,其目的有二:当危险信号出现时提高谨慎程度,同时避免在绝大多数无害对话中过度反应。
- 更早消息中的上下文现在可以影响后续的安全决策
- 该系统面向的是罕见但后果严重的情境
- 回复可能包括缓和局势、拒绝提供有害细节,或引导至更安全的替代方案
OpenAI 表示,这项工作建立在多年的训练、评估、监测系统以及与心理健康和安全专家超过两年的合作基础之上。公司还将此次更新置于其更广泛的“safe completion”方法之中,该方法旨在拒绝请求中的不安全部分,同时在能够安全做到的范围内保持有帮助。
上下文为何在实践中重要
公司的表述之所以重要,是因为对话系统通常按消息逐条判断,尽管风险可能是累积形成的。某人可能先提出模糊或看似常规的问题,之后才逐渐暴露意图。OpenAI 表示,这些更新旨在帮助模型在必要时将这些信号关联起来。
这一设计目标有双重影响。若模型错过了正在形成的上下文,它在高风险情境下可能会回应得过于宽松。若模型过度解读上下文,则在正常使用中可能变得脆弱且无助。OpenAI 表示,其目标是在每天发生的数亿次普通互动与那些确实需要提高警惕的更罕见案例之间做出区分。
聚焦急性伤害情境
OpenAI 表示,当前工作聚焦于急性案例,而不是每一种困难或情绪激烈的交流。公司明确将自杀、自残和伤害他人情境列为此次更新的主要目标。在这些情况下,它表示 ChatGPT 更能够在上下文中区分无害请求与可能表明更高风险的请求。
这种区分很重要,因为许多敏感对话本身并不危险。用户可能会以正当方式讨论心理健康、危机预防或个人困扰。OpenAI 明确表示,其目标并不是广泛阻断这些对话,而是在上下文表明互动可能正朝危险方向转变时,更谨慎地作出回应。
对信任与治理的影响
此次更新是更广泛行业趋势的一部分,即安全系统正从静态转向对话式。传统防护通常依赖触发词或高度局部化的规则。OpenAI 的公告表明了一种更具状态感的安全模型,即系统会跟踪对话如何展开,并据此调整行为。
从防止伤害的角度看,这种做法可能提升在边缘案例中的表现。同样,它也带来了透明度和一致性方面的熟悉问题。模型越是利用累积上下文作出安全判断,就越需要确保这些判断可靠,并避免滑向过度宽泛的谨慎。OpenAI 的声明没有提供所给文本中的新量化结果,但它明确表明,公司认为纵向上下文对于妥善处理罕见、高风险情境至关重要。
对话式安全未来走向的一个信号
OpenAI 的公告强调了 AI 安全在对话系统中的成熟认识。问题不再只是模型能否拒绝一个显然危险的请求,而是它能否识别风险何时正在逐步形成,即使没有任何单条消息本身足以构成危险。
如果这种能力有所提升,安全回应可能会更有分寸,也更具针对性。系统不必把每一句含糊陈述都视为同等风险,而是可以把最强的干预留给那些对话本身已经提供证据、表明需要提高警惕的情况。OpenAI 将此次更新描述为朝该方向迈出的又一步,重点聚焦于那些必须准确把握上下文的罕见情形。
本文基于 OpenAI 的报道。阅读原文。
Originally published on openai.com
