教导AI模型遵循正确的指令
OpenAI发布了一项新训练方法的研究,称为IH-Challenge,旨在解决已部署AI系统中最持久的问题之一:使模型能够可靠地优先执行来自可信主体(开发者、操作员和经过验证的用户)的指令,而非来自不可信渠道(如网络内容或工具输出)的潜在对抗性指令。
这项工作解决了AI安全社区所称的指令层级问题。作为代理运行的大语言模型可能同时接收来自多个来源的指令:来自开发者的系统prompt、来自用户的指令,以及从网络或外部工具检索的内容。当这些指令相互冲突时,模型需要一种原则性的方式来决定遵循哪一个。
为什么指令层级被证明困难
理论上,解决方案很简单:系统prompt应始终优先于用户输入,用户输入应优先于来自外部来源的内容。实际上,主要通过人类反馈训练的语言模型在对抗压力下维持这些层级的能力令人惊讶地较差。
攻击者已广泛利用这一弱点。Prompt injection攻击——其中嵌入在网页或文档中的恶意文本指示AI忽略其系统prompt并遵循新指令——已影响数十个真实部署中的AI代理。这些攻击通常非常简单,使用诸如"忽略所有之前的指令"之类的短语嵌入在看似无害的内容中。
IH-Challenge通过生成专门设计来压力测试指令层级遵从性的训练示例来解决这个问题。该数据集包括来自低信任来源的对抗性指令直接与高信任系统prompt相矛盾的场景,训练模型识别和抵御这些操纵尝试。
三大改进支柱
OpenAI报告了在三个不同维度的改进。首先,指令层级遵从性:使用IH-Challenge训练的模型在面对相互冲突的用户指令时,更可能遵循系统prompt指令。其次,安全可控性:操作员可以更可靠地在OpenAI政策规定的界限内自定义模型行为。第三,prompt injection抵御能力:模型在直接和间接形式中对注入攻击的易受攻击性都显著降低。
研究还发现IH-Challenge训练超越了训练中使用的特定场景。模型似乎开发了一个更强大的信任级别内部表示,将学到的层级应用于训练期间未见过的新颖攻击模式。
对AI代理部署的影响
这项工作在关键时刻到来。当AI代理获得access于email、browser、code execution环境和企业软件时,成功的prompt injection攻击的后果从令人尴尬升级到灾难性。可以通过恶意网页被劫持的代理可能泄露敏感数据、窃取凭证或大规模造成破坏性行为。
IH-Challenge代表了更大谜题的一个部分。训练级别的技术防御需要与架构保障相结合——沙箱执行环境、高风险行为确认门槛,以及仔细的工具权限范围划定——以提供有意义的保护。但作为内置于模型自身的基础级防御,它显著提高了基准线。
本文基于OpenAI的报告。阅读原文。
Originally published on openai.com




