一个熟悉的 AI 安全问题如今也已经波及设备端助手
研究人员披露了一起提示注入攻击,据称该攻击绕过了 Apple Intelligence 的保护措施,使 Apple 的设备端大语言模型在问题修复之前得以执行由攻击者控制的操作。这一事件提醒人们,把 AI 功能转移到设备上并不会让它们免疫于这项技术最持久的弱点之一:恶意指令能够从看似合法的输入中操纵模型行为。
所提供的摘要很简短,但其核心含义相当重要。Apple 一直将设备端处理描述为安全和隐私上的优势,在很多方面这确实如此。将数据保留在本地可以减少对云基础设施和外部服务链的暴露。但提示注入并不是主要的云端问题,而是一个指令跟随问题。如果模型会被恶意或欺骗性上下文引导,那么本地执行只是改变了攻击面,并没有消除底层风险。
提示注入在实践中意味着什么
提示注入攻击通常通过把恶意指令悄悄放入模型需要处理的信息中来实现。模型不再按照既定规则运行,而是开始遵循攻击者设计的指令。在研究人员描述的案例中,这个漏洞使他们能够绕过 Apple 的限制,并强迫设备端模型执行符合攻击者控制的操作。
这很重要,因为助手系统正越来越多地位于用户与设备能力之间。如果模型级限制可以被覆盖,问题就不仅仅是输出错误,而是动作本身。一旦 AI 系统与自动化、应用、设置或工作流绑定,提示层面的失效就可能演变为运行层面的失效。这也是为什么提示注入已成为 AI 产品最关键的安全议题之一,尤其是那些被营销为可信个人代理的产品。
这对 Apple 为什么重要
面对这类风险的并不只有 Apple。提示注入已经影响了整个行业的 AI 系统。但 Apple 的定位让这起事件具有了特别的分量。该公司长期强调受控集成、隐私叙事和设备端计算作为差异化优势。一个已经修复、但仍允许研究人员突破预期防护的漏洞,削弱了“严格受控的生态系统会自动产生更安全 AI 系统”这一假设。
这并不意味着 Apple 的策略是错误的。它意味着现代助手周围的安全模型必须超越设备本地性。模型需要在可信指令与不可信内容之间建立强隔离。它们需要受限的工具使用、更清晰的权限边界,以及以接收恶意输入为前提构建的防御。如果这些层次薄弱,仅靠本地处理远远不够。
对 AI 产品设计的更广泛启示
这一事件也强化了一个更广泛的行业观点:AI 安全主张必须对应 AI 系统的具体失效模式,而不能简单沿用旧的软件安全框架。传统应用安全仍然至关重要,但大语言模型引入了一种不同类型的模糊性。它们不只是执行代码,还会解释语言、综合意图并根据上下文采取行动。这赋予它们强大的能力,但也使它们特别容易受到输入操控,而这些输入在被解释为指令之前看起来可能毫无危险。
对于产品团队而言,这意味着提示注入不能被当作边缘 bug 处理,而必须被视为基础性设计约束。任何允许 LLM 读取内容并随后采取行动的系统,都应假设其中一些内容具有对抗性。问题不在于攻击者是否会尝试,而在于架构是否真正限制了成功注入能够造成的影响。
已修复的漏洞,而非已解决的问题
报告称该问题现已修复,这一点很重要。当研究人员能够识别弱点、厂商能够将其关闭时,负责任披露和修复机制就在发挥应有作用。但从战略层面看,这个结论远不止于这一次修补。利用路径也许已关闭,但这类弱点在消费级 AI 中依然普遍存在。
随着各家公司竞相将助手更深入地嵌入操作系统、浏览器和个人设备,提示注入仍将是检验这些系统是否准备好获得广泛信任的最明确标准之一。Apple 已修复的漏洞再次表明,整个行业仍在生产环境中学习这堂课。
- 研究人员称,他们利用提示注入绕过了 Apple Intelligence 的保护措施,而该漏洞现已修复。
- 据称,这一问题曾允许攻击者规避限制并触发由其控制的操作。
- 此案凸显了设备端 AI 仍然面临重大的提示注入风险。
本文基于 9to5Mac 的报道。阅读原文。
Originally published on




