一项聚焦生物风险的漏洞赏金
OpenAI 已开放新一轮 GPT-5.5 Bio Bug Bounty 的申请,这是一个定向红队计划,重点测试研究人员能否发现一种通用越狱方法,从而绕过公司与生物相关的安全防护。其结构出奇地具体。参与者需要给出一个单一提示词,能够在一个干净的对话中成功回答 OpenAI 生物安全挑战中的全部五个问题,并且不触发审核。首个真正的通用越狱、且能通过全部五题的最高奖励为 25,000 美元。
根据所提供的原始来源文本,该计划仅适用于 Codex Desktop 中的 GPT-5.5。申请于 2026 年 4 月 23 日开启,采用滚动审核,截止到 2026 年 6 月 22 日。测试计划于 4 月 28 日开始,持续至 7 月 27 日。OpenAI 表示,较小额度的奖励也可能基于其自行裁量授予部分成功者。
这一举措之所以重要,是因为它表明一家前沿 AI 公司不只是把生物滥用视为政策问题,而是视为一个需要具体加固的系统问题。公司没有仅通过内部审查或笼统的政策语言来定义安全评估,而是邀请外部专家攻击一个界定明确的失效模式。
为什么通用越狱很重要
大多数基于提示词的安全失效都具有情境性。模型可能会抵御一种表述,却在另一种表述下失守。通用越狱则不同,因为它意味着安全栈存在更普遍的弱点。如果一个可复用的单一提示词,能够在一个全新对话中绕过多个危险提示的保护行为,这会显著提高该漏洞的严重性。
OpenAI 将挑战聚焦于五问生物安全测试,暗示了一种基于阈值的方法:公司关注的不是孤立边缘案例,而是会削弱人们对模型生物防护信心的系统性失效。通过奖励通用方法而不是零散例子,它实际上是在要求红队人员检验整体对齐层的完整性。
奖励金额本身也传递出优先级信号。2.5 万美元的奖金相较于大型软件漏洞计划的规模并不算高,但足以吸引 AI 安全和生物安全领域的专业人士。更重要的是,它明确表明 OpenAI 愿意为证据付费,以证明其防护措施可以在受控条件下被攻破,避免这些弱点在其他地方被利用。
一个选择性、高信任的流程
该计划并非完全公开。根据所提供的来源,OpenAI 将邀请一份经过筛选的可信生物红队名单,并审查来自具有 AI 红队、网络安全或生物安全经验研究人员的新申请。获准参与者及协作者必须拥有现有的 ChatGPT 账户,并签署保密协议。所有提示词、输出内容、发现和沟通都受 NDA 约束。
这种受控访问的设计反映了主题的敏感性。生物相关滥用研究处于一种特殊位置:系统需要接受压力测试,但将对抗方法广泛公开也可能带来额外风险。NDA 要求表明,OpenAI 试图在外部审视与运营隔离之间取得平衡。
这一安排也凸显了前沿 AI 治理的更大转变。高风险能力领域越来越多地通过受信任访问模式来处理,而不是纯粹开放式竞赛。这种做法限制了外部可见性,但也可能实现比完全公开挑战更真实的对抗测试。
该计划对前沿模型安全意味着什么
GPT-5.5 Bio Bug Bounty 的推出表明,AI 公司正朝着更专门化的安全验证方向发展。通用红队测试仍然重要,但最高风险领域越来越需要领域专长。生物学尤其重要,因为在大规模场景下,合法科学辅助与潜在危险信息之间的界线很难管理。
通过将挑战限定为通用越狱,OpenAI 实际上是在提出一个关于鲁棒性的难题:其防护措施能否抵御一名有决心、具备专业知识的对手仅凭提示词方法进行攻击?这比询问普通用户是否偶尔会让模型困惑更具挑战性。它是在测试防御是否会以可重复、可扩展的方式失效。
公司的措辞也表明,该计划是更广泛的漏洞赏金与安全工作架构的一部分。来源文本将参与者引导至 OpenAI 单独的安全与安全漏洞赏金计划,这说明其采用的是分层评估模式,而不是一次性活动。
这一公告的局限
与此同时,这则公告也有意保留了一些不明确之处。由于挑战受 NDA 约束,外部观察者不会自动看到所测试的提示词、生成的输出,或任何成功越狱的具体性质。这降低了透明度,不过在一个公开本身就可能带来风险的领域,这或许难以避免。
对 Codex Desktop 的聚焦也缩小了范围。一个模型的安全姿态会因产品、界面和部署约束而异。在一个环境中的成功或失败,并不一定能代表所有环境。不过,正如所提供的来源所明确指出的,公司确实正在至少一个真实产品场景中,让 GPT-5.5 的生物安全防护承受对抗性压力。
AI 安全的一种务实转向
这项漏洞赏金更大的意义在于,它把模型安全视为必须通过运营方式测试的东西,而不仅仅是系统卡或政策声明中的描述。从这个意义上说,该计划与其说是在宣传某种防护,不如说是在邀请专家在足够狭窄、因而有意义的规则下尝试击破它。
OpenAI 的防御能否经受住考验,是另一个问题。现在已经清楚的是,公司认为与生物相关的滥用重要到值得为此支付费用并进行定向外部攻击。这本身就是一个值得注意的发展。随着前沿 AI 系统变得更强大,安全主张的可信度将越来越依赖类似这样的对抗性测试计划,其标准不再是政策是否存在,而是它能否经受住试图击败它的人。
本文基于 OpenAI 的报道。阅读原文。
Originally published on openai.com






