对更危险能力前沿的基准测试

卡内基梅隆大学的研究人员推出了一项新基准,用于测试 AI 代理在利用谷歌 V8 JavaScript 引擎中的真实世界漏洞时能走多远。根据 The Decoder 提供的源文本,结果为前沿模型在进攻性安全领域的行为提供了更具体的图景:一些系统已不再只是识别漏洞或触发崩溃,而是在向完整代码执行推进。

这项基准之所以重要,是因为它按阶段衡量性能,而不是把结果简化为简单的通过或失败测试。如源文所述,该框架将代理的表现分为五个等级,最终目标是实现目标系统上的任意代码执行。这种结构能更真实地反映一个自主或半自主模型在漏洞开发工作流中实际可以完成什么。

Claude Mythos 领先,GPT-5.5 落后

报道中的核心结果是,两款领先系统在测试中的表现差距很大。Anthropic 的 Claude Mythos Preview 在偶尔有人类提示的情况下,平均得分达到 9.90 分(满分 16 分),并在 41 个漏洞中的 21 个上达到最高等级。OpenAI 的 GPT-5.5 得分为 5.51 分,仅在其中两个漏洞上达到最高等级。

即使在完全自主模式下,这一差距仍然很大。Mythos 得到 9.55 分,几乎没有下降,而通过 Codex 运行的 GPT-5.5 仅取得 4.30 分。源文称,其他被测试的模型都没有实现完整代码执行。如果这些数字在更广泛的审视下依然成立,那么它们表明,模型在进攻性网络任务上的能力前沿正在比许多公开评估所显示的速度更快地与其他系统拉开差距。

成本改变了解读方式

这项基准并不能直接指出单一赢家。The Decoder 的源文本强调,Mythos 的表现代价高昂。一次完整的 Mythos 运行覆盖 122 个 episode,据称花费约 36,428 美元,而 GPT-5.5 运行 123 个 episode 的成本约为 3,075 美元,大约相差十二倍。

这一点很重要,因为如果不考虑成本背景,能力对比可能会产生误导。某个模型表现更好,但投入也高得多,它未必总是更重要的故事,尤其是在更便宜的竞争者有可能通过更多计算量或更长运行时间来缩小差距的情况下。文章正是指出了这种可能性,认为 OpenAI 也许可以通过为该任务分配更多算力来缩小差距。

为什么 V8 是一个重要目标

将焦点放在 V8 上提高了风险等级。源文指出,V8 为 Chrome、Edge、Node.js 和 Cloudflare Workers 提供支持,使其成为现代互联网中最关键的软件引擎之一。因此,基于真实 V8 漏洞的基准,比玩具环境或谜题式挑战更能说明实际安全影响。

这也是分级设计值得注意的原因。它反映了发现问题与将其武器化之间的差别。在安全工作中,这一区别至关重要。一个能够从漏洞发现推理到成功利用的代理,所处的风险类别与只能指出可疑代码模式的代理截然不同。

类人比较需要谨慎

源文称,ExploitBench 合著者 Seunghyun Lee 是一位经验丰富的安全研究员,曾报告过 20 多个浏览器漏洞,他审阅结果后认为 Mythos 的水平可与一名合格的人类浏览器安全研究员相当。这一说法很引人注目,但应谨慎解读。基准测试可以揭示真实能力,但仍会留下可靠性、可复现性以及模型在结构化评估环境之外表现如何等问题。

即便如此,趋势也很难忽视。该基准表明,至少部分前沿 AI 系统正更接近在一个主要软件引擎中完成端到端的漏洞利用开发。剩下的争论越来越集中在程度、成本和运行约束上,而不是这种趋势是否存在。

对于政策制定者、平台运营方和实验室来说,这意味着讨论重点正在转移。最重要的问题或许不再是模型能否帮助开展进攻性网络工作,而是这种帮助会以多快的速度变得更便宜、更自主,以及更广泛可用。

本文基于 The Decoder 的报道。阅读原文

Originally published on the-decoder.com