新的基准结果缩小了 AI 安全叙事与实测表现之间的差距

英国 AI 安全研究所最新开展的网络安全测试,正在让前沿 AI 领域近期最响亮的一个叙事变得复杂起来:Anthropic 的 Mythos Preview 代表着一种独特且更高层级的网络威胁。根据新的结果,OpenAI 的 GPT-5.5 在该研究所的网络安全评估中达到了相近的表现,这表明 Mythos 或许并不是一次孤立的跃升,而更像是更广泛模型进步的体现。

这是 Ars Technica 基于 AISI 结果所报道的核心结论。此事之所以重要,是因为 Anthropic 先前曾强调 Mythos Preview 在网络安全方面的异常风险,并将其初始发布限制给关键行业合作伙伴。新的对比并不是说这些风险并不真实,而是说,随着长程自主能力、推理和编码能力提升,类似能力可能已经在其他顶级模型中出现。

测试测量了什么

自 2023 年以来,AISI 一直在用 95 项 Capture the Flag 挑战对前沿 AI 系统进行测试,以探查其在逆向工程、网页利用和密码学等领域的网络安全能力。这些并不是对模型能力的模糊印象,而是以任务为基础的评估,旨在揭示系统在具体攻击性网络工作中能够走多远。

在最高级别的“Expert”任务中,GPT-5.5 的平均通过率为 71.4%,略高于 Mythos Preview 的 68.6%,并且处于误差范围之内。这个表述很重要。该结果并不能说明谁明显胜出,只能说明两者在足以挑战“只有一个模型跨入了全新风险类别”这一说法的水平上表现相当。

表现越来越像可实际部署的能力

报道中最引人注目的细节之一,涉及一项难度很高的任务:创建一个反汇编器来解码 Rust 二进制文件。AISI 表示,GPT-5.5 在没有人工协助的情况下,于 10 分 22 秒内解决了该挑战,API 成本为 1.73 美元。这是一个简洁的数据点,但它传达的信息很多:速度、自主性和低边际成本都在朝着值得密切关注的方向发展。

该研究所还在“ The Last Ones”测试中评估了模型,这是一次针对企业网络的 32 步模拟数据窃取攻击。GPT-5.5 在 10 次尝试中成功了 3 次,而 Mythos Preview 为 2 次。Ars Technica 指出,在此之前,没有任何模型曾在该测试中成功过哪怕一次。这并不意味着这些系统能够在不受控制的真实环境中可靠地执行此类攻击,但这确实表明,在旨在模拟严肃网络操作的结构化环境中,前沿模型如今已经能够达到早期模型完全无法触及的结果。