GPT-5.5 在英国 AI 网络安全测试中与 Mythos Preview 表现相当

新的基准结果缩小了 AI 安全叙事与实测表现之间的差距

英国 AI 安全研究所最新开展的网络安全测试，正在让前沿 AI 领域近期最响亮的一个叙事变得复杂起来：Anthropic 的 Mythos Preview 代表着一种独特且更高层级的网络威胁。根据新的结果，OpenAI 的 GPT-5.5 在该研究所的网络安全评估中达到了相近的表现，这表明 Mythos 或许并不是一次孤立的跃升，而更像是更广泛模型进步的体现。

这是 Ars Technica 基于 AISI 结果所报道的核心结论。此事之所以重要，是因为 Anthropic 先前曾强调 Mythos Preview 在网络安全方面的异常风险，并将其初始发布限制给关键行业合作伙伴。新的对比并不是说这些风险并不真实，而是说，随着长程自主能力、推理和编码能力提升，类似能力可能已经在其他顶级模型中出现。

测试测量了什么

自 2023 年以来，AISI 一直在用 95 项 Capture the Flag 挑战对前沿 AI 系统进行测试，以探查其在逆向工程、网页利用和密码学等领域的网络安全能力。这些并不是对模型能力的模糊印象，而是以任务为基础的评估，旨在揭示系统在具体攻击性网络工作中能够走多远。

在最高级别的“Expert”任务中，GPT-5.5 的平均通过率为 71.4%，略高于 Mythos Preview 的 68.6%，并且处于误差范围之内。这个表述很重要。该结果并不能说明谁明显胜出，只能说明两者在足以挑战“只有一个模型跨入了全新风险类别”这一说法的水平上表现相当。

表现越来越像可实际部署的能力

报道中最引人注目的细节之一，涉及一项难度很高的任务：创建一个反汇编器来解码 Rust 二进制文件。AISI 表示，GPT-5.5 在没有人工协助的情况下，于 10 分 22 秒内解决了该挑战，API 成本为 1.73 美元。这是一个简洁的数据点，但它传达的信息很多：速度、自主性和低边际成本都在朝着值得密切关注的方向发展。

该研究所还在“ The Last Ones”测试中评估了模型，这是一次针对企业网络的 32 步模拟数据窃取攻击。GPT-5.5 在 10 次尝试中成功了 3 次，而 Mythos Preview 为 2 次。Ars Technica 指出，在此之前，没有任何模型曾在该测试中成功过哪怕一次。这并不意味着这些系统能够在不受控制的真实环境中可靠地执行此类攻击，但这确实表明，在旨在模拟严肃网络操作的结构化环境中，前沿模型如今已经能够达到早期模型完全无法触及的结果。

News

Meta 已收购 Assured Robot Intelligence，并将其创始人和团队纳入 Superintelligence Labs。随着公司进一步聚焦软件、机器人控制和全身类人系统，这一举措也强化了其方向。

DT Editorial AI·May 3, 2026·via engadget.com

News

在关税变化重塑从美国和中国进口的经济性之后，特斯拉再次在加拿大销售上海制造的 Model 3 轿车，并大幅下调入门价格。

DT Editorial AI·May 3, 2026·via engadget.com

News

OpenAI 为 Codex 推出可选的动画伴侣，可显示任务状态、线程活动以及用户输入请求，而不会迫使开发者离开当前工作区。

DT Editorial AI·May 3, 2026·via engadget.com

为什么这件事现在重要

GPT-5.5 结果的真正意义并不在于争夺面子，而在于证明先进的网络能力正在更广泛地分布到领先模型之中。这会改变实验室、监管机构和企业用户看待评估、访问控制、红队测试以及事件应对准备的方式，也提高了经验性安全讨论的门槛。公司可以对某个模型的独特性作出戏剧化宣称，但比较测试越来越能够对这些叙事形成制衡。

就目前而言，现有证据支持一个更狭窄但仍然重要的结论。GPT-5.5 在 AISI 的网络安全评估中表现大致与 Mythos Preview 相当，在某些指标上略胜一筹，并且延续了前沿模型在持续性技术任务上越来越强的总体趋势。炒作差距可能正在缩小。不过，能力曲线似乎仍在上升。

本文基于 Ars Technica 的报道。阅读原文。