Anthropic 的网络安全叙事遭遇复现压力
Anthropic 将 Claude Mythos 描述为一款受到严格控制的网络安全模型,其能力强大到足以证明需要限制访问。根据所提供的原文,公司通过 Project Glasswing 将 Mythos Preview 限定向由 11 个组织组成的联合体开放,理由是其具有进攻性潜力。据报道,内部测试以及英国 AI 安全研究所的一次审计都发现,该模型能够发现软件漏洞、独立构造可用的漏洞利用代码,并在模拟中攻破整个企业网络,前提是这些网络规模较小、防御薄弱且存在漏洞。
这些说法相当严肃,而最新进展并不是这些说法已被推翻,而是独占性叙事的部分内容正受到挑战。原文描述的两项独立复现尝试表明,更小且更开放的模型可以复现 Anthropic 公开展示的大部分漏洞分析能力。
这一区别很重要。争论的焦点正在从 Mythos 是否具备能力,转向这些展示出来的能力是否真的独一无二。
复现尝试发现了什么
第一项复现尝试来自 AISLE,这家公司自 2025 年中以来一直在针对开源软件开展 AI 辅助漏洞挖掘。原文称,AISLE 已在 OpenSSL 中报告了 15 个漏洞,并在 curl 中报告了 5 个漏洞。创始人 Stanislav Fort 据称使用 Anthropic 公开样例中的代码片段,测试一系列更小且部分开放的模型能够在多大程度上独立完成任务。
第二项尝试来自 Vidoc Security,该公司将 GPT-5.4 和 Claude Opus 4.6 与开源编码代理 OpenCode 配合使用。这些研究合在一起试图回答一个实际问题:当 Anthropic 展示出令人印象深刻的漏洞发现或漏洞利用推理能力时,这种表现有多少是 Mythos 独有的,又有多少反映的是整个模型生态正在扩展的能力前沿?
根据原文,早期答案似乎是,这条前沿可能比 Anthropic 的访问控制所暗示的更宽广。
FreeBSD 示例是关键测试案例
所提供材料中最具体的例子涉及一个被识别为 CVE-2026-4747 的 FreeBSD NFS 漏洞。Anthropic 曾将这一案例作为 Mythos 进行自主发现和利用的展示。随后,AISLE 针对相关函数测试了八个模型,并且据文章称,所有模型都检测到了这个内存漏洞。
这是报告中最有力的挑战。不仅据称这八个模型都将该漏洞标记为严重问题,它们还生成了关于漏洞利用的可信推理,以及为何标准操作系统保护机制不会适用的解释。据报道,GPT-OSS-120b 给出了一串漏洞利用 gadget 序列,AISLE 认为这与真实 exploit 非常接近。另一个模型 Kimi K2 据称推断该攻击可以从一台受感染机器自动传播到其他机器,而文章称 Anthropic 自身并未提到这一细节。
如果这些结果准确,那么它们就削弱了这样一种观点:识别并分析这类漏洞是某一个严格受控模型所独有的能力。




