Anthropic审查受限AI模型遭报告访问
Anthropic已确认,正在调查一则关于Claude Mythos Preview遭未授权访问的报告。该公司曾将这一模型描述为危险程度过高,不适合向公众发布。报道称,此次访问是通过第三方供应商环境发生的。
据Bloomberg报道并由Gizmodo转述,Anthropic的声明称,公司收到了一个报告,指称Claude Mythos Preview是通过其某个第三方供应商环境被未授权访问的。报道称,Bloomberg还审阅了一个现场演示以及来自据称负责此次访问的团体成员的截图。
目前公开可得的事实有限,且该报告在识别涉事人员和方法方面也十分谨慎。即便如此,这一事件仍为前沿AI实验室提出了一个严肃的治理问题:即使模型未向公众发布,供应商访问和内部工具也可能形成比模型本身更难防护的路径。
据称的访问是如何发生的
根据文章中概述的来源说法,该团体整合了几项信息。一个Discord群组据称使用机器人在GitHub上搜索有关未发布AI模型的信息。该说法还提到了AI训练初创公司Mercor发生的数据泄露。随后,该团体据称又将这些信息与Anthropic某承包商旗下某人可获得的访问权限结合起来。
据称,这一连串事件使该团体能够推断出Claude Mythos的在线位置。报道称,该团体自4月7日起一直能够访问该模型,也就是Anthropic宣布Project Glasswing的同一天。
报告中引用的消息源声称,该团体感兴趣的是试验新模型,而非造成伤害。即便如此,这一说法也无法降低访问问题的严重性。如果一个受限模型被未授权方获取,那么风险并不只取决于最先被报道的团体声称打算做什么。
供应商风险问题
这起据称事件凸显了高安全技术运营中的一个常见薄弱环节:主公司可能会锁定自己的系统,而承包商、供应商和合作伙伴环境仍保留足够的访问权限,从而成为有吸引力的目标。
对AI公司而言,这种风险尤为特殊。前沿模型不仅仅是一个文件或服务。它可能包含开发者有意未向公众发布的能力。如果围绕预览模型、评估系统或承包商环境的访问控制薄弱,那么公司的发布政策可能在模型真正上线前就被削弱。
该报告并未确认访问的完整范围,也没有说明模型权重是否暴露,或访问是否仅限于某个接口。这些区别很重要。接口访问仍然可能带来风险,但它不同于模型权重或训练资产被窃取。Anthropic的调查需要确定究竟能够访问到什么、持续了多久,以及是通过哪些系统实现的。
这为何不仅关乎Anthropic
AI实验室越来越依赖外部承包商来完成评估、数据工作、红队测试、标注和运营。这些工作流程可能带来广泛的访问模式,而且很难监控,尤其是在团队快速构建和测试未发布系统的时候。
因此,Claude Mythos的报道落在了关于前沿模型安全的更广泛行业争论之中。如果公司认为某些模型强大到不应发布,它们也需要证明,对受限访问项目、供应商系统和内部预览环境同样采取了足够严格的治理。
这同样是一个信任问题。政府、企业客户和公众被要求相信,AI开发者能够安全管理越来越强大的系统。通过供应商环境出现的据称未授权访问路径,正是检验这一说法的那类失误。
接下来关注什么
现在最关键的问题很具体。Anthropic需要确定据称的访问是否确实发生,是否有任何敏感数据或模型能力被暴露,访问是否已被切断,以及是否需要调整第三方供应商控制措施。
更广泛的AI行业将关注实验室是否正在收紧承包商访问权限、加强对预览系统的监控,并限制关于未发布模型的可发现信息。最重要的教训或许是,模型安全不仅是研究问题,也是一项基础设施、访问控制和供应商管理问题。
本文基于Gizmodo的报道。阅读原文。
Originally published on gizmodo.com




