政府施压遭遇模型安全的极限

美国官员与Anthropic就该公司Fable 5模型发布一事发生的争议,揭示了前沿AI政策中的一个基本矛盾:政府可能希望高度先进的系统在广泛发布前就真正无法被攻破,但这项技术似乎并不支持这样的标准。

根据来源材料,政府官员指责Anthropic在发布Fable 5时无视了近期颁布的一项特朗普网络行政令,未等政府清算机构审查就直接上线。报道称,在该模型发布时,相关监督框架尚未完全建立。

批评不只是针对流程问题。来源中一名官员称,Anthropic知道可能会发生越狱,却仍然继续推进。来源文本并未证实所涉具体越狱的存在及严重程度,但这一指控本身已指向政策预期与大型语言模型行为现实之间日益加深的冲突。

核心技术问题

来源认为,这场争议既反映了政府对AI的理解,也反映了Anthropic的选择。原因很直接:与先进语言模型密切合作的人通常把提示注入和越狱视为持续存在的风险,而不是已经彻底解决的问题。

文章提到,OpenAI曾警告提示注入也许永远无法被彻底解决。这一点很重要,因为要求前沿模型“无法被攻破”设定了一个在实践中可能无法实现的标准,至少在当前架构和部署方式下如此。因此,现实的问题不是强大的模型是否有朝一日能被完全保护,而是故障有多严重、应对措施能多快到位,以及哪些应用场景需要更强的隔离。

为什么前沿模型的风险更高

当模型能够协助科学、技术或生物相关任务时,政策层面的紧张就会更明显。来源回忆称,Anthropic首席执行官Dario Amodei在2023年表示,如果这些领域的安全协议被绕过,越狱可能会变成生死攸关的问题。

这也解释了为什么官员可能会在监督和发布纪律上施加强大压力。它还说明,行业不能把越狱担忧当作普通的网络恶作剧来忽视。在前沿领域,失误可能涉及双重用途知识、滥用,或削弱人们对自愿治理框架的信任。

这不仅是安全测试,也是治理测试

报道称,商务部官员和Anthropic员工正在磋商,并计划与CIA以及科学顾问Michael Kratsios进行更多会面。报道还称,100多名安全专家和科技高管签署了一封公开信,呼吁对Fable 5实施出口管制。

综合来看,这些细节表明,争论不只是关于某一次模型发布。它也关乎谁来定义可接受风险、在正式机构尚未建立前自愿监督应如何运作,以及AI公司是否能跑得比政府更快而不破坏信任。

  • 美国官员表示,Anthropic在计划中的审查机制到位前就发布了Fable 5。
  • 争议集中在越狱风险和政府监督上。
  • 来源认为,要求真正无法被攻破的大语言模型在技术上可能并不现实。

更大的教训令人不安,但很有价值。前沿AI安全或许不会收敛成“安全”或“危险”这样二元的临界线。更可能的情况是,它始终依赖分层缓解、限制性部署、监测以及发布后的响应。这是一种更难传达的治理模式,但更符合来源中描述的技术现实。

如果政策制定者继续要求本质上无法实现绝对安全的系统提供绝对安全,这类冲突就会更加频繁。AI治理的下一阶段,可能取决于双方能否用可执行、技术上站得住脚的标准,取代不可能实现的标准。

本文基于 The Decoder 的报道。阅读原文

Originally published on the-decoder.com