AI安全的关键时刻

在批评人士所称的人工智能行业的分水岭时刻,Anthropic于周二宣布对其负责任扩展政策进行全面调整,消除了该公司自成立以来的核心身份要素——硬性安全制约。时间选择引人注目——公告发布的同一天,有报道称Pentagon国防部长Pete Hegseth正在向该公司施压,要求其向美国军方提供对Claude AI模型的无限制访问权。

在过去两年多时间里,Anthropic的RSP是AI行业中最具体的安全承诺之一。该政策确立了明确的底线:如果该公司的模型达到某些能力阈值但没有适当的安全措施,开发将停止。这一承诺现已消失,被该公司称之为更好地反映竞争激烈的AI格局现实的"风险报告"和"前沿安全路线图"的更灵活框架所取代。

转变背后的理由

Anthropic将这些变化框定为对集体行动问题的务实回应。"两年半后,我们的诚实评估是,这个理论中的一些部分如我们所希望的那样进展,但其他部分没有,"该公司在更新的政策文件中写道。核心论证很直接:如果一个负责任的开发者暂停而竞争对手奋力前进,结果可能是一个由最不谨慎的参与者而非最周密的参与者塑造的世界。

"我们认为,让我们停止训练AI模型对任何人都没有帮助," Anthropic首席科学官Jared Kaplan告诉《时代周刊》。"鉴于AI的快速进步,我们真的不认为单方面承诺对我们有意义……如果竞争对手在奋力冲刺。"这是科技行业中一个熟悉的论点——即负责任的参与者需要保持在前沿,以确保安全导向的观点塑造强大技术的发展方式。

但这一推理与该公司日益增长的商业财富并不协调。Anthropic本月新融资30亿美元,估值达到3800亿美元。其Claude模型获得了广泛赞誉,特别是在编码应用中。最新版本被该公司本身描述为其迄今最安全的版本——这提出了一个问题:为什么在能力和资源处于历史高峰的精确时刻,安全承诺需要削弱?

Pentagon的最后通牒

房间里的大象是Department of Defense的并发压力运动。根据Axios的报道,国防部长Hegseth已经给Anthropic首席执行官Dario Amodei到周五的期限,要求向军方提供对Claude的无限制访问权,否则面临后果。这些后果可能包括援用《国防生产法》、切断该公司现有的国防合同,或将Anthropic指定为供应链风险——此举将迫使其他Pentagon承包商证明他们在工作流中不使用Claude。

Claude据报是当前军方最敏感行动中唯一使用的AI模型。"我们继续与这些人交谈的唯一原因是我们需要他们,而且现在就需要,"一名国防官员告诉Axios。该模型据报在最近委内瑞拉的军事行动中被使用,这是Amodei与国防合作伙伴Palantir提出的话题。

Anthropic据报已提议为Pentagon调整其使用政策,但已对允许该模型用于美国人的大规模监视或无人发射的武器系统划清界线。这些界线在政府压力下是否会坚持仍是一个开放问题。

温水煮青蛙的担忧

安全研究人员表达了一系列反应。非营利组织METR主任Chris Painter将这些变化描述为可理解但潜在不祥。他称赞了对透明风险报告的强调,但对"温水煮青蛙"效应提出了担忧——即当硬性安全界限变成灵活指南时,每个单独的退让看似合理,但累积方向令人不安。

Painter指出,新的RSP表明Anthropic"认为它需要转向其安全计划的分类模式,因为评估和降低风险的方法跟不上能力发展的步伐。"他直言不讳地补充说:"这是更多证据,表明社会还没有为AI可能带来的潜在灾难性风险做好准备。"

与Google的演变相比并不难忽视。这家搜索巨头曾经在其著名的"不作恶"座右铭下运营,但随着商业压力的增加,悄悄地从其行为准则中删除了它。Anthropic的轨迹是否遵循类似的弧线将取决于该公司在未来几周和几个月内的行动——特别是在其与Pentagon的对峙中。

接下来的事

新的RSP框架用分级评估和公开披露取代了二元停/行决定。理论上,这提供了更细致的安全治理。实际上,批评者担心它消除了唯一可能在关键时刻强制暂停开发的机制。

对于更广泛的AI行业,信息很清楚:即使是最高调致力于安全的公司,在估值飙升、竞争加剧和政府来电时,也发现维持该承诺很困难。问题不是AI开发是否会放缓——它明确不会。问题是被重建的护栏是否足够强大以产生影响。

本文基于Engadget的报道。阅读原文