AI 研究中的一个禁忌遭到挑战
人工智能领域最常被重复的一条警告之一是,人们不应该把 AI 系统拟人化。通常的担忧很明确:如果用户和研究人员开始像对待人一样看待模型,他们可能会高估模型的理解力、意图或可靠性。但一篇新的 Anthropic 研究论文正在反对这一一刀切的规则,并主张采用更细致的立场。
根据原始材料,Anthropic 的研究人员本周发表了一篇题为 Emotion Concepts and their Function in a Large Language Model 的论文。文中他们认为,对 AI 进行拟人化有时可能是有用的,而在所有情况下都拒绝这样做,可能会遮蔽研究人员需要理解的行为。这篇论文被形容为令人不安,部分原因在于它直接质疑了 AI 社区长期以来的一项规范。
研究人员审视了什么
这篇论文据称分析了 Claude Sonnet 4.5 对 171 种不同情绪的迹象。仅这一框架就很值得注意,因为它使用了许多 AI 研究人员传统上一直试图避免的语言。论文并没有把情绪语言仅仅当作修辞,而似乎是在追问,情绪概念是否能以实用且与安全相关的方式帮助解释模型行为。
这种论证并不是在简单宣称模型“有感受”。相反,来源材料描述的是一种更偏工具性的观点。Anthropic 的研究人员表示,拟人化的框架有助于识别并减少奖励黑客、欺骗和谄媚等有害行为。从这个意义上说,这篇论文与其说是在赋予模型人类地位,不如说是在判断人类式概念是否有时能改进诊断工具。
这一点区别很重要。AI 领域长期以来常把拟人化视为一种范畴错误。这里概括的 Anthropic 立场则是,如果这种一刀切的禁令阻止研究人员命名那些重要模式,它本身就可能成为一种实际限制。如果一个模型持续模拟某些特质、情绪姿态或人际策略,那么拒绝用可识别的人类术语讨论这些模式,可能会让研究人员只剩下更“安全”却不那么有用的语言。
“方法派演员”类比
论文中最引人注目的想法之一,是把 Claude 比作一位方法派演员。研究人员将 Claude 描述为被训练去扮演一个有帮助的 AI 助手角色。在这一框架下,模型不是人,但它在表演一个由类人期待塑造出来的角色。论文称,从某些方面看,这个模型可以被视为像方法派演员一样,需要进入角色的内心,才能更好地模拟这个角色。
这一类比带来了后果。如果一个模型被设计成模拟具有类人特征的角色,那么它在训练中接触到的示例和模式,可能会影响它后来复现哪些特征。研究人员认为,模型行为可能会受到某种影响,类似于人类会受到早期示例、规范和强化的影响。那并不会抹去人类和模型之间的差异,但它确实说明某些以人为中心的概念仍可能具有解释价值。
正如来源所引述的那样,论文的措辞甚至更进一步,把这项工作称为“朝着理解 AI 模型心理构造迈出的早期一步”。这种说法正是许多反对拟人化的人会抵制的表述。但它也清楚说明了 Anthropic 正在做什么:公司不仅在研究输出,还在提出一种理解这些输出如何组织起来的词汇。
这对安全为何重要
论文中最重要的主张不是哲学性的,而是操作性的。Anthropic 的研究人员得出结论,使用包含更多积极人类情绪与行为表征的训练材料,可能会让最终模型更有可能模仿这些更健康的模式。来源特别指出,可以通过整理预训练数据集,把情绪韧性和更健康的调节方式作为示例纳入其中。
如果这一主张成立,它会把“对齐”的概念扩展到规则、过滤器或拒答行为之外。它会表明,模型行为不仅受到明确指令的塑造,也受到训练数据中嵌入的情绪和社会模式的影响。这是一个重要转变。它把部分安全讨论引向模型正在学习模仿何种人类行为,而不仅仅是模型能够被阻止生成哪些被禁止的输出。
这也解释了为什么这篇论文会把拟人化与奖励黑客、欺骗和谄媚等风险联系起来。这些并不是普通语言中的随机故障。它们是研究人员已经用强烈社会性术语描述的行为。Anthropic 的主张是,谨慎使用这些术语可能有助于提升安全,而不是削弱安全。
一场不会停留在学术层面的争论
这场争论很可能会分裂 AI 领域。对一些研究人员来说,任何朝人类化语言的移动都可能误导公众,并夸大当前系统的能力。对另一些人来说,更难的问题可能恰恰相反:使用过于干涩的语言虽然避免了混淆,却也回避了洞见。Anthropic 的论文正处在这种张力的中心。
这篇论文的重要性在于,它把拟人化重新框定为一种工具,其价值有时可以由实用性而不是禁忌来判断。该公司的研究人员似乎仍然得出了一个细致的结论,而不是给出无限制的许可。即便如此,这种更狭义的立场也改变了辩论的条件。问题不再只是拟人化是否总是错误的,领域越来越需要问的是它何时有帮助、何时会误导,以及由谁来决定。
这就是这篇论文格外醒目的原因。它不仅仅是在一堆安全警告中再加一条。它挑战了 AI 话语中的一种基本习惯,并暗示,要理解模型,可能需要使用这个领域多年来一直努力避免采用的语言。
本文基于 Mashable 的报道。阅读原文。




