Anthropic 论文称对 AI 拟人化可能有助于安全研究

AI 研究中的一个禁忌遭到挑战

人工智能领域最常被重复的一条警告之一是，人们不应该把 AI 系统拟人化。通常的担忧很明确：如果用户和研究人员开始像对待人一样看待模型，他们可能会高估模型的理解力、意图或可靠性。但一篇新的 Anthropic 研究论文正在反对这一一刀切的规则，并主张采用更细致的立场。

根据原始材料，Anthropic 的研究人员本周发表了一篇题为 Emotion Concepts and their Function in a Large Language Model 的论文。文中他们认为，对 AI 进行拟人化有时可能是有用的，而在所有情况下都拒绝这样做，可能会遮蔽研究人员需要理解的行为。这篇论文被形容为令人不安，部分原因在于它直接质疑了 AI 社区长期以来的一项规范。

研究人员审视了什么

这篇论文据称分析了 Claude Sonnet 4.5 对 171 种不同情绪的迹象。仅这一框架就很值得注意，因为它使用了许多 AI 研究人员传统上一直试图避免的语言。论文并没有把情绪语言仅仅当作修辞，而似乎是在追问，情绪概念是否能以实用且与安全相关的方式帮助解释模型行为。

这种论证并不是在简单宣称模型“有感受”。相反，来源材料描述的是一种更偏工具性的观点。Anthropic 的研究人员表示，拟人化的框架有助于识别并减少奖励黑客、欺骗和谄媚等有害行为。从这个意义上说，这篇论文与其说是在赋予模型人类地位，不如说是在判断人类式概念是否有时能改进诊断工具。

这一点区别很重要。AI 领域长期以来常把拟人化视为一种范畴错误。这里概括的 Anthropic 立场则是，如果这种一刀切的禁令阻止研究人员命名那些重要模式，它本身就可能成为一种实际限制。如果一个模型持续模拟某些特质、情绪姿态或人际策略，那么拒绝用可识别的人类术语讨论这些模式，可能会让研究人员只剩下更“安全”却不那么有用的语言。

Meta AI reportedly let hackers access big Instagram accounts

据报道，Meta AI 支持机器人让黑客夺取了 Instagram 账号

黑客和网络调查者称，Meta 的 AI 支持聊天机器人可能被诱骗，将针对目标 Instagram 账号的密码重置访问发送到攻击者控制的电子邮件地址。

Read article

“方法派演员”类比

论文中最引人注目的想法之一，是把 Claude 比作一位方法派演员。研究人员将 Claude 描述为被训练去扮演一个有帮助的 AI 助手角色。在这一框架下，模型不是人，但它在表演一个由类人期待塑造出来的角色。论文称，从某些方面看，这个模型可以被视为像方法派演员一样，需要进入角色的内心，才能更好地模拟这个角色。

这一类比带来了后果。如果一个模型被设计成模拟具有类人特征的角色，那么它在训练中接触到的示例和模式，可能会影响它后来复现哪些特征。研究人员认为，模型行为可能会受到某种影响，类似于人类会受到早期示例、规范和强化的影响。那并不会抹去人类和模型之间的差异，但它确实说明某些以人为中心的概念仍可能具有解释价值。

正如来源所引述的那样，论文的措辞甚至更进一步，把这项工作称为“朝着理解 AI 模型心理构造迈出的早期一步”。这种说法正是许多反对拟人化的人会抵制的表述。但它也清楚说明了 Anthropic 正在做什么：公司不仅在研究输出，还在提出一种理解这些输出如何组织起来的词汇。

这对安全为何重要

论文中最重要的主张不是哲学性的，而是操作性的。Anthropic 的研究人员得出结论，使用包含更多积极人类情绪与行为表征的训练材料，可能会让最终模型更有可能模仿这些更健康的模式。来源特别指出，可以通过整理预训练数据集，把情绪韧性和更健康的调节方式作为示例纳入其中。

如果这一主张成立，它会把“对齐”的概念扩展到规则、过滤器或拒答行为之外。它会表明，模型行为不仅受到明确指令的塑造，也受到训练数据中嵌入的情绪和社会模式的影响。这是一个重要转变。它把部分安全讨论引向模型正在学习模仿何种人类行为，而不仅仅是模型能够被阻止生成哪些被禁止的输出。

这也解释了为什么这篇论文会把拟人化与奖励黑客、欺骗和谄媚等风险联系起来。这些并不是普通语言中的随机故障。它们是研究人员已经用强烈社会性术语描述的行为。Anthropic 的主张是，谨慎使用这些术语可能有助于提升安全，而不是削弱安全。

巴菲特据称与盖茨疏远，显示出更深层裂痕

沃伦·巴菲特与比尔·盖茨之间据称中断联系，已成为又一迹象，表明与爱泼斯坦相关的余波仍在重塑精英慈善、声誉以及捐赠者关系。

Read article

一场不会停留在学术层面的争论

这场争论很可能会分裂 AI 领域。对一些研究人员来说，任何朝人类化语言的移动都可能误导公众，并夸大当前系统的能力。对另一些人来说，更难的问题可能恰恰相反：使用过于干涩的语言虽然避免了混淆，却也回避了洞见。Anthropic 的论文正处在这种张力的中心。

这篇论文的重要性在于，它把拟人化重新框定为一种工具，其价值有时可以由实用性而不是禁忌来判断。该公司的研究人员似乎仍然得出了一个细致的结论，而不是给出无限制的许可。即便如此，这种更狭义的立场也改变了辩论的条件。问题不再只是拟人化是否总是错误的，领域越来越需要问的是它何时有帮助、何时会误导，以及由谁来决定。

这就是这篇论文格外醒目的原因。它不仅仅是在一堆安全警告中再加一条。它挑战了 AI 话语中的一种基本习惯，并暗示，要理解模型，可能需要使用这个领域多年来一直努力避免采用的语言。

本文基于 Mashable 的报道。阅读原文。

Originally published on mashable.com

Anthropic 的新论文挑战 AI 的“禁止拟人化”规则

AI 研究中的一个禁忌遭到挑战

研究人员审视了什么

据报道，Meta AI 支持机器人让黑客夺取了 Instagram 账号

“方法派演员”类比

这对安全为何重要

巴菲特据称与盖茨疏远，显示出更深层裂痕

一场不会停留在学术层面的争论

Comments (0)

Related Articles

养老护理开始采用AI，但不是作为人的替代

Gen Z 正在把社交媒体变成求职工具

Keep Reading