有帮助的聊天机器人可能更不擅长模拟人类

为了让模型成为有用的助手而训练，可能要付出代价

大型语言模型正越来越多地被用作人类参与者的替代品。研究人员将它们作为公众反应、教育行为，甚至临床互动的代理对象进行测试。但一项新的大型研究表明，正是那些让模型更适合作为助手的训练，可能也会让它们在模拟人类行为时变得不那么准确。

根据所提供报告描述，这项工作基于 Psych-201，这是一个由行为实验构建的数据集，覆盖约 208,000 名参与者和大约 2,600 万条回应。研究人员比较了 Qwen3、Llama3 和 OLMo 3 系列中的基础模型与后训练变体。核心发现一致：基础模型比通过额外训练形成的助手风格版本更能预测人类回应。

为什么这个结果很重要

助手模型的设计目标是更安全、更有帮助、更有结构，而且通常在推理上更明确。这些特质对日常产品使用很有价值。但它们并不等同于在实验中像一个普通人那样行动。如果一个模型被调教得更清晰、更礼貌，并且在任务上保持最优一致性，它可能会偏离真实人类回应所具有的波动性和杂乱性。

这使得这项研究对任何把聊天机器人当作人类受试者替代品的领域都很重要。如果目标是模拟人们实际如何回答、决策或反应，那么一个更精致的助手可能就是错误的工具。

基础模型优于后训练版本

报告称，这一模式在不同模型家族和不同规模上都成立。基础模型只通过预测文本中的下一个词进行训练，却在预测人类实际给出的答案时，表现优于后训练后的继任者。性能下降出现在常见的后训练目标上，其中推理模型下滑最明显，其次是指令微调版本和扩展视觉的变体。

这一发现尤其引人注目，因为它违背了 AI 产品开发中的一种常见直觉：更后期、更精炼的版本理应整体更好。它们也许确实是更好的助手。但研究认为，它们可能是更差的心理镜像。

一个为行为而非仅为基准而构建的数据集

Psych-201 似乎是这项贡献的重要组成部分。原文将其描述为比此前同类集合大数倍，并包含完整的实验运行以及参与者元数据，如年龄、国籍和问卷回答。这很重要，因为判断是否像人，依赖的是广泛的行为证据，而不是狭窄的基准测试。

有了如此庞大的数据集，研究人员就能在许多任务上将模型与人类分布进行比较，而不是挑选少数几个模型行为碰巧看起来合理的例子。这个规模强化了这样一种判断：这是一种系统性的训练权衡，而非某一个模型或某一项实验的偶然现象。

这对 AI 研究和政策使用意味着什么

这一发现让人不舒服，因为模拟参与者很有吸引力。它们便宜、快速，而且可扩展。政府、企业和研究人员可能会诱使自己用它们来预测政策反应、测试干预措施，或在接触真实人群之前先做研究原型。但如果后训练的助手模型系统性地扭曲人类行为，那么便利就可能变成错误的自信。

这项研究并不是说语言模型对行为研究毫无用处。它的意思是，模型选择很重要，设计目标也很重要。一个被优化来帮助用户完成任务的模型，未必最适合模仿某个群体如何思考或回应。这是不同的目标，而随着每一代助手调优，这种差距可能会进一步扩大。

更大的启示

人们常常把 AI 系统讨论得好像能力会沿着单一维度提升。这项研究指出，现实要复杂得多。让一个模型在某一角色上变得更强，可能会削弱它在另一角色上的表现。一个更对齐的助手，可能会变成一个更不像人的受试者。这与其说是训练失败，不如说是在提醒我们：训练目标本身就编码了价值与取舍。

对于希望使用合成参与者的研究人员来说，结论很直接：不要假设最精致的聊天机器人就是最真实的那个。在产品中最有用的助手，恰恰可能是最不该被信任为人类行为代理的模型。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

有帮助的聊天机器人，或许并不擅长扮演人类