语言的扁平化
尽管大型语言模型强调"大",但它们输出的多样性却出人意料地小,这可能正在拖累人类表达的丰富性。一项研究AI写作工具广泛应用的新研究发现了可衡量的证据,表明AI辅助文本的风格、词汇和修辞模式正在收敛到一个比纯人工写作更狭窄的范围内。
这些发现为语言学家、教育工作者和文化评论家自生成AI工具成为主流以来提出的担忧增添了实证支持:将写作外包给AI系统(这些系统被训练以产生统计概率最高的文本)将逐步侵蚀人类表达的丰富性和多样性。
测量同质化效应
研究团队分析了多个领域的数百万文本样本,包括学术论文、商业沟通、社交媒体帖子、创意写作和新闻报道,比较了AI写作助手广泛采用前后的文章。
结果显示了一致的收敛模式。AI辅助文本显示词汇多样性降低,相对于总字数而言使用的不同词汇范围更小。句子结构变得更加统一,倾向于中等范围的长度和复杂性,同时避免了自然人类写作中特有的非常简单和极其复杂的结构。
最值得注意的是,来自不同作者、文化和语言的AI辅助文本彼此之间的相似性大于可比的纯人工文本。AI工具似乎起到了一种文体平均化功能,消除了个人怪癖、文化影响和个人风格——这些因素正是人类写作与众不同的特征。
收敛的机制
同质化通过一个直接的机制发生:大型语言模型通过根据训练数据中的模式预测最可能的下一个词来生成文本。这个过程本质上有利于常见模式而不是罕见模式、主流表达而不是特殊表达、常规结构而不是实验性结构。
当人类使用这些工具作为写作助手,接受建议的补全或使用AI来起草初始版本时,他们会将这种统计平均纳入自己的输出。随着时间的推移,当AI辅助写作成为常态时,正常写作的基线就会朝着AI偏好的模式转变。
这种效应因一个反馈循环而加剧。当更多AI生成的文本出现在线上时,它就成为未来AI模型的训练数据。这些较新的模型从越来越同质化的语料库中学习,产生更加统一的输出。研究人员将其描述为一个缩小的螺旋。
文化和智力后果
语言不仅仅是传递信息的工具。它塑造人们的思考方式、他们能表达的概念以及他们如何理解世界。不同的写作风格反映了不同的经验处理方式。当这些风格趋同时,潜在的思维多样性也可能趋同。
研究在学术写作中发现了特别的关注,其中学科术语和专门的修辞惯例起着重要的认识论功能。AI工具倾向于平滑这些学科差异,产生的文本读起来更像通用散文而非专业话语。
创意写作显示了最戏剧性的效果。AI辅助的小说和诗歌在形式、声音和叙述结构的实验方面明显少于可比的纯人工作品。
多语言维度
同质化效应在各种语言中特别明显。AI写作工具主要使用英语数据进行训练,在生成其他语言的文本时倾向于实施英语修辞模式。使用AI协助用普通话、阿拉伯语、西班牙语和其他语言写作的作者产生的文本在可测量的程度上更接近英语模式,而不是没有AI协助的文本。
这代表了一种通过算法优化而不是政治权力运作的语言和文化帝国主义形式。区分不同文学传统的修辞传统和文体惯例正被已经将英语主导模式作为默认的工具悄悄侵蚀。
语言保护倡导者已将此标记为对缺乏大型数字语料库的较小语言和文学传统的严重关注。
反对意见和解决方案
AI写作工具的支持者辩称,更清晰、更标准化的散文比特殊的写作更好地服务于交流。在专业环境中,一致性和清晰性受到重视而不是个人风格。
然而,研究人员指出,多样性和标准化之间的选择应该是有意识的,而不是算法设计的意外副作用。他们提出了几项干预措施:具有多样性模式的AI工具,可以故意引入变化;优先考虑文体多样性的训练数据管理;以及突出显示AI模式在何处影响用户文本的透明度功能。
研究最终提出了一个超越技术的问题:在算法日益调解人类表达的时代,谁来决定什么是好的写作?如果答案是一个为平均值优化的统计模型,那么使人类语言丰富的独特声音和传统可能就是代价。
本文基于Gizmodo的报道。阅读原文。
Originally published on




