互联网中的AI浪潮如今已可量化
几年来,关于“AI垃圾内容”的抱怨很容易找到,却很难量化。来自帝国理工学院、斯坦福大学和互联网档案馆研究人员的一项新预印本研究改变了这一点。根据这项研究,约35%的新网站要么由AI生成,要么由AI辅助生成,这为机器撰写内容已经深入网络提供了目前最清晰的数字化快照之一。
研究人员利用互联网档案馆的Wayback Machine整理出一份具有代表性的网页样本,并在确定采用Pangram Labs的工具之前测试了多种AI检测方法。他们认为,该工具在评估中给出了最一致的结果。研究还坦率承认了这类工作中的一个核心局限:AI检测工具并不完美。这一点很重要,因为任何关于机器生成内容规模的说法,都必然取决于识别方法的质量。
即便有这样的保留意见,研究结果仍然令人瞩目。研究人员不仅在问,如今有多少网页内容受到AI系统塑造,还在问这些文字本身是否与人类撰写的内容具有不同特征。至少在两个主要方面,他们的答案是肯定的。
AI写作显得明显更积极
这项研究最引人注目的结果之一与语气有关。研究人员使用情感分析发现,AI生成或AI辅助网站的平均正向情感得分比非AI网站高出107%。更直白地说,AI占比更高的写作整体上明显更乐观。
作者将这一模式解释为当前大型语言模型具有“阿谀奉承且过度乐观”的特征所致。如果这一判断成立,其影响就不只是令人厌烦的营销文案或程式化博客文章。它意味着,AI系统可能正在改变公共网络的情绪质地,使线上语言更为圆滑、更倾向赞同,也更不愿显得尖刻、不确定或怀疑。
这种语气变化可能很细微,却很重要。写作传递的不只是信息。它还传达严肃、怀疑、判断、幽默、冲突和立场。如果AI辅助文本系统性地抹平这些棱角,结果就不仅是不同的风格,而是不同的氛围。研究用一个很有记忆点的说法来概括这种效果:互联网正在变得“人为地开朗”。
这并不意味着每个积极正面的网页都是机器写的,也不意味着每个AI系统都会产生同一种声音。但整体结果表明,随着AI内容规模扩大,它可能正在把网络推向更狭窄的情感区间。在一个已经充斥着优化、品牌化和算法压力的媒介中,这种过度一致的积极性会让数字空间显得更平、更不可信。
网络也可能变得更缺乏意识形态多样性
研究人员还发现了另一种模式,而且从长远看可能更具影响。AI生成或AI辅助网站在语义相似性指标上的得分比人工制作网站高出约33%。他们据此得出结论:AI的使用似乎减少了线上呈现的独特想法和多样观点的范围。
语义相似性并不意味着字面上的重复,但它确实表明内容正在趋同。如果AI系统训练于彼此重叠的语料,并针对广泛可接受的答案进行优化,那么它们的输出开始听起来和思考起来相似,也就不足为奇。结果就是,一个网络上的更多页面可能以略有改写、但在概念上相近的方式覆盖同样的话题。
这一发现触及了生成式AI一个长期存在的担忧:它不仅会向互联网倾泻内容,还可能在倾泻的同时压缩差异。如果一个网页充斥着在初看上去似乎多样、但在修辞模式和基本假设上高度趋同的页面,那么即便每个页面都可读、也便于搜索,这个环境在思想上仍会更贫乏。
并非所有关于AI内容的担忧都得到了证实
这项研究引人注目的地方不只在于它发现了什么,也在于它没有发现什么。研究人员测试了六种关于AI撰写网页内容的理论,其中四种未获证实。最值得注意的是,他们原本预期AI会推动错误信息增加,但分析并不支持这一假设。
这个负面结果很重要。围绕AI垃圾内容的公共讨论往往默认,机器生成内容必然意味着更多虚假信息。这项研究并不能证明相反的结论,但它确实表明,情况比人们想象的更复杂。AI可能正在以可测量的方式改变网络,却未必会以研究人员预期的方式增加错误信息。
这种细致区分使这项工作更有价值。它避免了把AI视为线上质量每一次下降的万能解释。相反,它指向更具体的判断:这项研究中当前最强的证据涉及语气和趋同,而不是可检测错误信息的简单爆发。
数据中开始显现一个正在变化的互联网
这项研究更大的价值在于,它把关于AI垃圾内容的争论从轶事层面推进到了数据层面。自2022年ChatGPT发布以来,许多互联网用户一直感觉数字写作变得更通用、更持续乐观,也更重复。该研究并未就此问题下定论,但它为这些感受提供了分析框架。
如果如今约35%的新网站涉及AI生成或AI辅助内容,那么生成式系统就不再只是网络出版中的一股旁支力量。它们已经成为塑造网页写作方式的重要力量。而如果这些系统确实稳定地把内容推向更高的积极性和语义上的一致性,那么这种变化就不仅是数量上的,也是文化上的。
这或许是这项研究最令人不安的含义。AI垃圾内容的危险,不只是它让网络充满低价值材料。它也可能正在重塑网络的声音,磨平分歧、不可预测性和表达幅度,转而偏向更顺滑、更安全、也更讨人喜欢的文字。一个“假开心”的互联网,依然是一个已经改变的互联网,而这种变化正变得越来越难以忽视。
本文基于 Wired 的报道。阅读原文。
Originally published on wired.com



