AI 视频看起来更逼真了,但未必更符合常识

最新一代 AI 视频系统能够生成看起来越来越精致的片段,运动更流畅、光照更强、纹理也比早期模型更逼真。但清华大学研究人员提出的一项新基准认为,视觉质量掩盖了一个更深层的局限:许多系统仍然不理解这个世界应当如何运作。

这项名为 WorldReasonBench 的基准旨在衡量模型是否能够以在物理上、社会上、逻辑上和信息上都合理的方式延续一个场景。这与视频是否只是“看起来不错”是不同的问题。在研究人员的表述中,外观上的真实感并不等同于推理上的真实感。

这种区别很重要,因为生成式视频中的许多头条案例,往往主要凭风格和整体连贯性来判断。一个片段可能看上去像电影镜头,也很流畅,但仍可能违背关于重力、物体行为、人际互动或因果关系的常识。WorldReasonBench 的目标正是揭示这种差距。

这项基准如何测试对世界的理解

这项基准不评估图像质量,而是从一个场景出发,要求模型以合乎逻辑的方式继续它。原文举了一个简单例子:一颗苹果挂在树枝上,然后要求它掉下来。系统可能生成一段精美的序列,但如果苹果向上移动、像气球一样漂浮,或者以不合理的方式下落,就算失败。

这正是该基准试图分离出来的核心问题。一个精致的输出可能在传统审美上得分很高,却在事件本身的逻辑上失败。因此,WorldReasonBench 将评估拆分为四个推理领域和 22 个子类别。

  • 世界知识,包括物理、天气和文化规范
  • 以人为中心的场景,例如物体操作和社会互动
  • 逻辑推理,包括数学、几何和科学实验
  • 基于信息的推理,例如读取数据和图表

根据原始材料,这项基准包含大约 400 个测试案例。研究人员还配套推出了 WorldRewardBench,这是一个偏好数据集,包含约 6,000 组视频比较,由训练过的标注者进行排序。后者旨在帮助模型进行直接对比,而不仅仅是对照抽象评分规则。

一套两阶段的可信度评分系统

评估流程采用两层机制。第一层,借助过程感知方法提出结构化问题,判断视频是否到达了正确的终态,以及到达该终态的方式是否合理。第二层再从三个更宽泛的维度打分:推理质量、时间一致性和视觉审美。

这一设计值得注意,因为它并没有丢弃呈现质量。相反,它把外观放回了恰当的位置。基准仍然承认,一个有用的视频模型应当在视觉上令人信服,但它把审美视为结果的一部分,而不是全部。

对整个领域而言,这是一个重要转变。在图像和视频生成中,进展往往通过容易欣赏却难以审计的演示来传达。一个以结果而非表面质量为中心的基准,建立了更严格的标准,尤其适用于生成视频需要呈现操作说明、实验、图表或现实世界事件的场景。

商业系统领先,但没有一个接近掌握

研究人员测试了五个商业系统和六个开源模型。商业组包括 Sora 2、Kling、Wan 2.6、Seedance 2.0 和 Veo 3.1-Fast。开源组包括 LTX 2.3、Wan 2.2-14B、UniVideo、HunyuanVideo 1.5、Cosmos-Predict 2.5 和 LongCat-Video。

在基准的核心推理指标上,商业模型表现明显更好。原文称,它们的得分大约是开源系统的两倍,而且两组之间没有统计重叠。这一发现表明,在需要的不只是外观时,能力最强的专有模型仍然明显领先。

即便如此,更广泛的结论并不是商业系统已经解决了视频推理问题。文章指出,逻辑仍然会难倒所有受测模型。连多米诺骨牌、抓娃娃机和一个简单电路这样的例子,都足以暴露失败。换句话说,虽然更好的产品已经出现,但稳健的世界理解能力在整体上仍然缺失。

这是一项有意义的结果,因为它反驳了生成式 AI 中一种常见假设:更逼真的输出就意味着更深层的能力。WorldReasonBench 提示,现实情况往往可能相反。随着模型在风格上不断进步,它们剩余的失败反而更难被普通观察者注意到,即使这些失败在实际场景中会产生影响。

这为何不只关系到排行榜

这项基准出现之际,AI 视频工具正被评估为不仅仅是娱乐引擎,还可能成为教育、设计、模拟、通信以及自动化内容生产的支撑系统。在这些场景中,可信度并非可选项。一个能生成漂亮却错误地描绘运动、测量或交互的模型,不只是“不完美”,它还可能误导人。

因此,WorldReasonBench 指向了多模态 AI 的更大挑战。如果系统无法可靠地呈现普通物理行为或基本逻辑结构,那么单靠更好的渲染并不能让它们变得可信。研究并不是说视觉质量不重要,而是说,相比推理,整个领域对视觉质量的奖励过高。

这也让该基准具有长期价值,即使具体排名会随时间变化。它为视频生成定义了一个更苛刻的问题:不是视频看起来是否真实,而是它是否表现得像真的属于现实世界。

就目前而言,答案充其量是喜忧参半。领先的商业系统显然更强,但基准的核心信息比任何排行榜结果都更明确。AI 视频如今已经能生成令人惊叹的场景,但它仍然难以理解自己所创造的场景。

本文基于 The Decoder 的报道。阅读原文

Originally published on the-decoder.com