AI 视频基准显示：世界逻辑仍落后于视觉质量

AI 视频看起来更逼真了，但未必更符合常识

最新一代 AI 视频系统能够生成看起来越来越精致的片段，运动更流畅、光照更强、纹理也比早期模型更逼真。但清华大学研究人员提出的一项新基准认为，视觉质量掩盖了一个更深层的局限：许多系统仍然不理解这个世界应当如何运作。

这项名为 WorldReasonBench 的基准旨在衡量模型是否能够以在物理上、社会上、逻辑上和信息上都合理的方式延续一个场景。这与视频是否只是“看起来不错”是不同的问题。在研究人员的表述中，外观上的真实感并不等同于推理上的真实感。

这种区别很重要，因为生成式视频中的许多头条案例，往往主要凭风格和整体连贯性来判断。一个片段可能看上去像电影镜头，也很流畅，但仍可能违背关于重力、物体行为、人际互动或因果关系的常识。WorldReasonBench 的目标正是揭示这种差距。

这项基准如何测试对世界的理解

这项基准不评估图像质量，而是从一个场景出发，要求模型以合乎逻辑的方式继续它。原文举了一个简单例子：一颗苹果挂在树枝上，然后要求它掉下来。系统可能生成一段精美的序列，但如果苹果向上移动、像气球一样漂浮，或者以不合理的方式下落，就算失败。

这正是该基准试图分离出来的核心问题。一个精致的输出可能在传统审美上得分很高，却在事件本身的逻辑上失败。因此，WorldReasonBench 将评估拆分为四个推理领域和 22 个子类别。

世界知识，包括物理、天气和文化规范
以人为中心的场景，例如物体操作和社会互动
逻辑推理，包括数学、几何和科学实验
基于信息的推理，例如读取数据和图表

根据原始材料，这项基准包含大约 400 个测试案例。研究人员还配套推出了 WorldRewardBench，这是一个偏好数据集，包含约 6,000 组视频比较，由训练过的标注者进行排序。后者旨在帮助模型进行直接对比，而不仅仅是对照抽象评分规则。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 开源一套 2,000 小时机器人数据集

X Square Robot 发布了 XRZero-G0 和一套 2,000 小时的多模态数据集，旨在减少具身 AI 系统对真实机器人训练数据的需求。

Read article

一套两阶段的可信度评分系统

评估流程采用两层机制。第一层，借助过程感知方法提出结构化问题，判断视频是否到达了正确的终态，以及到达该终态的方式是否合理。第二层再从三个更宽泛的维度打分：推理质量、时间一致性和视觉审美。

这一设计值得注意，因为它并没有丢弃呈现质量。相反，它把外观放回了恰当的位置。基准仍然承认，一个有用的视频模型应当在视觉上令人信服，但它把审美视为结果的一部分，而不是全部。

对整个领域而言，这是一个重要转变。在图像和视频生成中，进展往往通过容易欣赏却难以审计的演示来传达。一个以结果而非表面质量为中心的基准，建立了更严格的标准，尤其适用于生成视频需要呈现操作说明、实验、图表或现实世界事件的场景。

商业系统领先，但没有一个接近掌握

研究人员测试了五个商业系统和六个开源模型。商业组包括 Sora 2、Kling、Wan 2.6、Seedance 2.0 和 Veo 3.1-Fast。开源组包括 LTX 2.3、Wan 2.2-14B、UniVideo、HunyuanVideo 1.5、Cosmos-Predict 2.5 和 LongCat-Video。

在基准的核心推理指标上，商业模型表现明显更好。原文称，它们的得分大约是开源系统的两倍，而且两组之间没有统计重叠。这一发现表明，在需要的不只是外观时，能力最强的专有模型仍然明显领先。

即便如此，更广泛的结论并不是商业系统已经解决了视频推理问题。文章指出，逻辑仍然会难倒所有受测模型。连多米诺骨牌、抓娃娃机和一个简单电路这样的例子，都足以暴露失败。换句话说，虽然更好的产品已经出现，但稳健的世界理解能力在整体上仍然缺失。

这是一项有意义的结果，因为它反驳了生成式 AI 中一种常见假设：更逼真的输出就意味着更深层的能力。WorldReasonBench 提示，现实情况往往可能相反。随着模型在风格上不断进步，它们剩余的失败反而更难被普通观察者注意到，即使这些失败在实际场景中会产生影响。

Anthropic呼吁强制审计，同时把AI重新定义为战略基础设施

Anthropic首席执行官Dario Amodei表示，透明度规则已不再足够，并呼吁对前沿AI系统进行强制性的第三方审计。

Read article

这为何不只关系到排行榜

这项基准出现之际，AI 视频工具正被评估为不仅仅是娱乐引擎，还可能成为教育、设计、模拟、通信以及自动化内容生产的支撑系统。在这些场景中，可信度并非可选项。一个能生成漂亮却错误地描绘运动、测量或交互的模型，不只是“不完美”，它还可能误导人。

因此，WorldReasonBench 指向了多模态 AI 的更大挑战。如果系统无法可靠地呈现普通物理行为或基本逻辑结构，那么单靠更好的渲染并不能让它们变得可信。研究并不是说视觉质量不重要，而是说，相比推理，整个领域对视觉质量的奖励过高。

这也让该基准具有长期价值，即使具体排名会随时间变化。它为视频生成定义了一个更苛刻的问题：不是视频看起来是否真实，而是它是否表现得像真的属于现实世界。

就目前而言，答案充其量是喜忧参半。领先的商业系统显然更强，但基准的核心信息比任何排行榜结果都更明确。AI 视频如今已经能生成令人惊叹的场景，但它仍然难以理解自己所创造的场景。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

新的基准揭示：为什么更好看的 AI 视频仍然无法通过基本的世界逻辑测试