AI動画ベンチマークが示す、世界の論理が視覚品質にまだ遅れている理由

AI動画はより説得力を増したが、必ずしもより筋が通っているわけではない

最新世代のAI動画システムは、以前のモデルよりも滑らかな動き、より強いライティング、よりリアルな質感を備えた、いっそう洗練されたクリップを生成できるようになっている。だが、清華大学の研究者による新しいベンチマークは、視覚的な品質がより深い限界を覆い隠していると指摘する。多くのシステムは、世界がどう機能すべきかをまだ理解していないのだ。

WorldReasonBenchと呼ばれるこのベンチマークは、モデルが物理的、社会的、論理的、情報的にもっともらしい形でシーンを継続できるかを測るために設計されている。これは、動画が単に見栄え良く見えるかという問いとは別だ。研究者の枠組みでは、見た目のリアリズムは推論のリアリズムと同じではない。

この違いが重要なのは、生成動画の多くの話題作が、主に見た目のスタイルと一見したときの一貫性で評価されているからだ。クリップは映画的で滑らかに見えても、重力、物体の振る舞い、人間同士のやり取り、因果関係に関する通常の期待に反していることがある。WorldReasonBenchは、まさにそのギャップをあぶり出すために作られている。

ベンチマークは世界理解をどうテストするのか

ベンチマークは画像品質を採点するのではなく、あるシーンを起点に、それを筋の通る形で延長するようモデルに求める。元記事が挙げる単純な例では、枝の上のリンゴに対して、それを落とすよう指示する。システムは美しい映像列を生成できても、リンゴが上に動いたり、風船のように振る舞ったり、あり得ない落ち方をしたりすれば、その課題には失敗する。

それこそが、このベンチマークが切り分けようとしている核心的な問題だ。洗練された出力は従来の美的評価では高得点を取れても、出来事そのものの論理では失敗しうる。WorldReasonBenchはそのため、評価を4つの推論領域と22のサブカテゴリに分けている。

物理、天候、文化規範を含む世界知識
物の扱いや社会的相互作用など、人間中心のシーン
数学、幾何、科学実験を含む論理的推論
データや図表の読み取りなど、情報ベースの推論

元資料によると、ベンチマークは約400件のテストケースを含む。研究者はさらに、訓練済みアノテーターが順位付けした約6,000件の動画比較からなる嗜好データセット、WorldRewardBenchも併用した。この第2のデータセットは、抽象的な採点規則に対してだけでなく、モデル同士を直接比較するのを助けるためのものだ。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0が2,000時間のロボティクスデータセットを公開

X Square Robotは、実ロボットの学習データ量を減らすことを目的に、XRZero-G0と2,000時間のマルチモーダルデータセットを公開した。

Read article

もっともらしさのための2段階スコアリング

評価プロセスは2層構造になっている。まず、プロセスを意識した手法が構造化された質問を行い、動画が正しい最終状態に到達しているか、そしてそこに至る過程がもっともらしいかを判断する。次に、別の評価で、推論の質、時間的一貫性、視覚的な美しさという3つの広い観点を採点する。

この設計が注目に値するのは、見栄えを切り捨てていない点だ。むしろ、見た目を本来あるべき位置に置き直している。ベンチマークは、有用な動画モデルが視覚的にも説得力を持つべきだと認めつつ、美しさは結果の一部にすぎず、全体ではないと扱っている。

この分野にとって、これは重要な転換だ。画像・動画生成では、進歩はしばしば、見栄えはするが監査しにくいデモで語られる。表面的な品質ではなく結果に焦点を当てたベンチマークは、より厳しい基準を生み出す。特に、生成動画が指示、実験、図解、現実世界の出来事を描く必要がある用途では重要だ。

商用システムが先行するが、完成度には程遠い

研究者は5つの商用システムと6つのオープンソースモデルをテストした。商用 समूहには Sora 2、Kling、Wan 2.6、Seedance 2.0、Veo 3.1-Fast が含まれていた。オープンソース群には LTX 2.3、Wan 2.2-14B、UniVideo、HunyuanVideo 1.5、Cosmos-Predict 2.5、LongCat-Video が含まれていた。

ベンチマークの中核となる推論指標では、商用モデルの成績がはるかに良かった。元記事によれば、両グループの間に統計的な重なりはなく、商用モデルはオープンソースの約2倍のスコアを記録したという。この結果は、外観以上のものが求められる課題では、最も高性能なプロプライエタリモデルがなお大きく先行していることを示唆する。

それでも、より広い結論は、商用システムが動画における推論を解決したということではない。記事は、論理が依然として全てのテスト済みモデルの足を引っ張ると述べている。倒れるドミノ、クレーンゲーム、単純な回路といった例だけで、失敗は明らかになった。言い換えれば、より良い製品は存在するが、堅牢な世界理解は全体としてまだ欠けている。

これは重要な結果だ。生成AIでは、出力がますますリアルになるほど、より深い能力があるはずだという通念に反するからだ。WorldReasonBenchは、むしろ逆のことがよく起きると示唆している。モデルがスタイル面で改善するほど、残る失敗は一般の観察者には見つけにくくなるが、実用の場面ではその失敗が致命的になりうる。

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

AnthropicのDario Amodei CEOは、透明性ルールだけではもはや不十分だとして、最先端AIシステムに対する第三者の義務的監査を求めている。

Read article

ベンチマーク順位以上に重要な理由

このベンチマークは、AI動画ツールが単なる娯楽エンジンとしてだけでなく、将来的には教育、設計、シミュレーション、コミュニケーション、自動コンテンツ制作を支える可能性があるシステムとして評価されつつある時期に登場した。そうした場面では、もっともらしさは任意ではない。運動、測定、相互作用を美しく描いていても誤っているモデルは、単に不完全なのではなく、誤解を招く可能性がある。

したがってWorldReasonBenchは、マルチモーダルAIにおけるより大きな課題を示している。日常的な物理挙動や基本的な論理構造を信頼性高く表現できないなら、描画がより美しくなるだけでは信頼できるシステムにはならない。研究は、視覚品質が重要ではないとは主張していない。推論に比べて、それを過度に評価してきたと主張しているのだ。

そのため、このベンチマークは、正確な順位が時間とともに変わっても有用だ。動画生成に対して、より厳しい問いを定義する。それは、クリップが本物らしく見えるかではなく、現実世界に属しているかのように振る舞うか、という問いだ。

現時点では、答えはせいぜい混在している。先行する商用システムは明らかに優位だが、ベンチマークの中心メッセージは、ランキング結果以上に鋭い。AI動画は今や印象的なシーンを生成できる。それでも、自分が作ったシーンを理解するのはまだ苦手だ。

この記事は The Decoder の報道に基づいている。元記事を読む。

Originally published on the-decoder.com

見た目の良いAI動画が、いまだに基本的な世界の論理で失敗する理由を新ベンチマークが示す