新しいベンチマークが、モデルの推論を容赦ない環境に置く

最先端のAIシステムは、コーディング、要約、その他の構造化された作業では優れているかもしれないが、新しい研究は、長期の現実世界予測ははるかに弱い能力であることを示唆している。プレミアリーグのサッカー試合への賭けを題材にしたベンチマークでは、Google、OpenAI、Anthropic、xAIなどのモデルが、シミュレートされた1シーズンを通じていずれも損失を出した。

KellyBenchと呼ばれるこの報告書は、スタートアップのGeneral Reasoningが公開したもので、2023–24シーズンのプレミアリーグを仮想的に再現し、8つのAIシステムをテストした。各モデルには過去データとチーム統計が与えられ、そのうえで、リスクを管理しながら収益を最大化する戦略を構築するよう指示された。システムは、インターネットにアクセスせずに、新しい情報や出来事に適応しながら、シーズンの進行に合わせて試合結果と得点総数に賭けた。

すべてのモデルが損失

中心的な結果は明白だ。研究著者によると、評価された最先端モデルはすべてシーズンを通じて損失を出し、多くは完全な破綻に陥った。AnthropicのClaude Opus 4.6が平均結果では最も良く、損失は11%で、ほぼ損益トントンに近い試行も1回あった。OpenAIのGPT-5.4は3回の試行で平均投資収益率がマイナス13.6%だった。GoogleのGemini 3.1 Proは非常に大きな分散を示し、1回は33.7%の利益を出した一方、別の試行では破産した。

提示文で最も悪い成績として挙げられているのはxAIのGrok 4.20で、1回は破産し、残り2回の試行は完了できなかった。公開表では、Grokの平均ROIはマイナス100%、平均最終資金はゼロと記されていた。Acree Trinityもゼロで終わった。

この設定が重要な理由

賭け市場は一般知能の完璧な代理指標ではないが、スポーツ以外の場面で重要な複数の能力を試す有用なストレステストではある。モデルは、ノイズの多いデータを解釈し、リスクと報酬を天秤にかけ、時間の経過とともに信念を更新し、過信を避けなければならない。成功は、もっともらしい言語を生成することよりも、不確実性の下で適切に意思決定できるかに左右されるため、こうした課題は難しい。

それが、この結果を興味深いものにしている。ベンチマークは、言語モデルがあらゆる予測で弱いと主張しているわけではない。だが、先進的なシステムであっても、変化する環境の中で資本制約のある意思決定を繰り返し迫られると、うまく機能しない可能性があることを示している。とりわけ、出来事を事後的に説明するのではなく、結果が分かる前に行動することが求められる場合に、それが顕著だと見られる。

AI誇張への有用な対抗材料

今回の結果は、AIの能力に関する主張がしばしば広範で変化の速い言葉で語られる時期に出てきた。モデルはコーディング、マルチモーダルベンチマーク、さまざまな推論テストで改善を続けている。しかしKellyBenchの結果は、より限定的で慎重な結論を示している。研究室やワークフローの課題での進歩が、そのまま現実の不確実な領域での堅実な判断力につながるわけではない。

記事の原文は、これらの結果が、AIが金融やマーケティングなどの分野で人間の専門性をすぐに置き換えるのではないかと心配する専門家に、ある程度の安心材料を与えるかもしれないと明記している。この解釈は慎重に扱うべきだが、要点は変わらない。印象的な出力を生み出せるシステムであっても、数週間から数か月にわたって進行する動的な意思決定には苦戦しうる。

ばらつきは大きかったが、業界を救うほどではなかった

結果の中でも示唆に富む点の一つは、いくつかのモデルで最良と最悪の試行の差が大きかったことだ。たとえばGemini 3.1 Proは、1回の試行で高い利益を出した一方、別の試行では完全破綻した。これは、この種の環境ではモデルの挙動が不安定になり得て、実行の詳細、更新、あるいは内部の判断パターンに結果が左右されることを示している。

高い分散は、目に見える成功を生むため魅力的に映ることがある。しかし、1シーズンを通しては、単発の急上昇より平均的な成績の方が重要だ。その指標では、業界全体の成績は芳しくなかった。研究著者らは、このシナリオでシステムは人間を一貫して下回ったと結論づけた。

このベンチマークが示すこと、示さないこと

この研究は、AIエージェントが予測、トレーディング、意思決定支援でどこまで高性能になるかという問いに最終回答を与えるものではない。ただし、モデル能力に関する主張は、無関係な強みから一般化するのではなく、特定の環境に結びつけるべきだという有益な規律を補強している。コードを書くのが得意なモデルが、資本配分も得意だとは限らない。

企業がAIシステムを広範な戦略ツールとして売り込むにつれ、この区別はますます重要になっている。KellyBenchの試みは、世界がきれいな予測を拒むことを思い出させる。不確実性、インセンティブ、進化する情報によって形作られる領域では、もっともらしい分析と一貫して良い判断との間のギャップは依然として大きい。

  • General Reasoningは、プレミアリーグの賭け判断について、8つのAIシステムを1シーズンにわたってテストした。
  • KellyBenchの報告書によると、すべてのモデルが平均で損失を出した。
  • この結果は、いくつかのAI課題での高性能が、実世界での堅牢な予測を保証するわけではないことを示している。

この記事は Ars Technica の報道に基づいています。元記事を読む