AI 博彩基准显示前沿模型在足球预测上仍有困难

新的基准把模型推理置于严酷环境中

前沿 AI 系统或许在编程、摘要以及其他结构化任务上表现出色，但一项新研究表明，长周期的现实世界预测仍然是弱得多的能力。在一个围绕英超足球比赛投注构建的基准中，来自 Google、OpenAI、Anthropic、xAI 等公司的模型在模拟赛季中都亏了钱。

这份名为 KellyBench 的报告由初创公司 General Reasoning 发布，它在 2023–24 赛季英超的虚拟重建中测试了八个 AI 系统。每个模型都获得了历史数据和球队统计信息，然后被要求制定既能最大化回报又能管理风险的策略。随着赛季推进，这些系统在无法访问互联网的情况下，依据更新后的信息和新事件，对比赛结果和总进球数进行投注。

所有模型都亏了钱

核心结果十分鲜明。根据研究作者的说法，所有受评估的前沿模型都在整个赛季中亏了钱，而且很多都彻底爆仓。Anthropic 的 Claude Opus 4.6 取得了最好的平均结果，亏损 11%，其中一次运行几乎打成平手。OpenAI 的 GPT-5.4 在三次尝试中的平均投资回报率为负 13.6%。Google 的 Gemini 3.1 Pro 波动异常大，一次尝试盈利 33.7%，但另一次则破产。

所提供文本中最差的表现来自 xAI 的 Grok 4.20，它在一次运行中破产，另外两次尝试也未能完成。已发布表格显示，Grok 的平均 ROI 为负 100%，平均最终资金为零。Acree Trinity 也以零收场。

为何这一设置重要

博彩市场并不完全等同于通用智能，但它们是检验多项体育之外能力的有用压力测试。模型必须解读噪声数据，在风险与回报之间权衡，随时间更新信念，并避免过度自信。这些任务之所以困难，是因为成功与其说取决于能否生成听起来合理的语言，不如说取决于在不确定性下的决策质量。

这正是该结果有趣之处。该基准并不声称语言模型在所有形式的预测上都很差。它确实表明，即便是先进系统，在被迫于不断变化的环境中反复做出受资金限制的决策时，仍可能表现不佳。尤其当目标不是事后解释事件，而是在结果揭晓前采取行动时，这一点似乎更为明显。

对 AI 热潮的一个有用对照

这些发现出现在 AI 能力主张常常以宽泛且变化迅速的措辞被表述的时刻。模型在编程任务、多模态基准以及各种推理测试上的表现都在提升。但 KellyBench 的结果指向一个更狭窄也更谨慎的结论：实验室或工作流任务上的进步，并不会自动转化为真实、充满不确定性的领域中的稳健判断力。

文章的原始来源文本明确指出，这些发现可能会给担心 AI 会迅速取代金融和营销等领域人类专业能力的从业者带来一些安慰。对此解读应当谨慎，但核心观点成立。能够产出令人印象深刻结果的系统，在持续数周或数月的动态决策中，仍可能表现吃力。

波动很大，但不足以挽救这个领域

结果中一个更能说明问题的细节，是某些模型最好与最差尝试之间的差距。例如，Gemini 3.1 Pro 在一次运行中获得可观利润，而在另一次中则彻底破产。这表明，在这种环境下，模型行为可能并不稳定，结果会对执行细节、更新或内部决策模式高度敏感。

高波动性之所以诱人，是因为它会制造可见的胜利。但在整个赛季中，平均表现比孤立的峰值更重要。在这一衡量标准下，该领域表现不佳。研究作者得出结论，这些系统在该场景中系统性地不如人类。

基准证明了什么，以及没有证明什么

这项研究并未最终回答 AI 代理在预测、交易或决策支持方面会变得多强。它确实强化了一条有用原则：关于模型能力的主张应当与具体环境绑定，而不是从无关优势泛化而来。会写代码的模型，并不一定就会做资本配置。

随着公司把 AI 系统包装成广泛的战略工具，这种区分变得越来越重要。KellyBench 实验提醒我们，现实世界并不接受干净利落的预测。在由不确定性、激励机制和不断演化的信息塑造的领域中，貌似合理的分析与持续良好的判断之间仍存在巨大鸿沟。

General Reasoning 测试了八个 AI 系统在整个赛季中的英超投注决策。
根据 KellyBench 报告，所有模型平均都亏了钱。
这些结果表明，在某些 AI 任务上的强表现，并不保证现实世界中也具备稳健预测能力。

本文基于 Ars Technica 的报道。阅读原文。

AI足球博彩测试显示，前沿模型仍难以胜任现实世界预测

新的基准把模型推理置于严酷环境中

所有模型都亏了钱

为何这一设置重要

对 AI 热潮的一个有用对照

波动很大，但不足以挽救这个领域

基准证明了什么，以及没有证明什么

Related Articles

Keep Reading

Comments (0)

Apple 计划中的 Ads API 迁移，预示着面向营销人员和开发者的平台重置

Commonwealth Fusion Systems 将超导磁体变成一门短期业务

合规初创公司 Delve 被指控'虚假合规'欺诈

iPhone 18 Pro 可能捆绑专业相机软件