新的基准把模型推理置于严酷环境中
前沿 AI 系统或许在编程、摘要以及其他结构化任务上表现出色,但一项新研究表明,长周期的现实世界预测仍然是弱得多的能力。在一个围绕英超足球比赛投注构建的基准中,来自 Google、OpenAI、Anthropic、xAI 等公司的模型在模拟赛季中都亏了钱。
这份名为 KellyBench 的报告由初创公司 General Reasoning 发布,它在 2023–24 赛季英超的虚拟重建中测试了八个 AI 系统。每个模型都获得了历史数据和球队统计信息,然后被要求制定既能最大化回报又能管理风险的策略。随着赛季推进,这些系统在无法访问互联网的情况下,依据更新后的信息和新事件,对比赛结果和总进球数进行投注。
所有模型都亏了钱
核心结果十分鲜明。根据研究作者的说法,所有受评估的前沿模型都在整个赛季中亏了钱,而且很多都彻底爆仓。Anthropic 的 Claude Opus 4.6 取得了最好的平均结果,亏损 11%,其中一次运行几乎打成平手。OpenAI 的 GPT-5.4 在三次尝试中的平均投资回报率为负 13.6%。Google 的 Gemini 3.1 Pro 波动异常大,一次尝试盈利 33.7%,但另一次则破产。
所提供文本中最差的表现来自 xAI 的 Grok 4.20,它在一次运行中破产,另外两次尝试也未能完成。已发布表格显示,Grok 的平均 ROI 为负 100%,平均最终资金为零。Acree Trinity 也以零收场。
为何这一设置重要
博彩市场并不完全等同于通用智能,但它们是检验多项体育之外能力的有用压力测试。模型必须解读噪声数据,在风险与回报之间权衡,随时间更新信念,并避免过度自信。这些任务之所以困难,是因为成功与其说取决于能否生成听起来合理的语言,不如说取决于在不确定性下的决策质量。
这正是该结果有趣之处。该基准并不声称语言模型在所有形式的预测上都很差。它确实表明,即便是先进系统,在被迫于不断变化的环境中反复做出受资金限制的决策时,仍可能表现不佳。尤其当目标不是事后解释事件,而是在结果揭晓前采取行动时,这一点似乎更为明显。
对 AI 热潮的一个有用对照
这些发现出现在 AI 能力主张常常以宽泛且变化迅速的措辞被表述的时刻。模型在编程任务、多模态基准以及各种推理测试上的表现都在提升。但 KellyBench 的结果指向一个更狭窄也更谨慎的结论:实验室或工作流任务上的进步,并不会自动转化为真实、充满不确定性的领域中的稳健判断力。
文章的原始来源文本明确指出,这些发现可能会给担心 AI 会迅速取代金融和营销等领域人类专业能力的从业者带来一些安慰。对此解读应当谨慎,但核心观点成立。能够产出令人印象深刻结果的系统,在持续数周或数月的动态决策中,仍可能表现吃力。
波动很大,但不足以挽救这个领域
结果中一个更能说明问题的细节,是某些模型最好与最差尝试之间的差距。例如,Gemini 3.1 Pro 在一次运行中获得可观利润,而在另一次中则彻底破产。这表明,在这种环境下,模型行为可能并不稳定,结果会对执行细节、更新或内部决策模式高度敏感。
高波动性之所以诱人,是因为它会制造可见的胜利。但在整个赛季中,平均表现比孤立的峰值更重要。在这一衡量标准下,该领域表现不佳。研究作者得出结论,这些系统在该场景中系统性地不如人类。
基准证明了什么,以及没有证明什么
这项研究并未最终回答 AI 代理在预测、交易或决策支持方面会变得多强。它确实强化了一条有用原则:关于模型能力的主张应当与具体环境绑定,而不是从无关优势泛化而来。会写代码的模型,并不一定就会做资本配置。
随着公司把 AI 系统包装成广泛的战略工具,这种区分变得越来越重要。KellyBench 实验提醒我们,现实世界并不接受干净利落的预测。在由不确定性、激励机制和不断演化的信息塑造的领域中,貌似合理的分析与持续良好的判断之间仍存在巨大鸿沟。
- General Reasoning 测试了八个 AI 系统在整个赛季中的英超投注决策。
- 根据 KellyBench 报告,所有模型平均都亏了钱。
- 这些结果表明,在某些 AI 任务上的强表现,并不保证现实世界中也具备稳健预测能力。
本文基于 Ars Technica 的报道。阅读原文。




