面向 AI 的更难数学测试

一个名为 SOOHAK 的新基准,正试图衡量许多流行 AI 评测所忽略的一件事:模型能否推理真正困难的数学问题,以及它是否知道自己何时应该拒绝回答。根据所提供的原文,这一基准由一个由 64 位数学家组成的联盟构建,成员来自卡内基梅隆大学、EleutherAI 和首尔国立大学等机构。

SOOHAK 包含 439 道原创手写题目。题集分为两部分:一个包含 340 道题的“Challenge”集合,面向研究生和研究级数学;以及一个包含 99 道题的“Refusal”集合,这些题目故意带有缺陷,包含矛盾或缺少足够信息,因而无法给出明确答案。第二部分更不寻常。它测试模型能否识别题目本身不成立,而不是自信地硬给出结果。

该基准的创建者还尽量降低模型在训练中已经见过这些材料的可能性。原文称,每道题都是从头编写,而不是从教材或竞赛档案中摘取。贡献者包括教授、博士生、博士后和国际数学奥林匹克奖牌得主,他们还被要求确认自己在起草题目时没有使用 AI 辅助。

研究级数学仍然是明显弱点

报告结果显示,一旦问题超出熟悉的竞赛式题目,先进模型仍然表现得相当吃力。在 Challenge 集合上,Google 的 Gemini 3 Pro 得分为 30%,随后是 26% 的 GPT-5 变体。Claude Opus 4.5 降至 10%,而包括 Kimi-2.5、Qwen3-235B 和 GPT-OSS-120B 在内的开源权重系统都低于 15%。

重点并不是某一个模型略微领先另一个,而是它们在这类未公开、研究级的工作上都没有稳定强势表现。原文称,没有一个模型能解出 Challenge 中的 124 道题。这说明,前沿数学推理的上限仍然远低于近期围绕奥赛级表现的公共叙事所暗示的水平。

更容易的配套集合 SOOHAK-Mini 则呈现出不同图景。在那里,顶级系统的分数更接近,整体得分也高得多。只有当任务进入更不标准化、更少预消化的材料时,分数才会明显下滑。根据原文,基准作者认为,这可能暴露出对小众未公开问题的较弱迁移能力,尤其是在开源权重模型中。

拒答问题和解题问题一样重要

该基准最重要的贡献可能是其拒答部分。在真实使用中,AI 系统的评判标准不只是答对了多少,还包括它能否识别请求是否有缺陷、是否自相矛盾,或是否缺少足够信息而无法作答。SOOHAK 将这一点视为核心能力。

在这方面,结果同样不理想。所提供的原文称,即便是最好的模型,在识别不可解问题上也仍低于 50%。这意味着领先系统仍然经常倾向于猜测,而不是指出缺失的假设或矛盾。实际中,这种行为比明显的算术错误更危险,因为它看起来很权威,却在结构上是错误的。

这也是 AI 评测中的常见模式。随着模型在熟悉基准上的表现提升,基准本身可能不再反映最难剩余故障。SOOHAK 的设计似乎是要把领域从由覆盖率和记忆主导的排行榜,推向对抽象、创新和认知克制的测试。

这个基准为何突出

  • 它使用原创题目,而不是重复利用教材或竞赛材料。
  • 它将常规解题与拒答行为区分开来。
  • 它关注研究级难度,而不仅仅是学校数学或奥赛数学。
  • 它强调,对更简单基准集的强表现并不一定能向上迁移。

如果报告结果在更广泛审查下仍然成立,SOOHAK 可能会成为对日益饱和的数学评测的一种有用制衡。对开发者而言,它指出了两个尚未解决的问题:前沿模型在陌生的高阶数学上仍会碰壁,而且它们仍然过于频繁地在本该停下来并解释为什么无法回答时给出答案。

这种组合的重要性远不止数学。无法可靠区分可解与不可解请求的系统,在法律、科学、工程和政策分析中也很可能犯同类错误。SOOHAK 不只是询问 AI 能否解出更难的问题,它还在问 AI 能否识别自身知识的边界。

本文基于 The Decoder 的报道。阅读原文

Originally published on the-decoder.com