AI向けの、より難しい数学テスト

SOOHAKと呼ばれる新しいベンチマークは、多くの一般的なAI評価が見落としている点を測ろうとしている。それは、モデルが本当に難しい数学を推論できるか、そして回答すべきでないときにそれを見分けられるか、という点だ。提供された原文によると、このベンチマークは、Carnegie Mellon University、EleutherAI、Seoul National University などのグループに属する64人の数学者からなるコンソーシアムによって作られた。

SOOHAKには、439件のオリジナル手書き課題が含まれている。コレクションは、大学院レベルから研究レベルの数学を想定した340問の“Challenge”セットと、矛盾を含む、あるいは明確な答えを導くのに十分な情報が欠けているよう意図的に不備を持たせた99問の“Refusal”セットに分かれている。後者のセクションがより特異だ。これは、モデルが妥当でない問題を見抜けるか、それとも自信満々に答えを出してしまうかを試している。

ベンチマークの作成者たちは、モデルが学習中にすでに材料を見ていた可能性も下げようとした。原文によれば、各問題は教科書や競技問題集から流用するのではなく、ゼロから書かれた。作成者には教授、博士課程学生、ポスドク、国際数学オリンピックのメダリストが含まれ、問題作成時にAIの支援を使っていないことの確認も求められた。

研究レベルの数学は依然として明確な弱点

報告された結果では、問題が見慣れたコンテスト型の領域を超えると、先進モデルはいまも大きく苦戦している。Challengeセットでは、GoogleのGemini 3 Proが30%でトップとなり、GPT-5系が26%で続いた。Claude Opus 4.5は10%まで落ち込み、Kimi-2.5、Qwen3-235B、GPT-OSS-120Bを含むオープンウェイト系は15%未満にとどまった。

注目点は、あるモデルがわずかに別のモデルを上回ったことではない。この種の未公開・研究レベルの課題に対して、どのモデルも安定して強いわけではないという点だ。原文によれば、Challengeの124問は、どのモデルも解けなかった。これは、最先端の数学的推論の上限が、最近の「オリンピック級性能」をめぐる公開的な語りが示唆するよりも、まだずっと低いことを示している。

より易しい付属セットであるSOOHAK-Miniは、別の様相を示す。そこでは、上位システム同士の差はかなり小さく、スコアも大幅に高い。急激な落ち込みが現れるのは、課題がより標準化されていない、前処理されていない素材に移ったときだけだ。原文によると、ベンチマークの著者たちは、特にオープンウェイトモデルにおいて、小規模で未公開の問題への転移の弱さが露呈している可能性があると主張している。

「解けない」と判断する能力は、「解く」能力と同じくらい重要かもしれない

このベンチマークの最も重要な貢献は、拒否セクションにあるのかもしれない。実運用では、AIシステムは答えが合っているかだけでなく、依頼が不完全、矛盾している、または与えられた情報だけでは答えられないものかを見抜けるかでも評価される。SOOHAKはそれを第一級の能力として扱っている。

ここでも結果は弱かった。提供された原文によれば、最良モデルでさえ、解けない問題を認識する精度は50%未満だった。つまり、先導するシステムは、欠けている仮定や矛盾を特定するより、推測を選びがちだということだ。実務では、その振る舞いは目に見える計算ミスより危険だ。構造的には間違っているのに、権威あるように聞こえてしまうからだ。

これはAI評価で繰り返し見られるパターンでもある。モデルが慣れたベンチマークで改善するにつれ、そのベンチマーク自体が、残された最も難しい失敗を反映しなくなることがある。SOOHAKは、カバレッジと記憶に支配されたランキングから、抽象化、新規性、認識上の抑制を問うテストへと、分野を押し戻すために設計されているようだ。

このベンチマークが際立つ理由

  • 教科書や競技問題の焼き直しではなく、オリジナル課題を使っている。
  • 通常の問題解決と拒否行動を分けて評価している。
  • 学校数学やオリンピック数学だけでなく、研究レベルの難度に焦点を当てている。
  • より易しいベンチマークセットでの強い成績が、必ずしも上位の難度に転移しないことを示している。

報告された結果がより広い検証に耐えるなら、SOOHAKは飽和しつつある数学評価に対する有用な対抗軸になり得る。開発者にとっては、2つの未解決問題を示している。最先端モデルはいまだ見慣れない高度数学の壁にぶつかっており、さらに、答えられない理由を説明すべき場面で、なおも答えてしまうことが多い。

この問題は数学にとどまらない。解ける依頼と解けない依頼を確実に区別できないシステムは、法律、科学、工学、政策分析でも同種の誤りを犯す可能性が高い。SOOHAKは、AIがより難しい問題を解けるかだけでなく、AIが自分の知っていることの限界を認識できるかを問うている。

この記事は The Decoder の報道に基づいています。元記事を読む

Originally published on the-decoder.com