SOOHAKベンチマークがAIの難問数学と解なし問題を検証

AI向けの、より難しい数学テスト

SOOHAKと呼ばれる新しいベンチマークは、多くの一般的なAI評価が見落としている点を測ろうとしている。それは、モデルが本当に難しい数学を推論できるか、そして回答すべきでないときにそれを見分けられるか、という点だ。提供された原文によると、このベンチマークは、Carnegie Mellon University、EleutherAI、Seoul National University などのグループに属する64人の数学者からなるコンソーシアムによって作られた。

SOOHAKには、439件のオリジナル手書き課題が含まれている。コレクションは、大学院レベルから研究レベルの数学を想定した340問の“Challenge”セットと、矛盾を含む、あるいは明確な答えを導くのに十分な情報が欠けているよう意図的に不備を持たせた99問の“Refusal”セットに分かれている。後者のセクションがより特異だ。これは、モデルが妥当でない問題を見抜けるか、それとも自信満々に答えを出してしまうかを試している。

ベンチマークの作成者たちは、モデルが学習中にすでに材料を見ていた可能性も下げようとした。原文によれば、各問題は教科書や競技問題集から流用するのではなく、ゼロから書かれた。作成者には教授、博士課程学生、ポスドク、国際数学オリンピックのメダリストが含まれ、問題作成時にAIの支援を使っていないことの確認も求められた。

研究レベルの数学は依然として明確な弱点

報告された結果では、問題が見慣れたコンテスト型の領域を超えると、先進モデルはいまも大きく苦戦している。Challengeセットでは、GoogleのGemini 3 Proが30%でトップとなり、GPT-5系が26%で続いた。Claude Opus 4.5は10%まで落ち込み、Kimi-2.5、Qwen3-235B、GPT-OSS-120Bを含むオープンウェイト系は15%未満にとどまった。

注目点は、あるモデルがわずかに別のモデルを上回ったことではない。この種の未公開・研究レベルの課題に対して、どのモデルも安定して強いわけではないという点だ。原文によれば、Challengeの124問は、どのモデルも解けなかった。これは、最先端の数学的推論の上限が、最近の「オリンピック級性能」をめぐる公開的な語りが示唆するよりも、まだずっと低いことを示している。

より易しい付属セットであるSOOHAK-Miniは、別の様相を示す。そこでは、上位システム同士の差はかなり小さく、スコアも大幅に高い。急激な落ち込みが現れるのは、課題がより標準化されていない、前処理されていない素材に移ったときだけだ。原文によると、ベンチマークの著者たちは、特にオープンウェイトモデルにおいて、小規模で未公開の問題への転移の弱さが露呈している可能性があると主張している。

How we used Gemini to build Google I/O 2026

Google、Gemini が I/O 2026 制作にどう役立ったかを明かす

Google は、Gemini やその他の AI ツールを使って Google I/O 2026 の映像、ビジュアル、イベント要素の制作を支援したと説明し、同カンファレンスを AI 支援制作の社内ショーケースとして位置づけている。

Read article

「解けない」と判断する能力は、「解く」能力と同じくらい重要かもしれない

このベンチマークの最も重要な貢献は、拒否セクションにあるのかもしれない。実運用では、AIシステムは答えが合っているかだけでなく、依頼が不完全、矛盾している、または与えられた情報だけでは答えられないものかを見抜けるかでも評価される。SOOHAKはそれを第一級の能力として扱っている。

ここでも結果は弱かった。提供された原文によれば、最良モデルでさえ、解けない問題を認識する精度は50%未満だった。つまり、先導するシステムは、欠けている仮定や矛盾を特定するより、推測を選びがちだということだ。実務では、その振る舞いは目に見える計算ミスより危険だ。構造的には間違っているのに、権威あるように聞こえてしまうからだ。

これはAI評価で繰り返し見られるパターンでもある。モデルが慣れたベンチマークで改善するにつれ、そのベンチマーク自体が、残された最も難しい失敗を反映しなくなることがある。SOOHAKは、カバレッジと記憶に支配されたランキングから、抽象化、新規性、認識上の抑制を問うテストへと、分野を押し戻すために設計されているようだ。

このベンチマークが際立つ理由

教科書や競技問題の焼き直しではなく、オリジナル課題を使っている。
通常の問題解決と拒否行動を分けて評価している。
学校数学やオリンピック数学だけでなく、研究レベルの難度に焦点を当てている。
より易しいベンチマークセットでの強い成績が、必ずしも上位の難度に転移しないことを示している。

報告された結果がより広い検証に耐えるなら、SOOHAKは飽和しつつある数学評価に対する有用な対抗軸になり得る。開発者にとっては、2つの未解決問題を示している。最先端モデルはいまだ見慣れない高度数学の壁にぶつかっており、さらに、答えられない理由を説明すべき場面で、なおも答えてしまうことが多い。

この問題は数学にとどまらない。解ける依頼と解けない依頼を確実に区別できないシステムは、法律、科学、工学、政策分析でも同種の誤りを犯す可能性が高い。SOOHAKは、AIがより難しい問題を解けるかだけでなく、AIが自分の知っていることの限界を認識できるかを問うている。

この記事は The Decoder の報道に基づいています。元記事を読む。

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAIは、インフラ作業と長期的な消費者向けビジョンを軸にロボティクスを再構築している

OpenAIはロボティクスチームを再編し、まずはインフラ関連の作業から着手する一方で、サム・アルトマンCEOは、将来的に誰もが個人用ロボットを持つという目標を描いている。

Read article

Originally published on the-decoder.com

数学者たちが、正答のない問題を含めることで、より厳しいAIテストを構築

AI向けの、より難しい数学テスト

研究レベルの数学は依然として明確な弱点

Google、Gemini が I/O 2026 制作にどう役立ったかを明かす

「解けない」と判断する能力は、「解く」能力と同じくらい重要かもしれない

このベンチマークが際立つ理由

OpenAIは、インフラ作業と長期的な消費者向けビジョンを軸にロボティクスを再構築している

Comments (0)

Related Articles

Anthropic、候補者を見極めるため面接でのAIツール使用を禁止

Keep Reading