数学は先端AIの実力を測る試金石になりつつある
OpenAIの研究者セバスチャン・ブベック氏とアーネスト・リュウ氏は、なぜ数学が現在、汎用人工知能をめぐる議論の中心近くにあるのかを明確に説明している。The Decoderが報じた最近のOpenAI Podcastでの対話で、両氏は数学を単に言語モデルにとって難しい分野としてではなく、一般的に知的なシステムに必要となるより広い能力を試す、凝縮されたストレステストとして位置づけた。
この主張は、数学的作業そのものの性質に基づいている。証明には、長く、内的に一貫した推論が必要であり、その多くは長時間にわたって維持される。たった一つの誤りで、思考の連なり全体が無効になることもある。そう考えると、数学は単なる別のベンチマークではない。成功が流暢さだけでなく、信頼性、自己修正、持続力に依存する分野なのだ。
モデル能力の急速な変化
ブベック氏は、変化の速度が際立っていると述べた。彼は、わずか4年前にGoogleのMinervaモデルが座標系上の点を結ぶ直線を引けたことに感銘を受けたと振り返った。2年前には、現在この分野の進歩を大きくけん引しているような推論重視のモデルは、まだ存在していなかった。現在では、こうしたシステムが、フィールズ賞受賞者を含む最高レベルの数学者の日常業務を支援しているという。
この進展が重要なのは、数学が長らく、AIが有意義な形で突破するのが最も難しい分野の一つとみなされてきたからだ。ブベック氏によれば、18か月前のある会議でも、多くの数学者は、拡大した大規模言語モデルでは未解決の研究問題を助けられないとまだ考えていた。したがって、懐疑から実用までの移行は、非常に圧縮された時間軸で起きたことになる。
補助役から研究パートナーへ
リュウ氏は、その転換を示す具体例を挙げた。UCLAの元数学教授である同氏は、最適化理論におけるネステロフ法に関する42年越しの未解決問題を、ChatGPTの助けを借りて、合計約12時間の3晩で解いたという。モデルを使う前にも、すでに40時間以上その問題に取り組んでいたが、解答には至っていなかった。
彼の説明で注目すべきなのは、役割分担についての捉え方だ。リュウ氏はモデルを、誤りのない神託のようには描かなかった。彼自身が検証者として機能し、誤りを見つけ出し、対話をより有望な方向へ導いた。この見方は重要だ。ここでのシステムの価値は、探索を加速し、生産的な道筋を提案することにあり、最終的な検証責任は人間側に残る。
数学がAGI議論に適している理由
ブベック氏のより広い主張は、数学がAGIのベンチマークとして機能するのは、他の難しい科学・技術分野に必要な要素と同じものを要求するからだということだ。長い証明を保ち続けられるシステムは、集中を維持し、内部整合性を保ち、誤りを検出し、自分の推論を修正できなければならない。これらは数学固有の հնարではなく、転用可能な能力である。
また同氏は、数学教育を人間の教育になぞらえた。学生が数学を学ぶのは、全員が職業数学者になるからではなく、この学問が構造化された思考の形を強いるからだ。同様に、モデルを数学で訓練すれば、生物学や材料科学のような分野に持ち込める推論の習慣が育つ可能性がある。
数学にはもう一つ利点がある。評価が非常に明確なのだ。問題は通常よく定義されており、答えは検証できる。曖昧なベンチマークや議論のある主張があふれる分野では、これは進歩を測るうえで比較的きれいな環境を研究者に与える。
「AGI time」という考え方
ブベック氏が提示した興味深い概念の一つが、彼のいう「AGI time」だ。これは、モデルがどれだけ長く、整合した思考の流れに相当するものを実質的に維持できるかを表す言葉として使われた。2年前には、この種の思考を数分しか模倣できなかったが、現在は数日、あるいは1週間ほど維持できるという。次の目標は、その地平を数週間、数か月へと広げることだ。
この見方が有用なのは、議論を一回限りのベンチマークスコアから持久力へと移すからだ。将来のシステムが自動化された研究者として機能することを期待されるなら、単発の課題を解くだけでなく、長期間にわたって生産的であり続ける必要がある。したがって、「AGI time」を延ばすことは単なるスローガンではなく、具体的な開発目標を示している。
自動研究者という野心
両氏は、OpenAIが、ある程度独立して長期間課題に取り組める「自動研究者」を構築していると述べた。また、基盤となる学習手法は数学に限られたものではなく、より一般的なものだとも語った。もしそれが正しければ、まず数学で示された進歩は、やがて他の科学分野にも波及する可能性がある。
とはいえ、道筋が定まったわけではない。数学の進歩が実際に何を証明するのかをめぐる議論は今後も続くだろう。特に、有名な未解決問題や、現在のシステムがなお必要とする人間の支えの大きさをめぐってはなおさらだ。しかし、議論は明らかに、算数やコンテスト向けの新奇性を超えた段階に進んでいる。今問われているのは、AIが、本格的な研究に求められるような長い推論作業で信頼できる存在になれるのかどうかだ。
もし数学がその移行の試験場であるなら、ブベック氏とリュウ氏の主張は単純だ。より広い機械知能への道は、人類が考案した最も難しい、規律ある思考の形を通るのかもしれない。
この記事は The Decoder の報道をもとにしています。元記事を読む。
Originally published on the-decoder.com


