OpenAI 研究人员称数学是通往 AGI 的道路

数学正成为先进 AI 的试金石

OpenAI 研究人员 Sebastian Bubeck 和 Ernest Ryu 清楚地阐述了为什么数学如今位于人工通用智能讨论的核心。根据 The Decoder 对近期一期 OpenAI Podcast 的报道，两位研究人员将数学描述为不仅仅是语言模型面临的一个困难领域。他们认为，数学是对真正具备通用智能的系统所需更广泛能力的一次紧凑压力测试。

这一论点建立在数学工作的本质之上。证明需要长时间、内部一致的推理，往往要持续很久。一个错误就可能使整条思路失效。从这个意义上说，数学不只是另一项基准。它是一个结果取决于可靠性、自我纠错和持续性，而不仅仅是流畅表达的领域。

模型能力的快速跃迁

Bubeck 表示，这一变化的速度令人震惊。他回忆说，四年前他还会为 Google 的 Minerva 模型能够在坐标系中画出一条穿过若干点的直线而感到惊讶。两年前，以推理为重点的模型还没有以如今推动该领域大部分进展的形式出现。如今，他说，这些系统正在协助顶尖数学家，包括菲尔兹奖得主，完成日常工作。

这一进展之所以重要，是因为数学长期以来被视为 AI 最难真正攻克的领域之一。根据 Bubeck 的说法，在 18 个月前的一次会议上，大多数数学家仍然认为，扩大规模的大语言模型无法帮助解决开放性研究问题。因此，从怀疑到实际使用的转变是在一个压缩的时间表上发生的。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 开源一套 2,000 小时机器人数据集

X Square Robot 发布了 XRZero-G0 和一套 2,000 小时的多模态数据集，旨在减少具身 AI 系统对真实机器人训练数据的需求。

Read article

从助手到研究伙伴

Ryu 提供了一个这一转变的具体例子。这位前 UCLA 数学教授说，他借助 ChatGPT 用三个晚上、总计大约 12 个小时，解决了一个关于 Nesterov 方法的 42 年未解难题。在使用该模型之前，他已经花了 40 多个小时研究这个问题，但仍未找到解法。

他的经历值得注意之处在于它揭示了分工方式。Ryu 并没有把模型描述成无误的神谕。他扮演的是验证者的角色，负责捕捉错误并将对话引向更有希望的方向。这种表述很重要。在这种叙述里，系统的价值在于加速探索并提出有效路径，而人类仍负责验证。

为什么数学适合 AGI 之争

Bubeck 更广泛的主张是，数学之所以能成为 AGI 基准，是因为它要求与其他艰难科学和技术领域相同的要素。一个能够把长篇证明保持完整的系统，必须能够持续专注、维持内部一致性、发现错误并修正自己的推理。这些都是可迁移的能力，而不是只属于数学的技巧。

他还把数学训练与人类教育作了比较。学生学习数学，并不只是因为他们都会成为职业数学家，而是因为这门学科迫使人们进行一种结构化思维。同样，围绕数学训练模型，或许会培养出能够迁移到生物学和材料科学等领域的推理习惯。

数学还有另一个优势：评估标准格外清晰。问题通常定义明确，答案也可以被检验。在一个充斥着模糊基准和有争议说法的领域里，这为研究人员提供了一个相对干净的进展测量环境。

“AGI 时间”的概念

Bubeck 提出的一个更有意思的概念是他所称的“AGI 时间”。他用这个说法来描述模型能够有效维持相当于一条连贯思路的时长。两年前，他说，系统只能把这种思考模拟几分钟。如今，它们可以持续数天，甚至一周。下一步目标是把这一时间跨度推进到数周和数月。

这一框架很有用，因为它把讨论从一次性的基准分数转向了耐久性。如果未来系统被期望充当自动化研究员，那么它们需要在长时间段内保持生产力，而不仅仅是解决孤立任务。延长“AGI 时间”因此不仅仅是一句口号。它指向一个具体的开发目标。

自动化研究员的雄心

研究人员表示，OpenAI 正在构建一种“自动化研究员”，能够在较长时间内以一定程度的独立性处理问题。他们还表示，底层训练方法具有通用性，而不仅仅专门针对数学。如果这一点成立，那么最先在数学中展示出的进展，最终可能会扩散到其他科学领域。

这并不意味着路径已经确定。关于数学进步究竟证明了什么的争论仍会继续，尤其是在著名未解难题以及当前系统仍需要多少人类辅助这些问题上。但讨论显然已经超越了算术或竞赛式的新奇展示。当前真正的问题是，AI 是否能在严肃研究所要求的那种长期推理工作中变得可靠。

如果数学是这场转变的试验场，那么 Bubeck 和 Ryu 的观点就很直接：通往更广泛机器智能的道路，可能会经过人类所设计出的最艰难的纪律性思维形式。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

为什么 OpenAI 研究人员认为数学是通用智能的核心测试