又一项被称为AI数学突破的成果迅速出现
前沿AI数学领域的竞争正在加速。就在OpenAI据称推翻了埃尔德什单位距离猜想之后,Anthropic员工现在表示,Claude Mythos也能解决同一个问题,据The Decoder报道。
这一说法仍然只是这样:一个由Anthropic人员描述并在X上公开讨论的报道结果。这一点很重要,因为它把这则故事放进了前沿AI研究中越来越常见的一类情境:有意义的技术进展,往往先在实验室、工程师和实际从事数学研究的人之间流传,然后才由完整的机构论文或更广泛的独立验证来最终定论。
即便如此,这一进展仍然意义重大。埃尔德什单位距离猜想自1946年以来一直悬而未决。如果多个前沿系统现在都能为一个长期存在的组合几何难题找到可行解法,那么真正值得关注的已不再只是某一条吸睛的证明,而是先进模型是否开始在困难研究问题上展现出可重复的价值。
Anthropic据称做了什么
根据原文,Anthropic使用了一套在AI解决另一个埃尔德什问题之后建立的测试环境。该系统由带有Mythos访问权限的隔离Claude Code实例组成,这些实例接收问题、探索解题路径,然后把整理后的发现传递给其他独立工作的实例。这个细节很重要,因为它把讨论从单次提示,转向了代理式工作流。
换句话说,这一被报道的成就并不是被包装成一次性的纯语言模型回答。它更像一个协调式研究框架:多个模型实例、问题拆解、摘要整理,以及对不同方法的迭代比较。这让结果不那么像一个精巧演示,更像是AI辅助数学工作在现实中可能如何开展的预演。
来源还称,Mythos经常走出与OpenAI模型不同的路径。如果这一点属实,那就意味着这件事比简单重复更有意思。独立的解题策略,比起复现一条已知推理链,更接近真正的研究价值。
为什么这种对比重要
文章提到,数学家Daniel Litt据称称Anthropic的结果“稍差一些”,但也表示Mythos找到了OpenAI的解法。这提醒我们,并非所有证明都一样。在数学中,优雅性、压缩性和概念新意与正确性同样重要。
不过,战略层面的重点并不是哪个实验室的证明更漂亮,而是多个实验室如今似乎都认为,它们的系统已经能够以远高于早期几代模型的水平处理开放数学问题。一旦这一点可重复,前沿问题就会从“AI能不能做到”转向“它能多频繁、多独立地做到,以及需要多少人工监督”。
The Decoder还提到,Google DeepMind最近宣布,一个AI辅助系统使用Lean这一形式化证明语言解决了9个埃尔德什问题。这个对比凸显了当前AI数学工作中的一个重要区别。有些系统严重依赖形式化验证环境;另一些则更多根据自然语言推理和代理式探索来评判。这个领域尚未就哪种风格更能反映原始能力达成共识。
更大的变化
让这个故事站得住脚的,不只是某个具体猜想本身,而是后续主张出现的速度。数学中的开放问题曾经是人类与机器推理边界的清晰标志。如今这条边界看起来更为可渗透,尤其是在实验室把前沿模型与编排工具结合起来,让模型能够分支、比较、总结并重试的情况下。
当然,被报道的实验室成功与稳定、广受信赖的研究系统之间仍有巨大差距。验证、同行评审和可重复性依然至关重要。但一个模式已经很难忽视:AI实验室不再只展示基准提升或打磨精良的消费级助手,它们越来越把系统呈现为高级知识工作的参与者。
如果这些说法继续站得住脚,AI数学相关头条就不会再是罕见的异常,而会开始像一个正在形成的研究门类。
- Anthropic员工表示,Claude Mythos可以解决埃尔德什单位距离猜想。
- 据称该流程使用了多个协同工作的Claude Code实例,而不是一个简单的一次性提示。
- 更大的故事是,AI辅助的长期开放数学问题研究正在快速推进。
本文基于The Decoder的报道。阅读原文。
Originally published on the-decoder.com


