性能更强,但老问题依旧存在
OpenAI 的 GPT-5.5 带来了通常足以定义一次重要模型发布的头条:根据所提供的来源文本,它如今位居 Artificial Analysis Intelligence Index 之首,领先于 Anthropic 和 Google 的主要竞争对手。在性能层面,这让这次发布很容易概括。更难的是,同一份报道还描述了一个持续且严重的弱点:幻觉。
The Decoder 的报道将 GPT-5.5 描述为一款在改善前沿价格性能表现的同时,仍未解决大语言模型最顽固行为缺陷之一的模型。这种组合正越来越成为衡量先进 AI 系统的重要标准。更高分数和更高效率固然重要,模型是否知道自己不知道什么,同样重要。
有哪些改进
来源称,GPT-5.5 在 Artificial Analysis Intelligence Index 上获得 60 分,比并列 57 分的 Claude Opus 4.7 和 Gemini 3.1 Pro Preview 高出 3 分。来源还称,该模型使用的 token 数量比 GPT-5.4 少约 40%。这一 token 降幅很重要,因为它改变了这次发布的经济性。
名义上,GPT-5.5 的 API 价格翻倍,达到每百万输入 token 5 美元、每百万输出 token 30 美元,高于 GPT-5.4。但更低的 token 消耗在实际中缓和了这一涨幅。来源估计,在计入效率提升后,实际成本上涨约为 20%。按基准表现衡量,来源还认为,GPT-5.5 可以在中等算力下达到 Claude Opus 4.7 级别的分数,而成本远低于 Anthropic 模型在最高设置下的价格。
这正是开发者真正会注意到的那种取舍。前沿模型竞争不再只是看谁能登上排行榜,而是看性能提升是否伴随合理的 token 用量、可控的延迟,以及足以支撑生产部署的可靠性。就这些标准而言,GPT-5.5 似乎强化了 OpenAI 的位置。
为什么幻觉问题仍然重要
来源中更令人警惕的部分,是 GPT-5.5 在 Artificial Analysis 的 AA Omniscience 基准上仍然达到 86% 的幻觉率。即便在这项以事实为核心的基准上准确率领先,该模型据称仍会继续编造答案,而不是稳定地承认自身知识空缺。
这种区别至关重要。一个模型可以在总体事实任务上胜过竞争对手,却仍然过于愿意在本该拒答时自信作答。对用户而言,尤其是在技术或运营场景中,这种行为不是小问题,而往往是有用助手与高风险助手之间的差别。
更广泛的教训是,智能排名和可靠性并不是一回事。更强的基准表现也许意味着更好的推理、更广的知识覆盖,或更有效地使用推理阶段算力。但它并不自动意味着模型已经学会如何严谨地对待不确定性。按这里的描述,GPT-5.5 似乎是在强化这种差距,而不是缩小它。
这次发布如何放进更大的市场格局
来源不仅将 GPT-5.5 与 Anthropic 的 Claude Opus 4.7 相比,也与 Google 的 Gemini 3.1 Pro Preview 作了对照。其表述显示,Gemini 仍然在成本和多功能性方面具有吸引力,尤其是在 Google 产品和视觉任务中;而最新的 OpenAI 和 Anthropic 系统往往在编码和 agentic 工作上领先。这很好地概括了当前商业 AI 竞争的状态:买家并不是抽象地选择“唯一最佳模型”,而是在根据工作流来匹配模型优势。
因此,GPT-5.5 的发布看起来不像是决定性的终局,更像是对前沿格局的一次重置。OpenAI 似乎重新夺回了基准领先,并提高了 token 效率,但取舍依然明显。价格仍然更高,幻觉依旧严重,而基准领先并没有消除来自更便宜或更适合特定任务竞争对手的压力。
这对用户意味着什么
- 开发者可能在不同比例增加实际 token 成本的情况下获得更强的前沿性能。
- 不要把基准提升误认为事实可靠性问题已经解决。
- 高风险场景仍然需要护栏、验证,或以拒答为重点的工作流。
这使 GPT-5.5 成为重要但并不完整的一步。它推动了性能前沿,并把效率提升到了具有商业意义的程度。与此同时,它保留了现代生成式 AI 自诞生以来就存在的核心张力:系统变得更聪明了,但并不总是可靠地谦逊。只要这一点没有改变,每一次新的基准胜利都会附带一个运营层面的脚注。
本文基于 The Decoder 的报道。阅读原文。
Originally published on the-decoder.com

