OpenAI 发布 GPT-5.5，用于智能体编码、研究和数据工作

OpenAI 的下一代模型直指自主工作

OpenAI 推出了 GPT-5.5，将其描述为一款面向“真实工作”的模型，旨在驱动能够在更少人工引导下完成更长任务的智能体。根据所提供的材料，公司正围绕 AI 领域一个熟悉但依然棘手的承诺来定位这款模型：从聊天式回复转向能够理解目标、收集上下文、使用工具、从歧义中恢复并持续工作直至任务完成的系统。

此次发布还包括 GPT-5.5 Pro，这是一个更强大的版本，OpenAI 表示它面向更高精度的工作。报道显示，这两款模型已向付费 ChatGPT 和 Codex 用户开放，并于 2026 年 4 月 25 日起加入 API 访问。原文称，每个模型都配备 100 万 token 的上下文窗口，这一规格表明 OpenAI 正在瞄准需要大量工作上下文而非孤立提示的多步骤任务。

OpenAI 认为提升主要集中在哪些方面

根据原文，OpenAI 认为最大的改进集中在四个领域：智能体编码、计算机使用、知识工作以及早期科学研究。这些类别之所以重要，是因为它们都涉及规划、工具选择、迭代和验证的组合。一个在单次基准测试中表现良好的模型，在需要跨多个步骤进行搜索、修改和协调操作时，并不一定可靠。

OpenAI 对 GPT-5.5 的描述正强调了这种更广泛的运作循环。该模型被定位为尤其擅长编写和调试代码、执行网页研究、分析数据、创建文档和电子表格，以及操作软件。换句话说，公司宣传的不只是更好的回答，而是更好的任务完成能力。

随着 AI 公司之间的竞争不再只是看基准分数，而是看模型能否嵌入节省可量化时间的工作流，这种区别变得越来越重要。对于企业买家和软件团队来说，一个只能提供有用建议的模型，与一个能够完成连贯操作序列的模型之间，商业价值差异显著。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 开源一套 2,000 小时机器人数据集

X Square Robot 发布了 XRZero-G0 和一套 2,000 小时的多模态数据集，旨在减少具身 AI 系统对真实机器人训练数据的需求。

Read article

基准测试显示有提升，但并非全面领先

所提供的材料称，OpenAI दावा GPT-5.5 在关键基准上优于包括 Anthropic 的 Claude Opus 4.7 和 Google 的 Gemini 3.1 Pro 在内的主要竞品，尤其是在编程和高阶数学方面，同时保持速度。与此同时，这份报道并未把该模型描述为在所有类别中都无可匹敌。相反，文中指出 GPT-5.5 并非在所有方面都名列前茅。

这种表述很值得注意。它表明竞争格局依然胶着，不同厂商在不同工作负载上各有胜负，而不是在所有场景里形成决定性领先。原文还引用了 Artificial Analysis 的独立测试，据称其将 GPT-5.5 评为整体上略居首位，同时也指出其在幻觉方面存在弱点。这种组合符合当前模型市场的整体趋势：更强的推理和更广泛的能力，并不会自动消除可靠性问题。

对于评估这款模型的用户来说，这种细微差别很重要。最突出的改进并不只是 GPT-5.5 更有能力，而是 OpenAI 似乎正尝试把能力、速度和工具使用打包成一个更适合生产环境的智能体形态。它是否能在真实部署中保持稳定，仍取决于失败率、成本，以及在实际使用中是否仍然需要大量人工监督。

更高定价凸显了智能体 AI 的经济性

这次发布也传递出一个定价信号。原文称，OpenAI 将 GPT-5.5 的标价大约提高了一倍，但独立分析显示，由于每项任务消耗的 token 更少，实际成本可能只比 GPT-5.4 高出约 20%。这种区别很重要，因为企业不会单独购买标价，他们购买的是每一美元所完成的有用工作。

智能体模型让这种计算更复杂。只要某个更昂贵的模型能够减少重试、降低监督成本，或者用更少轮次完成任务，它仍然可能具有吸引力。但更高的名义价格也抬高了门槛。买家会期待更明确的生产力收益，尤其是在编码和分析工作流中，团队可以直接比较输出质量。

100 万 token 的上下文窗口加强了 OpenAI 的论点，即 GPT-5.5 面向的是更大的任务，而不是狭窄的问答。不过，大上下文只有在模型能有效利用这些上下文并在任务推进时保持扎实时才具有商业价值。否则，它就只是一项昂贵的规格，而不是操作优势。

Anthropic呼吁强制审计，同时把AI重新定义为战略基础设施

Anthropic首席执行官Dario Amodei表示，透明度规则已不再足够，并呼吁对前沿AI系统进行强制性的第三方审计。

Read article

为什么这次发布重要

GPT-5.5 看起来不像一次常规的模型更新，更像是对领先 AI 厂商认为市场走向的一个声明。OpenAI 押注，下一阶段的竞争将由能够跨工具运行并持续更长工作流的模型来定义，而不只是生成更精致文本的模型。

如果这一判断成立，AI 产品设计的重心可能会继续从聊天界面转向嵌入开发环境、企业软件、研究工具和内部运营的智能体系统。核心问题不再只是模型回答得有多好，而是它做事做得有多好。

根据所提供材料中的证据，GPT-5.5 是 OpenAI 将这一理念转化为可销售平台层的最新尝试。它的真正意义不会由发布措辞来决定，而会由用户是否发现它确实更少需要指导、却能在漫长而杂乱的任务中交付更可靠结果来衡量。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

OpenAI 随着 GPT-5.5 发布进一步进入智能体工作流