DevelopmentsToday

询问 DT AI 音频简报视频播客 DT+

询问 DT AI 音频简报视频播客

OpenAI称 WebSocket 让智能体式 API 工作流快了约40% | Developments Today

OpenAI表示，持久化 WebSocket 会话可将智能体循环延迟降低约40%

OpenAI表示，对其 Responses API 智能体循环的重新设计，以持久化 WebSocket 连接和连接范围缓存为核心，在模型推理速度大幅提升之际，将端到端延迟降低了约40%。

DE

DT Editorial AI

Apr 26, 2026·1 min read·55 words

Speeding up agentic workflows with WebSockets in the Responses API — Speeding up agentic workflows with WebSockets in the Responses API · Image: images.ctfassets.net

Key Takeaways

OpenAI表示，使用 Responses API 的智能体循环端到端速度大约提升了40%。
该公司称，推理速度提升使 API 开销成为更大的瓶颈。
持久化 WebSocket 会话让 OpenAI 能够将状态和缓存附着在连接上。

Share

为什么更快的智能体循环很重要

OpenAI表示，它已经重构了支撑 Responses API 的底层架构，以显著加快类智能体工作流，目标是在复杂任务中减少用户在工具、模型和 API 调用之间来回切换时的等待时间。

在4月22日发布的一篇技术文章中，该公司描述了像 Codex 这样的系统可能需要数十次顺序请求才能完成单个任务：模型决定下一步做什么，工具在客户端运行，结果再发送回 API，然后循环重复。这种模式会让哪怕很小的开销也迅速累积。

OpenAI表示，随着推理本身变得更快，这个性能问题变得更加明显。该公司称，Responses API 早期的旗舰模型速度约为每秒65个 token。对于 GPT-5.3-Codex-Spark，OpenAI 通过 Cerebras 硬件将目标设定为每秒超过1,000个 token。一旦模型生成速度快到这个程度，循环中较慢的部分就不再容易被掩盖。

从推理瓶颈到 API 瓶颈

OpenAI将智能体延迟分为三个大阶段：API 服务工作、模型推理以及客户端时间。客户端时间仍然重要，因为工具需要执行，且上下文需要组装，但该公司表示，API 层本身已经成为一个有意义的瓶颈。

这一变化迫使其采用不同的优化策略。OpenAI表示，与其只关注 GPU 吞吐量，不如开始消除请求路径上的摩擦。大约在2025年11月，该公司启动了其所谓的 Responses API 性能冲刺。相关工作包括将渲染后的 token 和模型配置缓存到内存中，通过更直接地调用推理服务来减少额外的网络跳转，以及加快安全栈的部分环节，以便某些对话能够更快地被分类。

据该公司称，这些变化将首个 token 的响应时间提升了近45%。但 OpenAI表示，这仍不足以完全释放其更新版推理栈的速度优势。

WebSocket 转变

更大的变化是架构层面的：用通过 WebSocket 连接到 Responses API 的持久连接，取代一系列独立的同步 API 调用。实际上，这意味着客户端和 API 可以在整个智能体循环中保持连接，而不是不断拆除并重建请求状态。

OpenAI表示，持久化会话使它能够将有用信息附着在连接本身上。这减少了重复的初始化工作，并帮助系统在不同轮次之间更高效地复用上下文。该公司称，结果是端到端智能体循环速度大约提升了40%。

对用户来说，其意义很直接。如果一个编程或研究智能体需要大量工具调用才能完成任务，那么从每个循环中削减开销，其效果可能比仅加快某一个环节更大。原本在动作之间显得停滞的工作流，会更接近实时交互的体验。

Related Articles

Anthropic表示，在一个真实的内部市场中，更强的AI智能体谈成了更优惠的价格并完成了更多交易，而由较弱模型代表的用户并未察觉公平性差距。

DE

DT Editorial AI·Apr 25, 2026·via the-decoder.com

据报道，北京正在要求私营科技公司在国家批准之前拒绝美国资金，进一步强化对具有战略意义的人工智能资产和所有权保持更严格国内控制的整体趋势。

DE

DT Editorial AI·Apr 25, 2026·via the-decoder.com

OpenAI 的 GPT-5.5 已升至一项重要基准排名的榜首，并且看起来比前代更节省 token，但来源报道称，该模型仍然会以较高频率产生幻觉。

DE

DT Editorial AI·Apr 25, 2026·via the-decoder.com

Keep Reading