为什么更快的智能体循环很重要

OpenAI表示,它已经重构了支撑 Responses API 的底层架构,以显著加快类智能体工作流,目标是在复杂任务中减少用户在工具、模型和 API 调用之间来回切换时的等待时间。

在4月22日发布的一篇技术文章中,该公司描述了像 Codex 这样的系统可能需要数十次顺序请求才能完成单个任务:模型决定下一步做什么,工具在客户端运行,结果再发送回 API,然后循环重复。这种模式会让哪怕很小的开销也迅速累积。

OpenAI表示,随着推理本身变得更快,这个性能问题变得更加明显。该公司称,Responses API 早期的旗舰模型速度约为每秒65个 token。对于 GPT-5.3-Codex-Spark,OpenAI 通过 Cerebras 硬件将目标设定为每秒超过1,000个 token。一旦模型生成速度快到这个程度,循环中较慢的部分就不再容易被掩盖。

从推理瓶颈到 API 瓶颈

OpenAI将智能体延迟分为三个大阶段:API 服务工作、模型推理以及客户端时间。客户端时间仍然重要,因为工具需要执行,且上下文需要组装,但该公司表示,API 层本身已经成为一个有意义的瓶颈。

这一变化迫使其采用不同的优化策略。OpenAI表示,与其只关注 GPU 吞吐量,不如开始消除请求路径上的摩擦。大约在2025年11月,该公司启动了其所谓的 Responses API 性能冲刺。相关工作包括将渲染后的 token 和模型配置缓存到内存中,通过更直接地调用推理服务来减少额外的网络跳转,以及加快安全栈的部分环节,以便某些对话能够更快地被分类。

据该公司称,这些变化将首个 token 的响应时间提升了近45%。但 OpenAI表示,这仍不足以完全释放其更新版推理栈的速度优势。

WebSocket 转变

更大的变化是架构层面的:用通过 WebSocket 连接到 Responses API 的持久连接,取代一系列独立的同步 API 调用。实际上,这意味着客户端和 API 可以在整个智能体循环中保持连接,而不是不断拆除并重建请求状态。

OpenAI表示,持久化会话使它能够将有用信息附着在连接本身上。这减少了重复的初始化工作,并帮助系统在不同轮次之间更高效地复用上下文。该公司称,结果是端到端智能体循环速度大约提升了40%。

对用户来说,其意义很直接。如果一个编程或研究智能体需要大量工具调用才能完成任务,那么从每个循环中削减开销,其效果可能比仅加快某一个环节更大。原本在动作之间显得停滞的工作流,会更接近实时交互的体验。