从语言模型到Agent平台
OpenAI宣布了对其Responses API的重大扩展,为其配备了托管容器环境,将该API从文本生成服务转变为完整的Agent runtime平台。此次更新添加了shell工具访问、文件管理能力和沙箱计算容器,使AI代理能够执行代码、操纵文件并跨多步任务维护持久状态——所有这些都在安全的托管基础设施内进行。
该公告代表了OpenAI进入Agent基础设施领域的最直接举措,为开发者提供了创建AI代理所需的构建块,这些代理可以自主执行复杂的多步工作流,而无需开发者管理自己的Agent执行计算基础设施。
Agent Runtime的架构
新的Agent runtime由三个核心组件组成。首先,shell工具使AI代理能够在沙箱容器内执行任意shell命令。这意味着代理可以安装软件包、运行脚本、编译代码并与命令行工具交互,就像人类开发者从终端进行的操作一样。
其次,文件管理系统允许代理在其容器内读取、写入、创建和修改文件。文件在会话内的多个API调用间持久保存,使代理能够在多步任务过程中构建复杂的工件——代码库、数据分析管道、文档。
第三,容器本身是完全隔离的沙箱,防止代理访问其指定环境外的资源。每个容器在其自己的命名空间中运行,网络访问受限,确保即使代理执行恶意或错误的代码,影响也被限制在沙箱内。
开发者为什么需要这个
构建能够在现实世界中采取行动的AI代理——而不仅仅是生成文本——一直是过去一年AI开发中最活跃的领域之一。LangChain、AutoGPT和CrewAI等框架已经展示了AI代理的潜力,但使用这些框架的开发者必须管理自己的基础设施以进行代码执行、文件存储和状态管理。
这种基础设施负担很大。安全地运行AI生成的代码需要沙箱来防止安全事件。跨多步Agent工作流维护状态需要持久存储。跨多个并发会话扩展Agent执行需要容器编排。通过提供托管runtime,OpenAI承担了这些基础设施责任,允许开发者专注于Agent设计和任务编排,而不是DevOps。
用例和应用
Agent runtime使几类应用成为可能,这些应用之前用仅API访问很难构建。代码生成和测试代理现在可以编写代码、运行代码、观察输出并进行迭代调试——所有这些都在单个API会话内进行。数据分析代理可以加载数据集、执行分析脚本、生成可视化并返回结果,而无需在API和开发者基础设施之间往返数据。
研究代理可以配备访问数据库、API和Web服务的工具,将多个来源的信息综合成连贯的报告。DevOps代理可以执行部署脚本、运行健康检查并响应运维事件。
runtime也被设计为支持长期运行的任务。容器可以持久存在很长时间,使代理能够处理花费数分钟或数小时的任务,而不是典型单个API调用的几秒钟。
竞争和市场背景
OpenAI的Agent runtime进入了一个竞争激烈的市场。Anthropic为Claude提供了类似的计算机使用能力,允许模型与桌面环境交互。Google的Gemini平台通过其AI Studio包括代码执行。一个不断增长的开源工具生态系统提供不与任何单个模型提供商绑定的Agent基础设施。
OpenAI方法的差异化因素是集成深度。因为runtime直接内置于Responses API,Agent能力与模型的推理能力紧密耦合。模型可以决定何时执行代码、创建或修改哪些文件、如何解释shell输出——所有这些都是其自然响应生成过程的一部分。
安全和治理
OpenAI强调托管容器环境包括多个安全层。容器以最小权限运行,网络访问仅限于已批准的端点,所有Agent操作都被记录用于审计目的。开发者可以在容器上设置资源限制——CPU、内存、磁盘空间、执行时间——以防止失控进程。
日志记录和审计能力对于企业用例特别重要,因为合规要求需要了解AI代理在做什么。Agent执行的每个shell命令、创建或修改的每个文件以及发出的每个网络请求都被记录并可被审查。
当AI代理承担越来越多的重要任务时,支持它们的基础设施必须与模型本身一样健壮。OpenAI的托管容器环境代表了对以下事实的认可:从语言模型到自治代理的道路不仅需要更好的模型,还需要更好的基础设施。
本文基于OpenAI的报告。阅读原文。

