Databricks将GPT-5.5加入企业代理工作流

基准表现推动部署

Databricks表示，在GPT-5.5在OfficeQA Pro上创下该公司复杂企业文档任务基准的新纪录后，正在将其引入企业代理工作流。根据所提供的原文，GPT-5.5成为首个在agent-harness环境下在该基准上超过50%准确率的模型，并且相较于GPT-5.4将错误率降低了46%。

这一决定之所以重要，是因为它把模型采用直接与企业关心的问题联系起来：在不发生连锁失败的情况下处理困难的文档工作流。OfficeQA Pro评估的是扫描PDF、遗留文件和长上下文文档中的解析、检索和基于事实的推理，而Databricks将这些描述为经常会让生产级代理系统出问题的任务类型。

这使得这项公告不只是一次普通的产品集成。它是在宣称：在一个困难的企业基准上取得的可衡量提升，如今已经强到足以支持更广泛地部署到面向客户的工作流中。

文档解析仍然是许多代理的薄弱环节

Databricks描述中最清晰的主题之一，是最大的提升出现在解析密集型工作流中。原文指出，大量企业内容仍然存在于扫描版或遗留格式中，轻微的提取错误就可能改变后续的一切。一个数字读错，整个工作流的走向都可能改变。

Databricks研究员Arnav Singhvi表示，像GPT-5.4这样的早期模型在正确解析所有数字方面表现吃力，而GPT-5.5在处理旧文档和扫描PDF方面带来了他所说的跃迁式提升。这是非常实用的改进。在企业自动化中，输入层的准确性往往比炫目的生成能力更重要，因为后续推理的质量只取决于系统最初提取出的文本和数字。

原文还说，Databricks观察到GPT-5.5在多步骤任务中的编排能力有所改善。Singhvi表示，GPT-5.4有时会走不必要的搜索弯路，导致效率低下。相比之下，GPT-5.5被描述为更可靠地检索相关上下文，并且无需额外监督就能完成复杂工作流。

Create, edit and star in videos with two Google Vids updates

Google Vids 新增 Gemini Omni 与个人头像

Google 正在将 AI 视频创作扩展到 Workspace 中，推出基于提示词的剪辑生成与编辑功能，以及可由自拍和录音创建的自定义头像。

Read article

为什么这对企业代理很重要

企业代理系统很少因为一次戏剧性的错误而失败。更常见的是，它们会因为一连串小错误而失败：解析错误、遗漏表格条目、无关的检索步骤，或者一个没有依据的结论被一路带下去。OfficeQA Pro正是为了测试这些方面而设计的。

这就是为什么原文中的基准数字很有意义。超过50%的准确率并不是被当作一个抽象的排行榜结果来呈现的，而是被描述为一个在面向困难、贴近生产场景的办公文档任务基准上达到的门槛。同样，相较于GPT-5.4错误率降低46%，说明的是可靠性的提升，而不仅仅是微调。

这里的重点并不是企业代理已经被彻底解决。即便基准准确率突破50%，仍然意味着有很大的提升空间。但报告中的提升表明，模型质量正在企业最关心的工作流环节进步：把文档转成机器可用的形式、找到正确上下文，并在多步骤过程中保持任务一致性。

Databricks计划如何使用GPT-5.5

根据所提供的原文，Databricks正通过AI Unity Gateway提供GPT-5.5，客户可以在用AgentBricks和Agent Supervisor API构建的工作流中使用它。在这些系统里，GPT-5.5负责跨专用代理进行解析、检索和执行的编排。

这种部署模式很重要，因为它把模型放在监督和协调的角色中，而不仅仅是聊天机器人界面。重点在于工作流、文档处理以及组件之间的编排。这符合企业买家越来越希望AI系统采取的运行方式：作为受管理、可审计的流程层，而不是独立的文本生成器。

Singhvi表示，让GPT-5.5监督这些工作流令人兴奋，因为Databricks预计很多客户会使用AgentBricks和Agent Supervisor API来构建定制代理系统。这意味着该模型被定位为更复杂的组织自动化的控制层，而不仅仅是一次性查询的助手。

这反映了企业如今看重什么

Databricks的公告也说明了当前企业AI市场的更广泛趋势。价值主张并不以创意新颖性为中心，而是以文档密集型知识工作为中心。在这类工作中，解析准确性、检索纪律和基于事实的推理决定了自动化是否可用。

这一重点很重要，因为大量企业信息仍然存在于棘手的格式中：扫描文件、长PDF、混合结构文档，以及在现代AI系统出现很久之前就创建的档案。任何能在这类场景中显著提升性能的模型，都可能释放出此前因为过于脆弱而无法可靠自动化的工作流。

因此，这项公告最有力的主张是务实的。Databricks并不是单纯说GPT-5.5总体上更好，而是在说它在企业工作中造成真实运营痛点的一个部分表现更好。

基准结果展示了什么，又没有展示什么

由于所提供的原文来自公司公告，因此这些说法应放在这一语境下理解。该基准是Databricks自己的OfficeQA Pro，而所报告的改进正是公司在把GPT-5.5引入客户工作流时强调的内容。

即便如此，这些细节仍提供了足够具体的基础来得出有意义的结论。Databricks发现，GPT-5.5在解析密集、多步骤的企业文档任务中优于GPT-5.4，并正在通过其工作流栈向客户开放该模型。原因很简单：它在最容易让代理系统出问题的数据类型上表现更好。

这让这项公告变得重要。企业AI采用越来越取决于模型能否处理业务文档中混乱的现实，而不仅仅是干净的基准提示。Databricks押注GPT-5.5已经在这一环境中跨过了一个重要门槛。如果这一判断在生产中被证明正确，其影响可能不在于头条式的模型声望，而在于让脆弱的文档工作流能够在规模化场景中可靠自动化。

本文基于OpenAI的报道。阅读原文。

Originally published on openai.com

Databricks在基准测试提升后将GPT-5.5引入企业代理工作流