OpenAI Codex Security：用于修复代码漏洞的 AI 代理

超越静态分析：理解代码上下文的 AI

长期以来，应用安全一直受制于信噪比问题。自动化漏洞扫描器会生成海量告警，其中许多是假阳性，消耗开发者注意力，并造成“狼来了”式的动态，让真正的漏洞被淹没在大量虚假警报之中。大型组织的安全团队花在筛选扫描器输出上的时间，往往比真正修复漏洞还要多。

OpenAI 通过 Codex Security 进入了这一领域。该产品目前处于研究预览阶段，是一款应用安全代理，采取了根本不同的方法。与大多数现有工具基于已知漏洞特征模式扫描代码不同，Codex Security 使用经过训练、能够在意图和逻辑层面理解代码的 AI 模型。系统会分析项目的完整上下文，包括各组件如何交互，以识别并非来自单一问题代码行，而是源自代码元素之间关系的漏洞。

这一区别很重要，因为最危险的漏洞往往不是在孤立状态下看起来明显错误的那些，而是源于意外交互的那些。例如，一个函数在某个上下文中可以安全处理输入，但在从不同执行路径被调用时却变得可被利用；又或者，一个身份验证检查对预期输入工作正常，但在攻击者会刻意探测的边缘情况上失效。

Codex Security 实际做什么

根据 OpenAI 的描述，Codex Security 作为代理运行，而不是被动扫描器。它会接入代码仓库，构建代码库架构和依赖关系的模型，然后主动推理安全属性，生成潜在漏洞假设，用代码的实际行为进行测试，并过滤掉那些无法证明会导致真实可利用性的风险。

验证步骤正是该系统声称区别于传统工具的地方。传统扫描器只要检测到某个可能危险的函数调用就会标记出来，因此会产生大量假阳性。Codex Security 的方法利用 AI 对控制流、数据流和应用逻辑的理解，旨在确认被标记的问题是否真的能够被触达并被利用，然后再将其作为告警呈现。目标是以更少噪音获得更高置信度的发现。

当系统识别出真实漏洞时，它不会停留在报告层面，而是会生成补丁，也就是一项实际的代码更改，旨在修复问题，同时保留代码原本的功能。补丁会附带对漏洞的解释以及修复理由，帮助开发者理解问题出在哪里，而不是只是盲目接受自动更改。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 开源一套 2,000 小时机器人数据集

X Square Robot 发布了 XRZero-G0 和一套 2,000 小时的多模态数据集，旨在减少具身 AI 系统对真实机器人训练数据的需求。

Read article

安全代理这一类别

Codex Security 处在一个快速兴起的 AI 安全工具类别中，这类工具正从检测走向主动修复。传统安全产品生成报告，而新一代 AI 驱动系统则越来越被期待直接完成工作。推动这一转变的，一部分原因是现代软件的规模不断扩大，组织以极高速度发布代码，使人工安全审查成为瓶颈；另一部分原因则是 AI 编码能力已经成熟到足以对非平凡代码进行可信推理。

其他一些公司也在相邻领域展开布局。GitHub Copilot 已加入安全相关功能。Snyk 和其他开发者安全工具也已引入 AI 来改进修复建议。Socket、Endor Labs 和 Semgrep 等初创公司正在将 AI 应用于软件供应链安全和代码分析。OpenAI 以专门的安全产品进入这一领域，既表明了其对市场机会的判断，也表达了对自身模型足以支持安全关键应用的信心。

“研究预览”这一定位很重要。它意味着 OpenAI 正在向安全专业人士征求反馈，以便在更广泛发布前进行验证，也隐含承认安全工具需要领域特定的测试，而通用 AI 产品测试并不能提供这些保障。发现一款 AI 安全代理漏掉了某类关键漏洞，与发现一个编码助手写出略显次优的代码，属于完全不同的失败模式。

信任与采用挑战

应用安全市场对新进入者一向持怀疑态度，尤其对“AI 能减少假阳性”之类的说法更为谨慎。每一代安全工具都曾承诺减少噪音，但大多数只带来了有限的增量改进。那些曾被高置信度发现误导、最终却证明无害的安全团队，会以经过校准的怀疑态度看待任何新系统。

AI 自动修补也存在结构性挑战。即便是为了修复真实漏洞，在生产系统中自动修改代码也需要极高的信任，而大多数组织只会把这种信任赋予那些经过明确审查的工程师。近期更可能的采用路径，是 AI 生成高置信度的漏洞报告和补丁建议，再由人工开发者审查并应用，而不是完全自动化修复。

OpenAI 更广泛的 Codex 平台为 Codex Security 提供了编码能力基础，这一平台支撑着 OpenAI 产品及第三方集成中的 AI 编码功能。对于应用安全这一对抗性领域来说，这个基础是否足够强大，关键不在于代码能否运行，而在于能否推理代码会如何被破坏，而这正是研究预览阶段要验证的核心问题。

Anthropic呼吁强制审计，同时把AI重新定义为战略基础设施

Anthropic首席执行官Dario Amodei表示，透明度规则已不再足够，并呼吁对前沿AI系统进行强制性的第三方审计。

Read article

对安全行业的影响

如果 Codex Security 能兑现其承诺，对应用安全行业的影响将十分显著。现有漏洞扫描工具将面临来自一位强大竞争者的压力，这位竞争者拥有深厚的 AI 投入、通过 ChatGPT 和 GitHub 集成形成的大型开发者用户群，以及以传统软件公司无法企及的方式迭代底层模型的能力。

从基于特征的扫描转向上下文感知的 AI 推理，并不是渐进式变化，而是一个不同的范式。OpenAI 进入该市场时明确提出，范式已经改变。对于开发者和安全团队而言，最乐观的结果将是从漏洞引入到修复之间的时间显著缩短，而实现这一点的方式不是增加更多告警或更多人工审查，而是让 AI 完成最困难的分析工作，只呈现真正可操作且真实存在的问题。

本文基于 OpenAI 的报道。阅读原文。

Originally published on openai.com

OpenAI Codex Security 可检测并修补代码漏洞