五角大楼计划让AI公司在机密数据上训练模型

防御AI的新领域

美国国防部正在制定计划，允许商业人工智能公司在专门设计的安全环境中使用机密军事数据训练其模型。到目前为止，与五角大楼签约的AI公司可以访问机密信息，使用现有模型进行推理——但他们不能使用该数据作为训练材料来实际改进和调整模型本身。这种区别即将改变。

这一举措代表了商业AI能力与美国国家安全机密领域之间整合的重大升级。如果实施，它将允许军方部署的AI系统在实际操作数据上进行定制，生成专门适应情报分析、后勤保障、规划和目标锁定任务的模型——这些正是五角大楼实际执行的任务。

在机密输入上使用通用AI模型与在机密数据上训练模型之间的区别很大。在公网数据上训练的通用模型可能在许多任务上表现足够，但会缺少来自系统在部署中会遇到的实际数据类型的专业词汇、上下文理解和特定领域推理。

在机密军事报告、卫星图像分析、信号情报和物流数据上训练的模型会开发出针对这些领域特别调整的能力。它会理解军事报告格式的结构、威胁评估的词汇和情报产品中的模式——所有这些对于仅在公网数据上训练的模型来说都是看不见的。

这种特定领域的微调是商业AI部署中的标准做法。在医疗记录上微调的模型在临床任务上的表现优于通用模型。五角大楼在国家安全领域寻求同样的优势。

Google 正在将 AI 视频创作扩展到 Workspace 中，推出基于提示词的剪辑生成与编辑功能，以及可由自拍和录音创建的自定义头像。

提议的机制涉及创建物理上安全的计算环境——通常称为飞地——其中机密数据可以被带到AI训练基础设施，而不是相反。AI公司工程师及其系统将在满足分类要求的监督条件下在这些设施内运营。

这在技术和物流上是复杂的。训练大型AI模型需要大规模的计算基础设施，在顶级机密数据处理所需的安全级别上复制该基础设施涉及硬件采购和建立满足严格物理和网络安全标准的设施。

这一公告的背景是五角大楼与主要商业AI开发者之间AI伙伴关系的更广泛扩展。五角大楼首席技术官Emil Michael本周证实OpenAI的系统已在最近几周内在国防部部署，Google的Gemini预计将很快跟随。

我们在过去几周内已经部署了OpenAI，我们将在这里部署其他的，从Gemini开始，Michael说，证实了几年前难以想象的AI集成速度。从谨慎的试点项目到操作部署的转变表明五角大楼将商业大型语言模型视为真正有用的工具，而不是实验好奇。

允许在机密数据上进行训练的计划建立在这个部署基础之上。其模型已在DoD系统内运营的公司自然是开发在这些系统遇到的数据上训练的更专业版本的候选者。

该计划提出了国防部需要解决的重大监督问题。谁控制训练数据和生成的模型？机密训练完成后AI系统会发生什么——它们是否保留在政府系统内，还是模型学到的元素可以迁回商业版本？AI公司工程师在安全设施内如何进行审查和监督？

国会一直在关注AI发展和国家安全技术政策，可能会仔细审查这一举措。商业AI和机密国家安全数据的结合是敏感领域，涉及数据安全、企业获取政府信息和管理军事AI系统的问责结构的关注。

五角大楼继续规划的事实表明信心，这些问题可以得到管理，域自适应AI的操作优势被认为足够有吸引力，足以证明建立必要基础设施和监督框架的努力是正当的。

本文基于The Decoder的报道。阅读原始文章。

Originally published on the-decoder.com