一家新的数据供应商押注,游戏世界可以训练机器智能理解现实世界

Origin Lab 已融资 800 万美元种子轮,用于打造一个连接电子游戏公司与开发所谓世界模型的 AI 实验室的市场。这个想法简单,却可能很重要:随着 AI 系统从文本走向机器人、模拟和物理推理,它们需要能捕捉物体、空间与运动行为方式的训练数据。Origin Lab 认为,许多有用的结构化数据其实早已存在于电子游戏产业中。

本轮融资由 Lightspeed Ventures 领投,SV Angel、Eniac、Seven Stars 和 FPV 参投,Twitch 联合创始人 Kevin Lin 和 Cruise 创始人 Kyle Vogt 等天使投资人也参与其中。这个投资者名单很重要,因为它表明,这家公司被看作的不再只是一个小众内容授权业务,而是新兴 AI 供应链中的基础设施。

为什么世界模型需要不同的数据

大型语言模型建立在海量互联网文本之上。而用于推理物理环境的系统并没有同样方便的数据来源。根据 Origin Lab 联合创始人 Anne-Margot Rodde 的说法,如今正在开发的 AI 系统需要理解物理世界如何运作,以及事物如何移动。这就造成了一个瓶颈:需要高质量、权利清晰且对空间推理有用的数据,而不仅仅是语言补全所需的数据。

电子游戏是一个很有吸引力的数据来源,因为它们包含数字环境、物体、交互和运动模式,这些内容可以被渲染、记录或转换成适合模型使用的格式。按照 Origin Lab 的说法,这个行业手里掌握着有价值的资产,但缺乏将这些资产高效打包并授权给 AI 实验室的基础设施。该初创公司表示,它将扮演这个桥梁角色,把现有游戏资产转化为训练数据,范围可以从渲染场景到自动化游戏画面。

这门生意取决于授权与数据质量

这个概念并不完全新。AI 实验室长期以来一直对游戏画面和类似游戏的模拟环境感兴趣。真正缺失的是一个既能解决法律访问问题又能解决可用性问题的稳健商业层。原文指出,授权和数据质量问题经常阻碍更广泛的使用。那正是 Origin Lab 想要差异化的地方。

对于 AI 实验室而言,经过授权的输入可减少抓取数据或非正式来源数据带来的法律不确定性。对于游戏公司而言,这种模式则为他们已经制作好的数字资产创造了新的收入来源。如果平台运作顺利,它就可能把原本通过销售和用户互动变现的内容,转化为模型训练的第二市场。

这也是为什么公司的时机很重要。文章提到,OpenAI 在 2024 年末曾因 Sora 的早期版本看似复现了视频游戏和主播画面而受到批评,这表明训练数据的来源正在变得商业上和声誉上都很敏感。Origin Lab 实际上是在提供一条更干净的路径:获得权利、标准化数据,并把它卖给愿意为稳定供给付费的实验室。

数据供应商正变成战略基础设施

Lightspeed 合伙人 Faraz Fatemi 用一种其他 AI 相关业务里已经很熟悉的语言来概括这项机会:大型实验室资金充足,而数据仍是瓶颈。这与投资者在评估、标注或数据运营公司中看到的增长逻辑相似。Origin Lab 的赌注在于,世界模型的发展会催生一个类似的供应商类别,专注于模拟级和富含运动信息的数据集。

这一变化的意义不止于一家初创公司。它表明 AI 经济正在进入一个阶段,在这个阶段,专有或结构化数据集可能和模型架构一样具有战略价值。在这样的环境里,能够寻找、合法化并操作难获取数据的公司,即使自己不构建前沿模型,也可能成为强大的中介。

这说明下一个 AI 战场在哪里

Origin Lab 的提案反映了 AI 优先级的更广泛转变。问题不再只是如何扩大文本生成规模,而是越来越多地关乎如何构建能够感知环境、理解物体,并最终与物理世界交互的系统。这推动市场转向新的数据类型,也推动能解锁这些数据的业务发展。

游戏资产是否会成为世界模型的基础输入,还有待证明。合成环境有用,但它们并不等同于真实世界,实验室仍需判断游戏派生数据在机器人或具身智能应用中的转移效果如何。即便如此,这家初创公司瞄准的是一个真实存在的约束。如果世界模型研究加速,对合法来源且技术上可适配的数据集的需求也很可能随之上升。

这使得 Origin Lab 不只是一个狭义的授权生意。它还是 AI 供应链日益专业化的早期信号。在下一阶段,重要的公司可能不只是训练模型的那些,也可能是决定模型被允许看到什么内容的那些。

本文根据 TechCrunch 的报道改写。阅读原文

Originally published on techcrunch.com