Meta正转向内部,寻找新的AI训练数据来源

Meta表示,将收集其员工在某些应用上的鼠标移动、按钮点击和其他用户输入,作为训练人工智能模型的一部分。公司的解释是出于操作层面的考虑:如果它想打造能帮助人们在电脑上完成日常任务的智能体,那么模型就需要有关于人类如何实际使用界面、浏览菜单并在不同软件环境中执行操作的示例。

表面上看,这一理由并不难理解。一个旨在操作电脑的系统,需要的是能展示任务如何被完成的行为痕迹,而不仅仅是任务是什么。然而,这一举动之所以值得注意,是因为它凸显了AI行业的一个更大转向。训练数据不再只局限于公开文本、授权媒体或传统标注数据集。越来越多地,模型开发的原材料包括了人类工作本身的记录。

Meta称它正在收集什么

根据源文,Meta表示它正在推出一款内部工具,用于在某些应用中捕捉“这类输入”。公司称其目的是训练可帮助人们完成日常电脑任务的智能体模型。Meta还表示,已有安全措施保护敏感内容,且这些数据不会用于其他目的。

这句话很重要。声明强调的是交互数据,而不是更广泛的监控,但它仍然描述的是一种把日常工作行为转化为训练材料的系统。点击、光标移动和导航模式单独看似乎微不足道,但放在一起,它们就形成了一幅关于数字系统中工作如何完成的丰富地图。

这类数据之所以有价值,是因为它捕捉到了计算的流程层。大语言模型已经可以生成关于软件任务的文本,但它们往往缺少人们在真实界面中一步一步操作的扎实行为证据。内部员工的使用数据正好提供了这一点。

为什么AI行业正在寻找新的输入

报道把Meta的决定放在更广泛的训练数据争夺背景中。随着AI系统能力增强,企业正在寻找更贴合任务、更及时、也更接近现实行为的数据来源。对于旨在充当数字智能体的系统来说,仅有文本是不够的。开发者需要记录图形界面、表单、按钮、下拉菜单以及跨多个应用的工作流中的交互数据。

这也解释了为什么企业内部活动变得更有吸引力。企业本来就拥有大量运营行为数据:会议纪要、支持日志、项目历史、软件使用模式和通信归档。源文还提到另一个近期例子,即据称有些老创业公司正在被挖掘内部通信,比如Slack归档和Jira工单,这些内容可能被重新用作AI燃料。模式很清楚。过去为协作而创建的信息,如今正被越来越多地重新视为模型输入。

Meta的做法不同之处在于,它不只是收集历史记录,而是在捕捉员工的实时交互数据,以支持一个明确的产品目标。

战略目标:更好的电脑使用型智能体

Meta的声明直接指向了争夺中的产品类别:能帮助用户在电脑上完成日常任务的AI智能体。这是行业中的一个重要前沿。能解释工作流的聊天机器人,与能执行工作流的智能体之间差别巨大。要跨越这道鸿沟,公司需要的模型不仅理解语言,还要理解界面行为。

对鼠标移动和点击进行训练,可能有助于模型学习常见动作序列、界面的可能功能,以及人们在处理应用程序时会遇到的决策点。换句话说,这家公司似乎正在收集实现更少抽象、更多操作导向自动化所需的行为基础。

这也解释了为什么此举不只是一次内部工具更新。它说明公司如何预期下一代AI系统展开竞争:不只是会不会聊天,而是能否在软件环境中真正采取行动。

隐私和治理问题

让这些数据有用的同一逻辑,也让它们变得敏感。工作场所互动并不是中性的“废弃数据”。它们可能暴露习惯、优先级、错误、访问模式,某些情况下还可能透露敏感信息。即便Meta把收集范围限制在某些应用上,并表示有安全保障,这一决定仍然提出了一个不会只限于一家公司的治理问题:普通员工活动在被重新用于模型训练之前,究竟有多少可以被捕捉,才不会让职场监控与产品开发变得难以区分?

问题不只是私人内容是否会暴露。它还关乎同意、范围和先例。一旦企业系统内的用户行为被视为训练材料,组织可能会面临压力,需要正式制定规则,说明哪些工作痕迹可以被收集、保留多久,以及员工是否对参与拥有真正的发言权。源文没有回答这些问题,但它清楚地说明了为什么这些问题变得紧迫。

AI发展方向的信号

Meta的内部数据收集工具说明了当前AI竞赛中的一个更大事实。这个行业正在超越那种主要依赖不断积累更多互联网规模文本的时代。下一轮进展很可能来自更窄、更具行为特征、也更紧密绑定具体任务的数据。这会同时改变技术路线和围绕数据使用的社会契约。

对Meta来说,短期回报可能是为更高效操作电脑的系统提供更好的训练。对整个市场来说,这一公告又一次表明,日常数字行为正在被重新定义为AI的战略基础设施。

这最终也许是最重要的结论。AI训练的未来不会只由人们在网上说什么、写什么决定,也会由他们如何在软件中移动、在屏幕上做选择,以及如何完成数字工作日常来塑造。Meta把这一转变表达得前所未有地明确。业内其他公司很可能会密切关注,因为这里既有技术优势,也有暴露出来的治理风险。

本文基于TechCrunch的报道。阅读原文

Originally published on techcrunch.com