Oppo 开源 X-OmniClaw，这是一款本地运行的 Android AI 智能体

一款围绕本地设备控制构建的 Android 智能体

Oppo 已经开源了一款名为 X-OmniClaw 的新 Android 智能体，而这次发布最重要的部分不仅在于软件能做什么，还在于它在哪里运行。根据原始材料，该系统直接运行在一台实体 Android 设备上，而不是在云端托管的虚拟手机中。这种设计使智能体能够使用手机的摄像头、屏幕、语音和本地数据，同时避免把用户设备镜像到远程数据中心的需要。

这种区别是该项目主张的核心。云手机系统可以在远程运行 Android 实例，并让智能体在那里操作，但在访问本地传感器、私有文件以及用户周围真实物理环境方面存在局限。按原文描述，X-OmniClaw 采取了相反的路径：感知、控制和应用交互都发生在手机本身上，只有在需要更高层级推理时才调用云端语言模型。

这样的架构把该项目放在了 AI 智能体版图中一个影响深远的位置。当前的竞赛已不再只是生成文本，而是构建能够跨真实界面进行感知、记忆和行动的软件。

X-OmniClaw 的设计目标

原文描述了一条整合摄像头、屏幕、文本和语音信号的多模态流水线。一个视觉语言模型会先解释用户看到的内容以及用户的请求，然后在执行任何操作之前把意图结构化。示例中，用户把手机对准一件商品，并询问它在淘宝上的价格。系统据称会先把这类模糊提问转换为更精确的内部查询，再执行任务。

这很重要，因为现实中的移动端助手环境复杂。人们会提出模糊的问题，应用的界面也并不统一，而视觉上下文往往和语言同样重要。一个能够读取屏幕、通过 OCR 和 grounding 工具识别可点击界面元素，并将这些信息与语音或摄像头输入对齐的智能体，比一个停留在文本框里的聊天机器人更接近实用的移动自动化。

原文还称，X-OmniClaw 可以把相册照片本地处理成基于文本的记忆，并通过克隆用户行为进行学习。在演示中，它被展示用于比价、作为锻炼时的悬浮助手，以及根据用户相册创建照片集。

Create, edit and star in videos with two Google Vids updates

Google Vids 新增 Gemini Omni 与个人头像

Google 正在将 AI 视频创作扩展到 Workspace 中，推出基于提示词的剪辑生成与编辑功能，以及可由自拍和录音创建的自定义头像。

Read article

为何本地执行在战略上很重要

本地设备设计之所以突出，主要有两个原因。第一是隐私。如果智能体要与个人照片、环境摄像头画面、应用屏幕和语音请求交互，许多用户的默认判断会是，这些数据流过于敏感，不应持续送往云端。Oppo 的设计通过把核心感知和控制留在手机上，直接回应了这种担忧。

第二个原因是能力。手机的云端克隆可以在虚拟环境中自动化操作软件，但它无法完全理解某个人手中真实设备的现场状态。它无法直接感知对着货架的摄像头画面、真实手机上刚刚到来的通知，或者用户在本地文件和传感器之间切换的过程。通过把系统锚定在设备本身，Oppo 实际上是在主张，真正有用的智能体必须嵌入人类实际计算所在的环境中。

这一观点也与更广泛的 AI 产品思路转变一致。最强的助手未必只是拥有最大远程模型的那一个。它们可能是与用户当下语境结合得最好的那些。

开源让演示变成了生态策略

把项目开源会提升它的意义。研究演示可以在不改变市场的情况下吸引注意力。把一个可运行的框架开源，则让开发者、研究人员和竞争性的设备厂商有机会检查其架构、测试其假设，并可能在其基础上继续开发。

这并不保证会被广泛采用。原文没有说明所使用的全部本地模型，而仅仅开源也无法解决可靠性、权限、电池消耗或滥用等棘手问题。能够跨应用执行操作的智能体也会带来显而易见的安全顾虑。任何能够观察屏幕并点击界面元素的系统，如果不加严格约束，都可能成为强大的自动化滥用工具。

即便如此，这次发布仍推动了讨论向前。它给出了一个许多移动 AI 产品都回避的问题的具体答案：一个智能体能否在跨应用工作的同时，尊重设备本地上下文，并减少对持续云镜像的依赖？

移动智能体竞赛正变得更加“物理化”

X-OmniClaw 并不能就通用 AI 智能体是否已经适合普通用户给出定论。但它确实展示了这个领域正在如何演进。下一代助手的评判标准，可能会越来越少地取决于措辞是否流畅，而更多取决于它们是否能感知用户所见的同一环境、在用户已经使用的软件中采取行动，并且不必把每次交互都通过远程服务器完成。

Oppo 的项目之所以值得关注，在于它把这些目标整合进了一个移动端技术栈中。摄像头变成了查询工具。屏幕变成了执行界面。相册变成了记忆。语音只是多个同步输入之一，而不再是唯一重要的输入。这是一种更贴近现实的手机 AI 智能体构想。

如果这一方法被证明足够稳健，它可能会影响 Android 厂商、开发者和研究人员对智能体设计的思考。与其构建更聪明的聊天窗口，不如去构建那些能够本地感知、具备丰富传感器输入、并能在真实设备环境中运行的助手。X-OmniClaw 是这一转变的早期但颇具意义的例子。

本文基于 The Decoder 的报道。阅读原文。

Originally published on the-decoder.com

Oppo 开源一款能看屏幕、使用摄像头并保持在设备本地运行的 Android 智能体