谷歌将 Gemini 从聊天机器人扩展为操作系统助手
谷歌正将其 Gemini 计划进一步融入 Android 的日常运作,从独立的 AI 助手转向能够帮助用户跨应用和服务执行任务的软件。就在 Google I/O 前夕,公司在 Gemini Intelligence 旗帜下公布了一组新功能,旨在自动化多步骤操作、改进自动填充、总结网页内容,并将零散的语音输入转化为经过润色的书面文本。
根据来源材料中引用的公司公告,首批上线计划定于今年夏天,机型包括三星 Galaxy S26 和 Google Pixel 10。谷歌还表示,年底前将扩大设备支持范围,包括智能手表、汽车、头戴设备和笔记本电脑。这个时间表很重要,因为它表明谷歌并未把这些功能视为小众实验,而是在将 Gemini 定位为可覆盖整个 Android 生态的层级,并逐步成为人们使用设备和服务方式的一部分。
从回答到行动
最关键的变化在于,Gemini 被定位得不再只是生成回应的系统,而是能够完成任务的系统。谷歌表示,这个助手将能够处理订票旅行或把购物清单从记事应用转移到购物车之类的动作。这些例子指向一种依赖编排而不仅是对话的消费者 AI 模式。其价值主张不仅在于 AI 能理解提示词,还在于它可以将意图转化为跨越多个界面的步骤序列。
这种转变已成为 AI 竞争中最重要的前线之一。聊天机器人可以回答问题、总结文本和起草消息,但用户通常仍需点击页面、复制细节并自己完成操作。通过在 Android 中直接嵌入更多代理式行为,谷歌正试图弥补这一差距,并让助手在数字摩擦最明显的时刻变得真正有用。
Chrome 和 Gboard 成为试验场
其中两个最清晰的例子出现在 Chrome 和 Gboard 中。在 Chrome 里,Gemini 将总结网页内容并帮助填写复杂表单。谷歌表示,表单填写功能只有在用户明确启用时才会生效,这一细节表明公司预期会面临关于隐私、控制权和错误风险的审视。表单是 AI 自动化的天然目标,因为它们重复且耗时,但它们也涉及个人数据,几乎不能容忍出错。通过将该功能设为可选,谷歌显然是在便利性与安抚用户之间寻求平衡,确保自动化不会在不被察觉的情况下接管敏感任务。
Gboard 将获得一项名为 Rambler 的功能,它能把口语化、未整理的想法转化为更清晰的短信。根据来源,这项功能可以同时支持多种语言。这使它在多语言地区或家庭中尤其实用,因为人们会在一句话中自然切换语言。它也反映了 AI 界面的一个更广泛趋势:系统越来越致力于减少将杂乱的人类输入转换为可呈现内容所需的工作量,而不是要求用户以僵硬格式说话或打字。
把自定义本身变成提示词
另一项名为 Create My Widget 的功能则面向界面自定义。用户可以描述自己想要的组件类型,例如聚焦菜谱推荐或特定天气信息的组件,系统便会生成它。从表面上看,这个公告的分量不如 AI 任务自动化那么大。但它表明谷歌正在把自然语言视为软件创建的新控制层。用户不再需要浏览菜单或布局工具,而是通过描述界面元素,让系统自行组装。
如果这种方式运行可靠,它可能会降低个性化设备的门槛,并为 Android 再添一个差异化优势。多年来,Android 的竞争力部分来自灵活性。让用户通过描述创建可用的界面元素,把这种特性延伸到了 AI 时代。
Google I/O 前的竞争动作
时机也颇具意味。来源将 Gemini Intelligence 的推进与谷歌缩小其在 AI 代理市场中与 OpenAI 和 Anthropic 差距的努力联系起来。这个市场越来越由那些不仅能生成文本的系统所定义。各家公司正竞相打造能够浏览软件、检索信息并在有限用户干预下采取有意义行动的助手。
谷歌在 5 月早些时候关闭其实验性浏览器代理 Project Mariner,并将其技术并入新的 Gemini Agent,这一决定表明公司内部正朝着更统一的战略整合。谷歌似乎不是继续保留分散的实验性代理能力,而是把它们整合进旗舰消费级 AI 栈中。这样的整合有时和模型质量一样重要,因为用户更可能采用那些出现在自己已经在使用的位置上的功能,比如键盘、浏览器和操作系统。
为什么这次发布重要
这些公告并不能证明 AI 代理问题已经解决。真实世界的自动化仍然会遇到脆弱的界面、模糊的用户意图以及错误操作的风险。但谷歌的更新表明,这个行业正在进入一个更偏运营的阶段。重点正从证明模型在演示中令人印象深刻,转向把它们嵌入人们每天重复的日常流程中。
如果这次上线顺利,Android 用户可能会越来越少把 AI 看作一个目的地,而更多把它视为背景基础设施:浏览器里的总结器、键盘里的润色器、商购物流中的助手,以及自定义界面组件的生成器。这将是消费者 AI 采纳中的一个实质性步骤,因为它把智能与实用性而不是新奇感联系起来。
- 谷歌表示,Gemini Intelligence 将在今年夏天率先登陆 Galaxy S26 和 Pixel 10。
- 新功能瞄准自动化、内容总结、消息撰写和组件创建。
- 这一举措表明,谷歌正把 Gemini 推向更接近代理式助手,而非只做聊天机器人的方向。
本文基于 The Decoder 的报道。阅读原文。
Originally published on the-decoder.com
