从Circle到商务
谷歌在2024年1月推出Circle to Search时,将其作为一个优雅的解决方案来解决一个持久存在的问题:在手机屏幕上搜索看到的内容所涉及的摩擦。与其截图、切换到浏览器、打开Google Lens并上传截图不同,Circle to Search允许用户只需长按主页按钮,在他们想搜索的任何内容(文本、图像、产品、面部)周围画一个圆圈,而无需离开他们正在使用的应用。该功能已扩展到数千万台Android设备上,并被谷歌引用为过去两年来推出的最成功的AI驱动功能之一。
现在谷歌正在深化Circle to Search的功能,这将显著扩展其用途,不巧合的是,也扩展其商业潜力。一系列新的更新添加了谷歌称之为视觉智能功能的内容:从图像中识别和搜索特定时尚服饰、家居装饰产品和消费品的能力——以及展现可购买结果的能力,让用户找到这些物品的销售地点、价格和配置。结合视觉搜索中看到全貌的新能力——理解场景中对象之间的空间和上下文关系——这些更新代表了Circle to Search功能的重大扩展。
时尚搜索:主要使用案例
时尚识别功能是新功能中最直接面向用户的功能。用户可以在Instagram帖子、Pinterest图钉、网站图像,甚至用相机拍摄的照片中圈出一件衣服,并获得识别该特定物品(当其为可识别的产品时)的结果、来自多个零售商的视觉相似物品,以及有关当前定价和可用性的信息。该系统使用谷歌的视觉嵌入模型——这与Google Lens产品搜索的底层技术相同——但本地集成到Circle to Search界面中,并扩展为处理部分视图、不同的照明条件和部分遮挡的物品。
这个实际使用案例对于时尚敏感的消费者来说是立即可以识别的:看到某人穿着的东西,想要找到它或类似的东西,并面临尝试用文本搜索术语描述它的繁琐过程。时尚Circle to Search搜索完全消除了这种摩擦。识别的准确性因物品的独特程度而异——具有可识别品牌或细节的非常具体的设计师作品比通用的纯色T恤更容易识别——但谷歌在数十亿产品图像上的广泛训练数据为系统提供了广泛的识别基础。
家居装饰和产品识别
相同的视觉识别能力扩展到家居装饰和消费电子产品,在这些类别中用户经常在照片中遇到物品——编辑内容、社交媒体帖子、房地产清单——并想要为购买目的找到它们。从房间照片中识别特定的灯、特定的地毯图案或电视型号历来是图像搜索系统的一个困难问题,因为这些物品通常以各种角度出现、在不同的照明条件下,以及在部分视图中,使得精确识别具有挑战性。
谷歌更新的模型通过在场景上下文中推理对象来更优雅地处理这些情况,而不是尝试将其与孤立的产品图像相匹配。该系统理解房间照片背景中的对象可能是家具或装饰,将这个先验带入识别过程,并展现考虑到观看角度和照明条件的结果,而不是要求干净的目录风格的图像来进行精确识别。
商业维度
不承认这些更新的商业维度来分析它们将是天真的。谷歌的核心广告业务取决于将用户意图与商业机会联系起来,而视觉搜索代表了该连接的一个巨大未开发的表面积。当用户在图像中圈出产品时,这是购买意图的表达,比大多数文本搜索更具体和可行性。能够从该意图中立即展现可购买的结果的能力——并在用户已经参与的应用中这样做,而不是要求他们导航到谷歌——从广告和商务的角度来看是非常有价值的。
Google Shopping多年来一直是重要的收入贡献者,Circle to Search与购物结果的整合本质上将Android设备上的任何图像变成了潜在的商务接触点。该公司小心翼翼地将其呈现为用户福利——轻松找到你想要的东西——对于大多数用例,这个框架是准确的。但用户便利性与谷歌商业利益之间的一致性并非巧合,值得注意的是,最直接使商务能够进行的视觉AI改进是在谷歌产品公告中获得最突出位置的那些。
展望未来
Circle to Search更新是谷歌设备上AI能力更广泛演进的一部分。随着Gemini Nano和相关模型能够在移动硬件上直接运行越来越复杂的任务,以前需要将数据发送到谷歌服务器的功能可以在本地执行,对延迟和隐私都有影响。谷歌已表示,随着模型效率的提高,某些Circle to Search视觉处理将朝向设备上执行迈进,这将使该功能能够离线工作,并减少与视觉搜索相关的数据传输。目前,云智能和设备上执行的组合为Circle to Search提供了竞争对手难以匹配的能力特征,除非他们能够获得谷歌的训练数据和基础设施规模。
本文基于Google AI Blog的报道。阅读原始文章。
Originally published on blog.google



