规模化视觉搜索的挑战

当您用手机摄像头指向一个物体并询问Google它是什么时,从用户的角度来看,这个问题看起来很简单。但在幕后,系统面临一个真正困难的问题:视觉查询的方式本质上比文本查询更模糊。一张植物的照片可能是在询问识别、养护说明、毒性信息、购买地点或物种名称——而图像本身没有提供明确的信号来说明用户想要哪个答案。

Google解决这种歧义的方法是查询扇形展开,这是AI模式视觉搜索功能的核心技术。该系统不是将视觉查询视为单一查询,而是生成从图像派生的相关查询,同时运行它们,并将结果综合为预期用户最可能需要的响应。

查询扇形展开如何工作

扇形展开过程开始于AI系统分析图像以提取显著特征:存在的物体、它们之间的关系、任何可见的文本、有关设置的背景线索,以及有关捕获图像背景的信号。从该分析中,系统生成多个候选查询——每个都代表用户可能想了解的一个合理解释。

对于植物照片,扇形展开可能生成关于物种识别、通俗名称、生长条件、对宠物和儿童的毒性以及本地购买地点的平行查询。这些查询同时在Google的搜索索引中运行,来自每个流的结果都根据相关性进行评估,并综合成一个连贯的响应,解决最可能的用户意图,同时提供相关信息,用户可能没有想到明确要求。

为什么这对用户很重要

查询扇形展开的实际效果是AI模式的视觉搜索表现得像一个知识渊博的助手,而不是传统的搜索引擎。传统的图像搜索返回视觉上相似的文档。带有查询扇形展开的AI模式返回对用户可能问的有关图像主题的问题的答案——这是一种质量上不同的响应。

当用户对他们正在看的东西的词汇有限时,这种区别变得最为重要。有人试图识别蘑菇、皮肤病、汽车零件或电路板组件可能不知道构建有效文本查询所需的术语。视觉查询扇形展开通过从图像内容推断可能的查询来绕过词汇问题,即使用户无法精确表达他们正在寻找的东西,也提供有用的信息。

技术挑战和更广泛的应用

规模化的查询扇形展开引入了重大的基础设施需求。为每个视觉搜索请求运行多个平行查询会使计算成本成倍增加,需要仔细的优化以保持响应延迟可以接受。还存在综合挑战:当平行查询返回不同的结果时,语言模型必须确定哪些最相关,如何衡量冲突信息,以及如何以连贯的方式呈现综合响应而不会压倒用户。

扇形展开架构也被应用于AI模式中的文本查询,而不仅仅是视觉搜索。同样的原则——从单个用户输入生成多个相关查询并综合结果——是AI模式能够回答单个搜索查询无法充分解决的复杂多部分问题的基础。随着Google继续改进系统,查询扇形展开可能会变得更加复杂,系统从用户行为中学习哪些扇形展开策略为不同查询类型和背景生成最令人满意的响应。

本文基于Google AI博客的报道。阅读原文

Originally published on blog.google