規模でのビジュアル検索の課題

携帯電話のカメラを物体に向けて Google に「これは何か」と尋ねると、ユーザーの視点からは質問は単純に見えます。舞台裏では、システムは本当に難しい問題に直面しています。ビジュアルクエリはテキストクエリとは異なる方法で本質的に曖昧です。植物の写真は識別、手入れの指示、毒性情報、購入場所、または種の名前を求めているかもしれません — そして画像自体は、ユーザーがどの答えを望んでいるかについて明確な信号を提供しません。

Google がこの曖昧さを解決するためのアプローチは、クエリ ファンアウトです。これは AI モードのビジュアル検索機能の中核にある技術です。システムはビジュアルクエリを単一のルックアップとして扱うのではなく、画像から派生した関連クエリのファミリーを生成し、それらを同時に実行し、ユーザーの最も可能性の高い必要性を予測する応答に結果を統合します。

クエリ ファンアウトの仕組み

ファンアウト プロセスは、AI システムが画像を分析して目立つ機能を抽出することから始まります。存在するオブジェクト、それらの関係、目に見えるテキスト、設定に関するコンテキストの手がかり、および画像がキャプチャされたコンテキストに関する信号です。その分析から、システムは複数の候補クエリを生成します。それぞれがユーザーが知りたいかもしれないことの妥当な解釈を表しています。

植物の写真の場合、ファンアウトは種の識別、一般名、生育条件、ペットと子供への毒性、および地元での購入場所のための平行クエリを生成する可能性があります。これらのクエリは Google の検索インデックス全体で同時に実行され、各ストリームの結果は関連性について評価され、ユーザーの最も可能性の高い意図に対処する一貫した応答に統合されます。ユーザーが明示的に要求することを考えていないかもしれない関連情報を表示しながら。

ユーザーにとって重要な理由

クエリ ファンアウトの実際の効果は、AI モードのビジュアル検索が従来の検索エンジンよりも知識豊富なアシスタントのように動作することです。従来の画像検索は視覚的に同様のドキュメントを返します。クエリ ファンアウト付きの AI モードは、ユーザーが画像の主題について尋ねるかもしれない質問への答えを返します — 質的に異なるタイプの応答です。

この区別は、ユーザーが見ているものについて語彙が限られている場合に最も重要になります。キノコ、皮膚症状、自動車部品、または回路基板コンポーネントを識別しようとしている人は、効果的なテキストクエリを構築するために必要な用語を知らないかもしれません。ビジュアル クエリ ファンアウトは画像コンテンツから可能性のあるクエリを推測することで、語彙問題を回避します。ユーザーが探しているものを正確に表現できない場合でも、有用な情報を提供します。

技術的課題とより広いアプリケーション

規模でのクエリ ファンアウトは重大なインフラストラクチャ要件をもたらします。ビジュアル検索リクエストごとに複数の並列クエリを実行すると、計算コストが増加し、応答レイテンシーを許容可能に保つために慎重な最適化が必要です。また統合の課題があります。並列クエリが多様な結果を返すと、言語モデルは、どの結果が最も関連性があるか、矛盾した情報をどのように比較するか、および統合された応答をどのように一貫性を持って提示するかを決定する必要があります。ユーザーを圧倒することなく。

ファンアウト アーキテクチャは AI モードのテキストクエリにも適用されており、ビジュアル検索だけではありません。同じ原則 — ユーザー入力から複数の関連クエリを生成して結果を統合する — は、AI モードが単一の検索クエリでは適切に対処できない複雑なマルチパート質問に答える能力を支えています。Google がシステムを改善し続けると、クエリ ファンアウトはより洗練される可能性が高く、異なるクエリタイプとコンテキストで最も満足度の高い応答を生成するファンアウト戦略をユーザーの行動から学習します。

この記事は Google AI Blog のレポートに基づいています。元の記事を読む