Google のクエリファンアウト：AI ビジュアル検索の実際の仕組み

規模でのビジュアル検索の課題

携帯電話のカメラを物体に向けて Google に「これは何か」と尋ねると、ユーザーの視点からは質問は単純に見えます。舞台裏では、システムは本当に難しい問題に直面しています。ビジュアルクエリはテキストクエリとは異なる方法で本質的に曖昧です。植物の写真は識別、手入れの指示、毒性情報、購入場所、または種の名前を求めているかもしれません — そして画像自体は、ユーザーがどの答えを望んでいるかについて明確な信号を提供しません。

Google がこの曖昧さを解決するためのアプローチは、クエリファンアウトです。これは AI モードのビジュアル検索機能の中核にある技術です。システムはビジュアルクエリを単一のルックアップとして扱うのではなく、画像から派生した関連クエリのファミリーを生成し、それらを同時に実行し、ユーザーの最も可能性の高い必要性を予測する応答に結果を統合します。

クエリファンアウトの仕組み

ファンアウトプロセスは、AI システムが画像を分析して目立つ機能を抽出することから始まります。存在するオブジェクト、それらの関係、目に見えるテキスト、設定に関するコンテキストの手がかり、および画像がキャプチャされたコンテキストに関する信号です。その分析から、システムは複数の候補クエリを生成します。それぞれがユーザーが知りたいかもしれないことの妥当な解釈を表しています。

植物の写真の場合、ファンアウトは種の識別、一般名、生育条件、ペットと子供への毒性、および地元での購入場所のための平行クエリを生成する可能性があります。これらのクエリは Google の検索インデックス全体で同時に実行され、各ストリームの結果は関連性について評価され、ユーザーの最も可能性の高い意図に対処する一貫した応答に統合されます。ユーザーが明示的に要求することを考えていないかもしれない関連情報を表示しながら。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0が2,000時間のロボティクスデータセットを公開

X Square Robotは、実ロボットの学習データ量を減らすことを目的に、XRZero-G0と2,000時間のマルチモーダルデータセットを公開した。

Read article

ユーザーにとって重要な理由

クエリファンアウトの実際の効果は、AI モードのビジュアル検索が従来の検索エンジンよりも知識豊富なアシスタントのように動作することです。従来の画像検索は視覚的に同様のドキュメントを返します。クエリファンアウト付きの AI モードは、ユーザーが画像の主題について尋ねるかもしれない質問への答えを返します — 質的に異なるタイプの応答です。

この区別は、ユーザーが見ているものについて語彙が限られている場合に最も重要になります。キノコ、皮膚症状、自動車部品、または回路基板コンポーネントを識別しようとしている人は、効果的なテキストクエリを構築するために必要な用語を知らないかもしれません。ビジュアルクエリファンアウトは画像コンテンツから可能性のあるクエリを推測することで、語彙問題を回避します。ユーザーが探しているものを正確に表現できない場合でも、有用な情報を提供します。

技術的課題とより広いアプリケーション

規模でのクエリファンアウトは重大なインフラストラクチャ要件をもたらします。ビジュアル検索リクエストごとに複数の並列クエリを実行すると、計算コストが増加し、応答レイテンシーを許容可能に保つために慎重な最適化が必要です。また統合の課題があります。並列クエリが多様な結果を返すと、言語モデルは、どの結果が最も関連性があるか、矛盾した情報をどのように比較するか、および統合された応答をどのように一貫性を持って提示するかを決定する必要があります。ユーザーを圧倒することなく。

ファンアウトアーキテクチャは AI モードのテキストクエリにも適用されており、ビジュアル検索だけではありません。同じ原則 — ユーザー入力から複数の関連クエリを生成して結果を統合する — は、AI モードが単一の検索クエリでは適切に対処できない複雑なマルチパート質問に答える能力を支えています。Google がシステムを改善し続けると、クエリファンアウトはより洗練される可能性が高く、異なるクエリタイプとコンテキストで最も満足度の高い応答を生成するファンアウト戦略をユーザーの行動から学習します。

この記事は Google AI Blog のレポートに基づいています。元の記事を読む。

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

AnthropicのDario Amodei CEOは、透明性ルールだけではもはや不十分だとして、最先端AIシステムに対する第三者の義務的監査を求めている。

Read article

Originally published on blog.google

Google の AI ビジュアル検索の内部：クエリファンアウトの仕組み

規模でのビジュアル検索の課題

クエリファンアウトの仕組み

XRZero-G0が2,000時間のロボティクスデータセットを公開

ユーザーにとって重要な理由

技術的課題とより広いアプリケーション

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

Comments (0)

Keep Reading

Google の AI ビジュアル検索の内部：クエリ ファンアウトの仕組み

規模でのビジュアル検索の課題

クエリ ファンアウトの仕組み

XRZero-G0が2,000時間のロボティクスデータセットを公開

ユーザーにとって重要な理由

技術的課題とより広いアプリケーション

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

Comments (0)

Keep Reading

Google の AI ビジュアル検索の内部：クエリファンアウトの仕組み

クエリファンアウトの仕組み