Die Herausforderung der visuellen Suche im großen Maßstab

Wenn Sie Ihre Telefonkamera auf ein Objekt richten und Google fragen, was es ist, sieht die Frage aus Nutzersicht einfach aus. Hinter den Kulissen steht das System vor einem echten schwierigen Problem: Visuelle Anfragen sind auf Weise mehrdeutig, die Textanfragen nicht sind. Ein Foto einer Pflanze könnte nach Bestimmung, Pflegeanleitung, Giftinformation, Kaufsmöglichkeiten oder Artnamen fragen – und das Bild selbst gibt kein explizites Signal darüber, welche Antwort der Nutzer wünscht.

Googles Ansatz zur Auflösung dieser Mehrdeutigkeit ist Query Fan-Out, die Technik, die im Kern der visuellen Suchfähigkeiten von AI Mode liegt. Statt eine visuelle Anfrage als einzelne Suche zu behandeln, generiert das System eine Familie von verwandten Anfragen, die aus dem Bild abgeleitet sind, führt sie gleichzeitig aus und synthetisiert die Ergebnisse zu einer Antwort, die die wahrscheinlichsten Nutzerintentionen antizipiert.

Wie Query Fan-Out funktioniert

Der Fan-Out-Prozess beginnt damit, dass das AI-System das Bild analysiert, um hervorstechende Merkmale zu extrahieren: die vorhandenen Objekte, ihre Beziehungen, sichtbaren Text, kontextuelle Hinweise über die Umgebung und Signale zum Kontext, in dem das Bild aufgenommen wurde. Aus dieser Analyse generiert das System mehrere Kandidaten-Anfragen – jede repräsentiert eine plausible Interpretation dessen, was der Nutzer wissen möchte.

Für ein Pflanzenfoto könnte der Fan-Out parallele Anfragen zu Artenbestimmung, Volksnamen, Wachstumsbedingungen, Giftwirkung auf Haustiere und Kinder, und lokalen Kaufsmöglichkeiten generieren. Diese Anfragen laufen gleichzeitig über Googles Suchindex, mit Ergebnissen aus jedem Stream, die auf Relevanz bewertet und zu einer kohärenten Antwort synthetisiert werden, die die wahrscheinlichste Nutzerintention behandelt und relevante Informationen hervorhebt, die der Nutzer möglicherweise nicht explizit angefordert hätte.

Warum es für Nutzer wichtig ist

Die praktische Auswirkung von Query Fan-Out ist, dass die visuelle Suche von AI Mode eher wie ein sachkundiger Assistent funktioniert als wie eine traditionelle Suchmaschine. Eine konventionelle Bildsuche gibt visuell ähnliche Dokumente zurück. AI Mode mit Query Fan-Out gibt Antworten auf Fragen, die der Nutzer zum Bildsubjekt stellen könnte – eine qualitativ andere Art von Antwort.

Diese Unterscheidung wird besonders bedeutsam, wenn Nutzer über begrenzte Vokabular für das haben, was sie betrachten. Jemand, der versucht, einen Pilz, einen Hautzustand, eine Autoteil oder eine Leiterplattenkomponente zu identifizieren, kennt möglicherweise nicht die Terminologie, die benötigt wird, um eine wirksame Textanfrage zu konstruieren. Visuelles Query Fan-Out umgeht das Vokabular-Problem, indem es wahrscheinliche Anfragen aus Bildinhalten ableitet und nützliche Informationen bereitstellt, auch wenn der Nutzer nicht präzise ausdrücken kann, was er sucht.

Technische Herausforderungen und breitere Anwendungen

Query Fan-Out im großen Maßstab führt zu erheblichen Infrastrukturanforderungen. Das Ausführen mehrerer paralleler Anfragen für jede visuelle Suchanfrage multipliziert die Rechenkosten und erfordert sorgfältige Optimierung, um die Antwortlatenz akzeptabel zu halten. Es gibt auch eine Syntheseherausforderung: Wenn parallele Anfragen unterschiedliche Ergebnisse zurückgeben, muss das Sprachmodell bestimmen, welche am relevantesten sind, wie man widersprüchliche Informationen gewichtet, und wie man synthetisierte Antworten kohärent präsentiert, ohne Nutzer zu überfordern.

Die Fan-Out-Architektur wird auch auf Textanfragen in AI Mode angewendet, nicht nur auf visuelle Suchen. Das gleiche Prinzip – mehrere verwandte Anfragen aus einer einzelnen Nutzereingabe generieren und die Ergebnisse synthetisieren – untermauert die Fähigkeit von AI Mode, komplexe mehrteilige Fragen zu beantworten, die eine einzelne Suchanfrage nicht angemessen behandeln könnte. Während Google das System weiter verfeinert, wird Query Fan-Out wahrscheinlich ausgefeilter, mit dem System, das aus Nutzerverhalten lernt, welche Fan-Out-Strategien die befriedigendsten Antworten für verschiedene Anfragetypen und Kontexte erzeugen.

Dieser Artikel basiert auf Berichten vom Google AI Blog. Lesen Sie den Originalartikel.