मोठ्या प्रमाणावर Visual Search चे आव्हान
तुम्ही तुमच्या फोनचा camera एखाद्या object कडे वळवून Google ला ते काय आहे असे विचारता, तेव्हा वापरकर्त्याच्या दृष्टीने प्रश्न सोपा दिसतो. पण पडद्यामागे, system ला खऱ्या अर्थाने कठीण problem चा सामना करावा लागतो: text queries च्या तुलनेत visual queries स्वभावतः ambiguous असतात. एखाद्या वनस्पतीचा फोटो ओळखण्यासाठी विचारला जाऊ शकतो, care instructions साठी, toxicity information साठी, कुठे खरेदी करायची यासाठी, किंवा species name साठी — आणि image स्वतः user ला नेमके कोणते उत्तर हवे आहे याचा कोणताही explicit signal देत नाही.
या ambiguity चे निराकरण करण्यासाठी Google ची पद्धत म्हणजे query fan-out. ही AI Mode च्या visual search capabilities च्या मध्यभागी असलेली technique आहे. visual query ला single lookup म्हणून हाताळण्याऐवजी, system image मधून derived related queries चा family तयार करते, त्यांना simultaneously चालवते, आणि results चे synthesis करून असा response देते जो user च्या सर्वात likely गरजा आधीच ओळखतो.
Query Fan-Out कसे काम करते
fan-out process ची सुरुवात AI system image चे analysis करून करते, ज्यात salient features extract केले जातात: दिसणारे objects, त्यांचे relationships, visible text, setting विषयी contextual clues, आणि image कोणत्या context मध्ये capture केली गेली याचे signals. त्या analysis मधून system अनेक candidate queries तयार करते — प्रत्येक query user ला काय जाणून घ्यायचे असेल याच्या एक plausible interpretation चे प्रतिनिधित्व करते.
एखाद्या वनस्पतीच्या photograph साठी, fan-out species identification, common names, growing conditions, pets and children साठी toxicity, आणि local स्तरावर कुठे खरेदी करता येईल यासाठी parallel queries तयार करू शकते. हे queries Google च्या search index मध्ये simultaneously चालतात, प्रत्येक stream मधील results relevance साठी तपासले जातात आणि coherent response मध्ये synthesize केले जातात. त्यामुळे सर्वात likely user intent addressed होते, तसेच user ने explicitपणे विचारण्याचा विचारही केला नसेल अशी relevant माहितीही समोर येते.
हे वापरकर्त्यांसाठी का महत्त्वाचे आहे
query fan-out चा practical effect असा की AI Mode चे visual search पारंपरिक search engine पेक्षा knowledgeable assistant सारखे वागते. conventional image search visually similar documents परत करते. पण query fan-out असलेले AI Mode प्रतिमेतील subject विषयी user विचारू शकतो अशा प्रश्नांची उत्तरे देते — हा qualitatively वेगळ्या प्रकारचा response आहे.
वापरकर्त्यांकडे ते पाहत असलेल्या गोष्टीसाठी मर्यादित vocabulary असते तेव्हा हा फरक सर्वाधिक महत्त्वाचा ठरतो. mushroom, skin condition, car part, किंवा circuit board component ओळखण्याचा प्रयत्न करणाऱ्या व्यक्तीला effective text query तयार करण्यासाठी आवश्यक terminology माहीत नसेल. Visual query fan-out image content मधून likely queries infer करून vocabulary problem टाळते, आणि त्यामुळे user ने नेमके काय शोधत आहे हे स्पष्टपणे सांगता आले नाही तरी उपयुक्त माहिती देते.
Technical Challenges आणि Broader Applications
मोठ्या प्रमाणावर query fan-out राबवण्यासाठी मोठ्या infrastructure demands निर्माण होतात. प्रत्येक visual search request साठी multiple parallel queries चालवल्याने computational cost वाढतो, त्यामुळे response latency acceptable ठेवण्यासाठी careful optimization आवश्यक आहे. synthesis challenge देखील आहे: parallel queries विविध results परत आणतात तेव्हा language model ने कोणते सर्वाधिक relevant आहेत, conflicting information ला कसे weigh करायचे, आणि users ला overwhelm न करता synthesized responses coherently कसे सादर करायचे हे ठरवावे लागते.
ही fan-out architecture AI Mode मध्ये text queries साठीही लागू केली जात आहे, फक्त visual searches साठी नाही. तोच principle — एका user input मधून अनेक related queries तयार करणे आणि results चे synthesis करणे — AI Mode ला अशा complex multi-part questions चे उत्तर देण्याची क्षमता देतो जे एक single search query पर्याप्तपणे address करू शकत नाही. Google system अधिक refine करत राहिल्यास, query fan-out अधिक sophisticated होण्याची शक्यता आहे, आणि वेगवेगळ्या query types आणि contexts साठी कोणत्या fan-out strategies सर्वाधिक satisfying responses देतात हे system user behavior मधून शिकत जाईल.
हा article Google AI Blog मधील reporting वर आधारित आहे. मूळ article वाचा.
Originally published on blog.google


