बड़े पैमाने पर विजुअल सर्च की चुनौती
जब आप अपने फोन के कैमरे को किसी वस्तु की ओर ले जाते हैं और गूगल से पूछते हैं कि यह क्या है, तो सवाल उपयोगकर्ता के दृष्टिकोण से सरल दिखता है। पर्दे के पीछे, सिस्टम एक वास्तविक कठिन समस्या का सामना करता है: विजुअल क्वेरी उन तरीकों से अंतर्निहित रूप से अस्पष्ट होती हैं जिन तरीकों से टेक्स्ट क्वेरी नहीं होती। एक पौधे की तस्वीर पहचान के लिए, देखभाल निर्देशों के लिए, जहरीलापन की जानकारी के लिए, कहां खरीदें, या प्रजाति का नाम — पूछ सकती है, और छवि स्वयं उपयोगकर्ता किस उत्तर चाहता है इसके बारे में कोई स्पष्ट संकेत नहीं देती।
गूगल के query fan-out दृष्टिकोण से उस अस्पष्टता को हल करने का तरीका, AI मोड की विजुअल सर्च क्षमताओं के दिल में निहित तकनीक है। एक विजुअल क्वेरी को एकल लुकअप के रूप में मानने के बजाय, सिस्टम छवि से प्राप्त संबंधित क्वेरी का एक परिवार उत्पन्न करता है, उन्हें एक साथ चलाता है, और परिणामों को एक ऐसे प्रतिक्रिया में संश्लेषित करता है जो उपयोगकर्ता के सबसे संभावित आवश्यकताओं को पूर्वाभास देता है।
Query Fan-Out कैसे काम करता है
फैन-आउट प्रक्रिया छवि का विश्लेषण करके शुरू होती है ताकि सक्रिय विशेषताएं निकाली जा सकें: मौजूद वस्तुएं, उनके संबंध, दिखाई देने वाला कोई भी पाठ, सेटिंग के बारे में संदर्भ संकेत, और छवि कैप्चर किए जाने वाले संदर्भ के बारे में संकेत। उस विश्लेषण से, सिस्टम कई उम्मीदवार क्वेरी उत्पन्न करता है — प्रत्येक उपयोगकर्ता जानना चाहता है इसकी एक संभावित व्याख्या का प्रतिनिधित्व करता है।
एक पौधे की तस्वीर के लिए, फैन-आउट प्रजाति की पहचान, सामान्य नाम, बढ़ने की स्थिति, पालतू जानवरों और बच्चों के लिए जहरीलापन, और स्थानीय रूप से कहां खरीदें के लिए समानांतर क्वेरी उत्पन्न कर सकता है। ये क्वेरी गूगल के सर्च इंडेक्स में एक साथ चलती हैं, प्रत्येक स्ट्रीम से परिणामों का मूल्यांकन प्रासंगिकता के लिए किया जाता है और एक सुसंगत प्रतिक्रिया में संश्लेषित किया जाता है जो सबसे संभावित उपयोगकर्ता आशय को संबोधित करता है।
उपयोगकर्ताओं के लिए यह क्यों महत्वपूर्ण है
Query fan-out का व्यावहारिक प्रभाव यह है कि AI मोड की विजुअल सर्च पारंपरिक सर्च इंजन की तुलना में अधिक जानकार सहायक की तरह व्यवहार करती है। एक पारंपरिक छवि सर्च दृश्य रूप से समान दस्तावेज़ लौटाता है। Query fan-out के साथ AI मोड छवि के विषय के बारे में जो प्रश्न उपयोगकर्ता पूछ सकते हैं उन के उत्तर लौटाता है।
यह अंतर सबसे महत्वपूर्ण हो जाता है जब उपयोगकर्ताओं के पास उनकी देखभाल की चीजों के लिए सीमित शब्दावली होती है। कोई व्यक्ति मशरूम, त्वचा की स्थिति, कार का हिस्सा, या सर्किट बोर्ड घटक की पहचान करने की कोशिश कर सकता है जो प्रभावी पाठ क्वेरी बनाने के लिए आवश्यक शब्दावली नहीं जानता। विजुअल query fan-out शब्दावली समस्या को दरकिनार करता है छवि सामग्री से संभावित क्वेरी अनुमान लगाकर, उपयोगी जानकारी प्रदान करता है।
तकनीकी चुनौतियां और व्यापक अनुप्रयोग
बड़े पैमाने पर query fan-out महत्वपूर्ण बुनियादी ढांचे की मांग पेश करता है। हर विजुअल सर्च अनुरोध के लिए कई समानांतर क्वेरी चलाना कम्प्यूटेशनल लागत को गुणा करता है, प्रतिक्रिया विलंबता को स्वीकार्य रखने के लिए सावधानीपूर्वक अनुकूलन की आवश्यकता होती है। जब समानांतर क्वेरी विविध परिणाम लौटाती हैं, तो भाषा मॉडल यह निर्धारित करना चाहिए कि कौन से सबसे प्रासंगिक हैं, परस्पर विरोधी जानकारी को कैसे तौला जाए, और कैसे संश्लेषित प्रतिक्रिया को सुसंगत रूप से प्रस्तुत किया जाए।
फैन-आउट आर्किटेक्चर को केवल विजुअल सर्च नहीं, बल्कि AI मोड में पाठ क्वेरी पर भी लागू किया जा रहा है। वही सिद्धांत — एकल उपयोगकर्ता इनपुट से कई संबंधित क्वेरी उत्पन्न करना और परिणामों को संश्लेषित करना — AI मोड की जटिल बहु-भाग के प्रश्नों का उत्तर देने की क्षमता को रेखांकित करता है। जैसे-जैसे गूगल सिस्टम को परिष्कृत करता है, query fan-out अधिक परिष्कृत होने की संभावना है, सिस्टम उपयोगकर्ता व्यवहार से सीख रहा है कि कौन सी फैन-आउट रणनीति विभिन्न क्वेरी प्रकारों के लिए सबसे संतोषजनक प्रतिक्रिया देती है।
यह लेख गूगल AI ब्लॉग द्वारा रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें।
Originally published on blog.google


