गूगल का Query Fan-Out: AI विजुअल सर्च वास्तव में कैसे काम करता है

बड़े पैमाने पर विजुअल सर्च की चुनौती

जब आप अपने फोन के कैमरे को किसी वस्तु की ओर ले जाते हैं और गूगल से पूछते हैं कि यह क्या है, तो सवाल उपयोगकर्ता के दृष्टिकोण से सरल दिखता है। पर्दे के पीछे, सिस्टम एक वास्तविक कठिन समस्या का सामना करता है: विजुअल क्वेरी उन तरीकों से अंतर्निहित रूप से अस्पष्ट होती हैं जिन तरीकों से टेक्स्ट क्वेरी नहीं होती। एक पौधे की तस्वीर पहचान के लिए, देखभाल निर्देशों के लिए, जहरीलापन की जानकारी के लिए, कहां खरीदें, या प्रजाति का नाम — पूछ सकती है, और छवि स्वयं उपयोगकर्ता किस उत्तर चाहता है इसके बारे में कोई स्पष्ट संकेत नहीं देती।

गूगल के query fan-out दृष्टिकोण से उस अस्पष्टता को हल करने का तरीका, AI मोड की विजुअल सर्च क्षमताओं के दिल में निहित तकनीक है। एक विजुअल क्वेरी को एकल लुकअप के रूप में मानने के बजाय, सिस्टम छवि से प्राप्त संबंधित क्वेरी का एक परिवार उत्पन्न करता है, उन्हें एक साथ चलाता है, और परिणामों को एक ऐसे प्रतिक्रिया में संश्लेषित करता है जो उपयोगकर्ता के सबसे संभावित आवश्यकताओं को पूर्वाभास देता है।

Query Fan-Out कैसे काम करता है

फैन-आउट प्रक्रिया छवि का विश्लेषण करके शुरू होती है ताकि सक्रिय विशेषताएं निकाली जा सकें: मौजूद वस्तुएं, उनके संबंध, दिखाई देने वाला कोई भी पाठ, सेटिंग के बारे में संदर्भ संकेत, और छवि कैप्चर किए जाने वाले संदर्भ के बारे में संकेत। उस विश्लेषण से, सिस्टम कई उम्मीदवार क्वेरी उत्पन्न करता है — प्रत्येक उपयोगकर्ता जानना चाहता है इसकी एक संभावित व्याख्या का प्रतिनिधित्व करता है।

एक पौधे की तस्वीर के लिए, फैन-आउट प्रजाति की पहचान, सामान्य नाम, बढ़ने की स्थिति, पालतू जानवरों और बच्चों के लिए जहरीलापन, और स्थानीय रूप से कहां खरीदें के लिए समानांतर क्वेरी उत्पन्न कर सकता है। ये क्वेरी गूगल के सर्च इंडेक्स में एक साथ चलती हैं, प्रत्येक स्ट्रीम से परिणामों का मूल्यांकन प्रासंगिकता के लिए किया जाता है और एक सुसंगत प्रतिक्रिया में संश्लेषित किया जाता है जो सबसे संभावित उपयोगकर्ता आशय को संबोधित करता है।

A Gatik autonomous truck at a PepsiCo distribution center.

Gatik ने PepsiCo नेटवर्क में autonomous freight की भूमिका बढ़ाई

PepsiCo ने Gatik के साथ अपने काम को एक multi-year deal में विस्तारित किया है, जिससे North American food and beverage logistics में autonomous middle-mile freight और गहराई से जुड़ गया है।

Read article

उपयोगकर्ताओं के लिए यह क्यों महत्वपूर्ण है

Query fan-out का व्यावहारिक प्रभाव यह है कि AI मोड की विजुअल सर्च पारंपरिक सर्च इंजन की तुलना में अधिक जानकार सहायक की तरह व्यवहार करती है। एक पारंपरिक छवि सर्च दृश्य रूप से समान दस्तावेज़ लौटाता है। Query fan-out के साथ AI मोड छवि के विषय के बारे में जो प्रश्न उपयोगकर्ता पूछ सकते हैं उन के उत्तर लौटाता है।

यह अंतर सबसे महत्वपूर्ण हो जाता है जब उपयोगकर्ताओं के पास उनकी देखभाल की चीजों के लिए सीमित शब्दावली होती है। कोई व्यक्ति मशरूम, त्वचा की स्थिति, कार का हिस्सा, या सर्किट बोर्ड घटक की पहचान करने की कोशिश कर सकता है जो प्रभावी पाठ क्वेरी बनाने के लिए आवश्यक शब्दावली नहीं जानता। विजुअल query fan-out शब्दावली समस्या को दरकिनार करता है छवि सामग्री से संभावित क्वेरी अनुमान लगाकर, उपयोगी जानकारी प्रदान करता है।

तकनीकी चुनौतियां और व्यापक अनुप्रयोग

बड़े पैमाने पर query fan-out महत्वपूर्ण बुनियादी ढांचे की मांग पेश करता है। हर विजुअल सर्च अनुरोध के लिए कई समानांतर क्वेरी चलाना कम्प्यूटेशनल लागत को गुणा करता है, प्रतिक्रिया विलंबता को स्वीकार्य रखने के लिए सावधानीपूर्वक अनुकूलन की आवश्यकता होती है। जब समानांतर क्वेरी विविध परिणाम लौटाती हैं, तो भाषा मॉडल यह निर्धारित करना चाहिए कि कौन से सबसे प्रासंगिक हैं, परस्पर विरोधी जानकारी को कैसे तौला जाए, और कैसे संश्लेषित प्रतिक्रिया को सुसंगत रूप से प्रस्तुत किया जाए।

फैन-आउट आर्किटेक्चर को केवल विजुअल सर्च नहीं, बल्कि AI मोड में पाठ क्वेरी पर भी लागू किया जा रहा है। वही सिद्धांत — एकल उपयोगकर्ता इनपुट से कई संबंधित क्वेरी उत्पन्न करना और परिणामों को संश्लेषित करना — AI मोड की जटिल बहु-भाग के प्रश्नों का उत्तर देने की क्षमता को रेखांकित करता है। जैसे-जैसे गूगल सिस्टम को परिष्कृत करता है, query fan-out अधिक परिष्कृत होने की संभावना है, सिस्टम उपयोगकर्ता व्यवहार से सीख रहा है कि कौन सी फैन-आउट रणनीति विभिन्न क्वेरी प्रकारों के लिए सबसे संतोषजनक प्रतिक्रिया देती है।

यह लेख गूगल AI ब्लॉग द्वारा रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें।

Anthropic ने बाध्यकारी ऑडिट की मांग की, क्योंकि वह AI को रणनीतिक अवसंरचना के रूप में फिर से परिभाषित कर रही है

Anthropic के CEO Dario Amodei का कहना है कि पारदर्शिता के नियम अब पर्याप्त नहीं हैं और वह अग्रणी AI प्रणालियों के लिए अनिवार्य तृतीय-पक्ष ऑडिट की मांग कर रहे हैं।

Read article

Originally published on blog.google

गूगल के AI विजुअल सर्च के अंदर: Query Fan-Out कैसे काम करता है