تحدي البحث البصري على نطاق واسع
عندما توجه كاميرا هاتفك نحو جسم ما وتسأل Google عما هو، يبدو السؤال بسيطاً من منظور المستخدم. خلف الكواليس، يواجه النظام مشكلة صعبة حقاً: الاستعلامات البصرية غامضة بطبيعتها بطرق لا تتمتع بها الاستعلامات النصية. قد تكون صورة لنبات تسأل عن الهوية أو تعليمات الرعاية أو معلومات السمية أو مكان الشراء أو اسم الأنواع — والصورة نفسها لا توفر إشارة واضحة حول أي إجابة يريدها المستخدم.
يتمثل نهج Google لحل هذا الغموض في توسيع الاستعلام، وهي التقنية التي تقع في قلب قدرات البحث البصري في وضع AI. بدلاً من التعامل مع استعلام بصري كعملية بحث واحدة، ينشئ النظام عائلة من الاستعلامات ذات الصلة المشتقة من الصورة، ويشغلها في نفس الوقت، ويوحد النتائج في رد يتوقع احتياجات المستخدم الأكثر احتمالاً.
كيفية عمل توسيع الاستعلام
يبدأ عملية التوسيع ببدء نظام AI بتحليل الصورة لاستخراج الميزات البارزة: الكائنات الموجودة وعلاقاتها وأي نص مرئي وأدلة السياق حول الإعداد والإشارات حول السياق الذي تم التقاط الصورة فيه. من هذا التحليل، ينشئ النظام استعلامات مرشحة متعددة — تمثل كل منها تفسيراً معقولاً لما قد يريد المستخدم معرفته.
بالنسبة لصورة نبات، قد ينتج التوسيع استعلامات متوازية لتحديد الأنواع والأسماء الشائعة وظروف النمو والسمية للحيوانات الأليفة والأطفال ومكان الشراء محلياً. تعمل هذه الاستعلامات في نفس الوقت عبر فهرس بحث Google، حيث يتم تقييم النتائج من كل تدفق للصلة والتوحيد في رد متماسك يعالج نية المستخدم الأكثر احتمالاً مع تقديم المعلومات ذات الصلة التي قد لا يكون المستخدم قد فكر في طلبها بشكل صريح.
لماذا يهم المستخدمين
يتمثل التأثير العملي لتوسيع الاستعلام في أن البحث البصري في وضع AI يتصرف مثل مساعد متعلم بدلاً من محرك بحث تقليدي. تُرجع عملية البحث عن الصور التقليدية وثائق متشابهة بصرياً. يُرجع وضع AI مع توسيع الاستعلام إجابات على أسئلة قد يطرحها المستخدم حول موضوع الصورة — وهو نوع مختلف نوعياً من الرد.
يصبح هذا التمييز الأكثر أهمية عندما يكون لدى المستخدمين مفردات محدودة لما يبحثون عنه. قد لا يعرف شخص ما يحاول تحديد فطر أو حالة جلدية أو جزء سيارة أو مكون لوحة دوائر المصطلحات المطلوبة لبناء استعلام نص فعال. يتجاوز توسيع الاستعلام البصري مشكلة المفردات من خلال استنتاج الاستعلامات المحتملة من محتوى الصورة، مما يوفر معلومات مفيدة حتى عندما لا يستطيع المستخدم التعبير بدقة عما يبحث عنه.
التحديات التقنية والتطبيقات الأوسع
يقدم توسيع الاستعلام على نطاق واسع متطلبات بنية تحتية كبيرة. يؤدي تشغيل استعلامات متوازية متعددة لكل طلب بحث بصري إلى مضاعفة التكلفة الحسابية، مما يتطلب تحسيناً حذراً للحفاظ على كمون الاستجابة مقبولاً. هناك أيضاً تحدٍ في التوليف: عندما تعيد الاستعلامات المتوازية نتائج متنوعة، يجب على نموذج اللغة تحديد أيها الأكثر صلة وكيفية وزن المعلومات المتضاربة وكيفية تقديم الردود الموحدة بطريقة متماسكة دون إرباك المستخدمين.
يتم تطبيق عمارة التوسيع أيضاً على استعلامات النص في وضع AI، وليس فقط البحث البصري. يعتمد نفس المبدأ — توليد استعلامات متعددة ذات صلة من إدخال مستخدم واحد وتوليف النتائج — على قدرة وضع AI على الإجابة على أسئلة معقدة متعددة الأجزاء لا يمكن لاستعلام بحث واحد معالجتها بشكل كاف. مع استمرار Google في تحسين النظام، قد يصبح توسيع الاستعلام أكثر تعقيداً، حيث يتعلم النظام من سلوك المستخدم أي استراتيجيات توسيع تنتج أكثر الردود إرضاءً لأنواع الاستعلامات والسياقات المختلفة.
هذا المقال يعتمد على تقارير مدونة Google AI. اقرأ المقال الأصلي.




