স্কেলে ভিজ্যুয়াল সার্চের চ্যালেঞ্জ
যখন আপনি আপনার ফোনের ক্যামেরা একটি বস্তুর দিকে নির্দেশ করেন এবং গুগলকে জিজ্ঞাসা করেন এটি কী, প্রশ্নটি ব্যবহারকারীর দৃষ্টিকোণ থেকে সহজ দেখায়। পর্দার পেছনে, সিস্টেম একটি প্রকৃত কঠিন সমস্যার সম্মুখীন হয়: ভিজ্যুয়াল কোয়েরিগুলি এমনভাবে অন্তর্নিহিতভাবে অস্পষ্ট যে পাঠ্য কোয়েরিগুলি নয়। একটি উদ্ভিদের ফটোগ্রাফ চিহ্নিতকরণ, যত্নের নির্দেশাবলী, বিষাক্ততার তথ্য, এটি কোথায় কিনতে হয়, বা প্রজাতির নাম জিজ্ঞাসা করতে পারে — এবং ছবিটি নিজেই ব্যবহারকারী কোন উত্তর চায় তা সম্পর্কে কোনো স্পষ্ট সংকেত প্রদান করে না।
সেই অস্পষ্টতা সমাধানের জন্য গুগলের পদ্ধতি হল কোয়েরি ফ্যান-আউট, এমন একটি প্রযুক্তি যা এআই মোডের ভিজ্যুয়াল সার্চ ক্ষমতার হৃদয়ে নিহিত। একটি ভিজ্যুয়াল কোয়েরিকে একটি একক অনুসন্ধান হিসাবে বিবেচনা করার পরিবর্তে, সিস্টেম ছবি থেকে প্রাপ্ত সম্পর্কিত কোয়েরিগুলির একটি পরিবার তৈরি করে, সেগুলি একসাথে চালায়, এবং ফলাফলগুলিকে এমন একটি প্রতিক্রিয়ায় সংশ্লেষণ করে যা ব্যবহারকারীর সবচেয়ে সম্ভাব্য চাহিদা পূর্বাভাস দেয়।
কোয়েরি ফ্যান-আউট কীভাবে কাজ করে
ফ্যান-আউট প্রক্রিয়া এআই সিস্টেম দ্বারা ছবি বিশ্লেষণ করে বিশিষ্ট বৈশিষ্ট্যগুলি বের করে শুরু হয়: উপস্থিত বস্তুগুলি, তাদের সম্পর্ক, যেকোনো দৃশ্যমান পাঠ্য, সেটিং সম্পর্কে প্রসঙ্গগত সূত্র, এবং ছবি ক্যাপচার করা প্রসঙ্গ সম্পর্কে সংকেত। সেই বিশ্লেষণ থেকে, সিস্টেম একাধিক প্রার্থী কোয়েরি তৈরি করে — প্রত্যেকটি ব্যবহারকারী যা জানতে চাইতে পারে তার একটি যুক্তিসঙ্গত ব্যাখ্যা প্রতিনিধিত্ব করে।
একটি উদ্ভিদের ফটোগ্রাফের জন্য, ফ্যান-আউট প্রজাতি চিহ্নিতকরণ, সাধারণ নাম, বর্ধনশীল অবস্থা, পোষা প্রাণী এবং শিশুদের জন্য বিষাক্ততা, এবং স্থানীয়ভাবে কোথায় কিনতে হয় তার জন্য সমান্তরাল কোয়েরি তৈরি করতে পারে। এই কোয়েরিগুলি গুগলের সার্চ ইন্ডেক্স জুড়ে একযোগে চলে, প্রতিটি স্ট্রিম থেকে ফলাফলগুলি প্রাসঙ্গিকতার জন্য মূল্যায়ন করা হয় এবং একটি সুসংগত প্রতিক্রিয়ায় সংশ্লেষণ করা হয় যা সবচেয়ে সম্ভাব্য ব্যবহারকারী অভিপ্রায়কে সম্বোধন করে এবং ব্যবহারকারী যা স্পষ্টভাবে অনুরোধ করতে চিন্তা করেনি এমন প্রাসঙ্গিক তথ্য প্রদর্শন করে।
এটি ব্যবহারকারীদের জন্য কেন গুরুত্বপূর্ণ
কোয়েরি ফ্যান-আউটের ব্যবহারিক প্রভাব হল যে এআই মোডের ভিজ্যুয়াল সার্চ একটি ঐতিহ্যবাহী সার্চ ইঞ্জিনের চেয়ে বরং একটি জ্ঞানী সহায়কের মতো আচরণ করে। একটি প্রচলিত ইমেজ সার্চ দৃশ্যত সমান ডকুমেন্ট রিটার্ন করে। কোয়েরি ফ্যান-আউট সহ এআই মোড ছবির বিষয় সম্পর্কে ব্যবহারকারী যে প্রশ্নগুলি জিজ্ঞাসা করতে পারে তার উত্তর প্রদান করে — একটি গুণগতভাবে ভিন্ন ধরনের প্রতিক্রিয়া।
এই পার্থক্য সবচেয়ে উল্লেখযোগ্য হয়ে ওঠে যখন ব্যবহারকারীদের তারা যা দেখছেন তার জন্য সীমিত শব্দভাণ্ডার থাকে। কেউ একটি মাশরুম, ত্বকের অবস্থা, একটি গাড়ির অংশ, বা একটি সার্কিট বোর্ড উপাদান চিহ্নিত করার চেষ্টা করছে একটি কার্যকর পাঠ্য কোয়েরি তৈরি করার জন্য প্রয়োজনীয় পরিভাষা জানতে পারে না। ভিজ্যুয়াল কোয়েরি ফ্যান-আউট ছবির বিষয়বস্তু থেকে সম্ভাব্য কোয়েরি অনুমান করে শব্দভাণ্ডারের সমস্যা পাশ কাটিয়ে যায়, এমনকি যখন ব্যবহারকারী সুনির্দিষ্টভাবে যা খুঁজছেন তা প্রকাশ করতে পারে না তখনও উপকারী তথ্য প্রদান করে।
প্রযুক্তিগত চ্যালেঞ্জ এবং বিস্তৃত অ্যাপ্লিকেশন
স্কেলে কোয়েরি ফ্যান-আউট উল্লেখযোগ্য অবকাঠামো চাহিদা প্রবর্তন করে। প্রতিটি ভিজ্যুয়াল সার্চ অনুরোধের জন্য একাধিক সমান্তরাল কোয়েরি চালানো গণনামূলক খরচ বহুগুণ করে, প্রতিক্রিয়া বিলম্ব গ্রহণযোগ্য রাখতে সাবধানে অপ্টিমাইজেশন প্রয়োজন। একটি সংশ্লেষণ চ্যালেঞ্জও রয়েছে: যখন সমান্তরাল কোয়েরি বৈচিত্র্যময় ফলাফল রিটার্ন করে, ভাষা মডেল অবশ্যই নির্ধারণ করতে হবে কোনগুলি সবচেয়ে প্রাসঙ্গিক, পরস্পর বিরোধী তথ্যকে কীভাবে ওজন দিতে হবে, এবং ব্যবহারকারীদের অপ্রতিরোধ্য না করে সংশ্লেষণ প্রতিক্রিয়াগুলি সুসংগতভাবে কীভাবে উপস্থাপন করতে হবে।
ফ্যান-আউট আর্কিটেকচার এআই মোডের পাঠ্য কোয়েরিতেও প্রয়োগ করা হচ্ছে, শুধুমাত্র ভিজ্যুয়াল সার্চ নয়। একই নীতি — একটি একক ব্যবহারকারী ইনপুট থেকে একাধিক সম্পর্কিত কোয়েরি তৈরি করা এবং ফলাফলগুলি সংশ্লেষণ করা — এআই মোডের জটিল বহু-অংশ প্রশ্নের উত্তর দেওয়ার ক্ষমতাকে সমর্থন করে যা একটি একক সার্চ কোয়েরি পর্যাপ্তভাবে সম্বোধন করতে পারে না। গুগল সিস্টেম পরিমার্জন করতে থাকায়, কোয়েরি ফ্যান-আউট আরও পরিশীলিত হওয়ার সম্ভাবনা রয়েছে, সিস্টেম ব্যবহারকারী আচরণ থেকে শেখার সাথে সাথে কোন ফ্যান-আউট কৌশল বিভিন্ন কোয়েরি ধরনের এবং প্রেক্ষাপটের জন্য সবচেয়ে সন্তোষজনক প্রতিক্রিয়া উত্পাদন করে।
এই নিবন্ধটি গুগল এআই ব্লগের রিপোর্টিংয়ের উপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন।
Originally published on blog.google


