দক্ষ AI-তে নতুন মানদণ্ড

উইসকনসিন-ম্যাডিসন বিশ্ববিদ্যালয়ের সহযোগীদের সঙ্গে কাজ করা অ্যাপল গবেষকরা RubiCap নামে একটি প্রশিক্ষণ ফ্রেমওয়ার্ক উন্মোচন করেছেন, যা কৃত্রিম বুদ্ধিমত্তার সবচেয়ে জেদি ধারণাগুলোর একটিকে চ্যালেঞ্জ জানায়: বড় মডেল সবসময়ই ভালো ফল দেয়। ইমেজ ক্যাপশনিং বেঞ্চমার্কে, মাত্র ৭ বিলিয়ন প্যারামিটারের RubiCap-চালিত মডেলগুলো ধারাবাহিকভাবে তাদের চেয়ে দশ গুণ বড় প্রতিদ্বন্দ্বী সিস্টেমকে ছাড়িয়ে গেছে — এবং কিছু ক্ষেত্রে ৭২ বিলিয়ন প্যারামিটারযুক্ত মডেলকেও।

এর প্রভাব একটি মাত্র বেঞ্চমার্কের অনেক বাইরে বিস্তৃত। ছোট কিন্তু আরও সক্ষম মডেলের মানে কম compute খরচ, দ্রুত inference, কম শক্তি ব্যবহার, এবং দূরবর্তী data centers-এর বদলে device-এর মধ্যেই শক্তিশালী AI ফিচার চালানোর সম্ভাবনা। Apple, যা তার Apple Intelligence কৌশলের বড় অংশ private, on-device processing-এর ওপর নির্ভর করেছে, তার জন্য compact architecture থেকে সর্বোচ্চ কর্মক্ষমতা বের করা স্পষ্ট কৌশলগত স্বার্থের বিষয়।

RubiCap আসলে কী করে

বেশিরভাগ image captioning মডেল একটি দৃশ্যের একটি সামগ্রিক বর্ণনা তৈরি করে। RubiCap গবেষকদের ভাষায় dense captioning লক্ষ্য করে — অর্থাৎ একটি ছবির ভেতরের বহু উপাদানের জন্য বিশদ, অঞ্চল-নির্দিষ্ট বর্ণনা তৈরি করা। এটি এমন সমৃদ্ধ দৃশ্যমান বোঝাপড়া, যা আরও সক্ষম vision-language model প্রশিক্ষণ, নির্ভুল image search, এবং দৃষ্টিপ্রতিবন্ধী ব্যবহারকারীদের জন্য accessibility ফিচার চালাতে দরকার।

প্রশিক্ষণে অগ্রগতি এসেছে RubiCap কীভাবে learning signal তৈরি করে তা থেকে। ব্যয়বহুল, হাতে annotation করা dataset বা প্রচলিত supervised learning পদ্ধতির ওপর নির্ভর করার বদলে, এই ফ্রেমওয়ার্ক reinforcement learning কৌশল ব্যবহার করে। এটি ছোট মডেলগুলোর তৈরি candidate captions মূল্যায়নের জন্য একটি শক্তিশালী frontier model — নির্দিষ্টভাবে Gemini 2.5 Pro — ব্যবহার করে। evaluator একাধিক candidate output জুড়ে consensus point এবং gap শনাক্ত করে, তারপর স্পষ্ট evaluation criteria তৈরি করে যা কোনো একক "সঠিক" ground truth answer ছাড়াই ছোট মডেলকে আরও ভালো output-এর দিকে এগিয়ে দেয়।

এটি বেশিরভাগ ছোট মডেল প্রশিক্ষণের পদ্ধতি থেকে একটি গুরুত্বপূর্ণ বিচ্যুতি। প্রচলিত পদ্ধতিতে প্রায়ই বড় মডেল থেকে distillation বা labeled dataset-এর ওপর fine-tuning থাকে। RubiCap বরং iterative feedback loop-এর মাধ্যমে caption quality সম্পর্কে যুক্তি করতে মডেলকে শেখায়, ফলে এতে এমন evaluation instinct তৈরি হয় যা বিস্তৃতভাবে generalize করে।

তিনটি মডেল, একটি ফ্রেমওয়ার্ক

Apple RubiCap নামে তিনটি variant প্রকাশ করেছে: ২ বিলিয়ন-প্যারামিটারের একটি মডেল (RubiCap-2B), ৩ বিলিয়ন-প্যারামিটারের একটি মডেল (RubiCap-3B), এবং প্রধান ৭ বিলিয়ন-প্যারামিটারের RubiCap-7B। সব benchmark evaluation জুড়ে, 7B variant সর্বোচ্চ win rate অর্জন করেছে, ৭২B parameters পর্যন্ত মডেলকে ছাড়িয়ে গেছে। 3B সংস্করণটি কয়েকটি নির্দিষ্ট benchmark-এ বড় প্রতিদ্বন্দ্বীদের চেয়ে ভালো করেছে, যা দেখায় যে মধ্যম-স্তরের variant-ও তার শ্রেণির তুলনায় অনেক বেশি শক্তিশালী।

গুরুত্বপূর্ণভাবে, পরীক্ষার পুরো সময়জুড়ে মডেলগুলো কম hallucination rate বজায় রেখেছে — image captioning system-এর একটি স্থায়ী ব্যর্থতার ধরন, যেখানে সেগুলো দৃশ্যে নেই এমন বিবরণ তৈরি করে ফেলে। Dense captioning-এ একাধিক image region-এর দিকে একই সঙ্গে মনোযোগ দিতে হয়, যা hallucination-এর ঝুঁকি বাড়ায়, ফলে এই মাত্রায় RubiCap-এর কর্মক্ষমতা বিশেষভাবে উল্লেখযোগ্য।

দক্ষতা একটি মূল নকশা লক্ষ্য হিসেবে

গবেষণাটি AI উন্নয়নের একটি বৃহত্তর প্রবণতা তুলে ধরে: brute-force scaling থেকে architectural এবং methodological sophistication-এর দিকে যাত্রা। বহু বছর ধরে, ভালো AI-এর জন্য প্রধান রেসিপি ছিল কেবল আরও data-তে বড় মডেল প্রশিক্ষণ করা। RubiCap দেখায় যে training methodology — মডেল কীভাবে শেখে, শুধু কত বড় তা নয় — সেটাই নির্ণায়ক ভেরিয়েবল হতে পারে।

Apple-এর জন্য এটি তার hardware ও privacy constraints-এর সঙ্গে সরাসরি সামঞ্জস্যপূর্ণ। আধুনিক neural processing hardware দিয়ে 7B model স্থানীয়ভাবে iPhone বা Mac-এ চালানো সম্ভব। 72B model চালানো সম্ভব নয়। on-device-sized model থেকে শীর্ষ-স্তরের captioning ফলাফল পাওয়ার ক্ষমতা আরও সমৃদ্ধ accessibility ফিচার, স্মার্ট photo organization, এবং আরও সক্ষম visual search-এর দ্বার খুলে দেয়, তাও সংবেদনশীল ছবি cloud server-এর মাধ্যমে না পাঠিয়ে।

এই গবেষণার broader AI industry-তেও প্রভাব আছে, যেখানে frontier model প্রশিক্ষণ ও deploy করার খরচ একটি উল্লেখযোগ্য বাধা হয়ে উঠেছে। যদি RubiCap-এর reinforcement learning পদ্ধতি অন্য modality-তেও প্রযোজ্য হয়, তবে এটি কোম্পানিগুলো model development কীভাবে ভাবে তা বদলে দিতে পারে — raw parameter count-এর চেয়ে training efficiency-কে অগ্রাধিকার দিয়ে।

ভবিষ্যতের দিকে

Apple RubiCap-এর জন্য কোনো product deployment timeline ঘোষণা করেনি। এটি একটি research paper, product launch নয়। তবে company-এর AI research প্রকাশের ইতিহাস, যা পরে operating system feature-এ দেখা গেছে — on-device speech recognition থেকে neural machine translation পর্যন্ত — ইঙ্গিত দেয় যে এই কৌশলগুলো বাস্তব জগতে deployment মাথায় রেখে তৈরি করা হচ্ছে।

যেহেতু Apple Intelligence iOS, macOS, এবং iPadOS জুড়ে প্রসারিত হচ্ছে, dense image captioning-এর মতো সক্ষমতা accessibility tool উন্নত করতে, contextual photo search শক্তিশালী করতে, এবং AI-generated image description-এর নির্ভুলতা বাড়াতে পারে। research demonstration আর consumer feature-এর মধ্যে ব্যবধান, যা ঐতিহাসিকভাবে Apple-এ দুই থেকে তিন বছরের যাত্রা, কোম্পানির applied AI প্রচেষ্টা গভীর হওয়ার সঙ্গে সঙ্গে দ্রুত কমে আসতে পারে।

এই নিবন্ধটি 9to5Mac-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধ পড়ুন.