Apple RubiCap: ছোট AI আকারের ১০ গুণ বড় মডেলকে হারায়

দক্ষ AI-তে নতুন মানদণ্ড

উইসকনসিন-ম্যাডিসন বিশ্ববিদ্যালয়ের সহযোগীদের সঙ্গে কাজ করা অ্যাপল গবেষকরা RubiCap নামে একটি প্রশিক্ষণ ফ্রেমওয়ার্ক উন্মোচন করেছেন, যা কৃত্রিম বুদ্ধিমত্তার সবচেয়ে জেদি ধারণাগুলোর একটিকে চ্যালেঞ্জ জানায়: বড় মডেল সবসময়ই ভালো ফল দেয়। ইমেজ ক্যাপশনিং বেঞ্চমার্কে, মাত্র ৭ বিলিয়ন প্যারামিটারের RubiCap-চালিত মডেলগুলো ধারাবাহিকভাবে তাদের চেয়ে দশ গুণ বড় প্রতিদ্বন্দ্বী সিস্টেমকে ছাড়িয়ে গেছে — এবং কিছু ক্ষেত্রে ৭২ বিলিয়ন প্যারামিটারযুক্ত মডেলকেও।

এর প্রভাব একটি মাত্র বেঞ্চমার্কের অনেক বাইরে বিস্তৃত। ছোট কিন্তু আরও সক্ষম মডেলের মানে কম compute খরচ, দ্রুত inference, কম শক্তি ব্যবহার, এবং দূরবর্তী data centers-এর বদলে device-এর মধ্যেই শক্তিশালী AI ফিচার চালানোর সম্ভাবনা। Apple, যা তার Apple Intelligence কৌশলের বড় অংশ private, on-device processing-এর ওপর নির্ভর করেছে, তার জন্য compact architecture থেকে সর্বোচ্চ কর্মক্ষমতা বের করা স্পষ্ট কৌশলগত স্বার্থের বিষয়।

RubiCap আসলে কী করে

বেশিরভাগ image captioning মডেল একটি দৃশ্যের একটি সামগ্রিক বর্ণনা তৈরি করে। RubiCap গবেষকদের ভাষায় dense captioning লক্ষ্য করে — অর্থাৎ একটি ছবির ভেতরের বহু উপাদানের জন্য বিশদ, অঞ্চল-নির্দিষ্ট বর্ণনা তৈরি করা। এটি এমন সমৃদ্ধ দৃশ্যমান বোঝাপড়া, যা আরও সক্ষম vision-language model প্রশিক্ষণ, নির্ভুল image search, এবং দৃষ্টিপ্রতিবন্ধী ব্যবহারকারীদের জন্য accessibility ফিচার চালাতে দরকার।

প্রশিক্ষণে অগ্রগতি এসেছে RubiCap কীভাবে learning signal তৈরি করে তা থেকে। ব্যয়বহুল, হাতে annotation করা dataset বা প্রচলিত supervised learning পদ্ধতির ওপর নির্ভর করার বদলে, এই ফ্রেমওয়ার্ক reinforcement learning কৌশল ব্যবহার করে। এটি ছোট মডেলগুলোর তৈরি candidate captions মূল্যায়নের জন্য একটি শক্তিশালী frontier model — নির্দিষ্টভাবে Gemini 2.5 Pro — ব্যবহার করে। evaluator একাধিক candidate output জুড়ে consensus point এবং gap শনাক্ত করে, তারপর স্পষ্ট evaluation criteria তৈরি করে যা কোনো একক "সঠিক" ground truth answer ছাড়াই ছোট মডেলকে আরও ভালো output-এর দিকে এগিয়ে দেয়।

এটি বেশিরভাগ ছোট মডেল প্রশিক্ষণের পদ্ধতি থেকে একটি গুরুত্বপূর্ণ বিচ্যুতি। প্রচলিত পদ্ধতিতে প্রায়ই বড় মডেল থেকে distillation বা labeled dataset-এর ওপর fine-tuning থাকে। RubiCap বরং iterative feedback loop-এর মাধ্যমে caption quality সম্পর্কে যুক্তি করতে মডেলকে শেখায়, ফলে এতে এমন evaluation instinct তৈরি হয় যা বিস্তৃতভাবে generalize করে।

Congress lets decades-old spying law lapse amid Trump

বর্ধিত মেয়াদ পাস করতে কংগ্রেস ব্যর্থ হওয়ায় সেকশন 702 মেয়াদোত্তীর্ণ হতে চলেছে

২০০৮ সালের পর প্রথমবার, ফরেন ইন্টেলিজেন্স সারভেইলেন্স অ্যাক্টের সেকশন 702 মেয়াদোত্তীর্ণ হতে যাচ্ছে, কারণ কংগ্রেস এমনকি স্বল্পমেয়াদি বর্ধিত মেয়াদও অনুমোদন করতে ব্যর্থ হয়েছে।

Read article

তিনটি মডেল, একটি ফ্রেমওয়ার্ক

Apple RubiCap নামে তিনটি variant প্রকাশ করেছে: ২ বিলিয়ন-প্যারামিটারের একটি মডেল (RubiCap-2B), ৩ বিলিয়ন-প্যারামিটারের একটি মডেল (RubiCap-3B), এবং প্রধান ৭ বিলিয়ন-প্যারামিটারের RubiCap-7B। সব benchmark evaluation জুড়ে, 7B variant সর্বোচ্চ win rate অর্জন করেছে, ৭২B parameters পর্যন্ত মডেলকে ছাড়িয়ে গেছে। 3B সংস্করণটি কয়েকটি নির্দিষ্ট benchmark-এ বড় প্রতিদ্বন্দ্বীদের চেয়ে ভালো করেছে, যা দেখায় যে মধ্যম-স্তরের variant-ও তার শ্রেণির তুলনায় অনেক বেশি শক্তিশালী।

গুরুত্বপূর্ণভাবে, পরীক্ষার পুরো সময়জুড়ে মডেলগুলো কম hallucination rate বজায় রেখেছে — image captioning system-এর একটি স্থায়ী ব্যর্থতার ধরন, যেখানে সেগুলো দৃশ্যে নেই এমন বিবরণ তৈরি করে ফেলে। Dense captioning-এ একাধিক image region-এর দিকে একই সঙ্গে মনোযোগ দিতে হয়, যা hallucination-এর ঝুঁকি বাড়ায়, ফলে এই মাত্রায় RubiCap-এর কর্মক্ষমতা বিশেষভাবে উল্লেখযোগ্য।

দক্ষতা একটি মূল নকশা লক্ষ্য হিসেবে

গবেষণাটি AI উন্নয়নের একটি বৃহত্তর প্রবণতা তুলে ধরে: brute-force scaling থেকে architectural এবং methodological sophistication-এর দিকে যাত্রা। বহু বছর ধরে, ভালো AI-এর জন্য প্রধান রেসিপি ছিল কেবল আরও data-তে বড় মডেল প্রশিক্ষণ করা। RubiCap দেখায় যে training methodology — মডেল কীভাবে শেখে, শুধু কত বড় তা নয় — সেটাই নির্ণায়ক ভেরিয়েবল হতে পারে।

Apple-এর জন্য এটি তার hardware ও privacy constraints-এর সঙ্গে সরাসরি সামঞ্জস্যপূর্ণ। আধুনিক neural processing hardware দিয়ে 7B model স্থানীয়ভাবে iPhone বা Mac-এ চালানো সম্ভব। 72B model চালানো সম্ভব নয়। on-device-sized model থেকে শীর্ষ-স্তরের captioning ফলাফল পাওয়ার ক্ষমতা আরও সমৃদ্ধ accessibility ফিচার, স্মার্ট photo organization, এবং আরও সক্ষম visual search-এর দ্বার খুলে দেয়, তাও সংবেদনশীল ছবি cloud server-এর মাধ্যমে না পাঠিয়ে।

এই গবেষণার broader AI industry-তেও প্রভাব আছে, যেখানে frontier model প্রশিক্ষণ ও deploy করার খরচ একটি উল্লেখযোগ্য বাধা হয়ে উঠেছে। যদি RubiCap-এর reinforcement learning পদ্ধতি অন্য modality-তেও প্রযোজ্য হয়, তবে এটি কোম্পানিগুলো model development কীভাবে ভাবে তা বদলে দিতে পারে — raw parameter count-এর চেয়ে training efficiency-কে অগ্রাধিকার দিয়ে।

Here’s everything new in iOS 27 and more, per Apple’s keynote list - 9to5Mac

Apple-এর foundation-model বিভাজন একটি হাইব্রিড AI কৌশলের ইঙ্গিত দেয়

9to5Mac থেকে দেওয়া সূত্র পাঠ্য ইঙ্গিত দেয় যে Apple নতুন foundation models-কে on-device এবং cloud AI জুড়ে ব্যাখ্যা করছে, যা একক model approach-এর বদলে একটি হাইব্রিড architecture-এর দিকে ইশারা করে।

Read article

ভবিষ্যতের দিকে

Apple RubiCap-এর জন্য কোনো product deployment timeline ঘোষণা করেনি। এটি একটি research paper, product launch নয়। তবে company-এর AI research প্রকাশের ইতিহাস, যা পরে operating system feature-এ দেখা গেছে — on-device speech recognition থেকে neural machine translation পর্যন্ত — ইঙ্গিত দেয় যে এই কৌশলগুলো বাস্তব জগতে deployment মাথায় রেখে তৈরি করা হচ্ছে।

যেহেতু Apple Intelligence iOS, macOS, এবং iPadOS জুড়ে প্রসারিত হচ্ছে, dense image captioning-এর মতো সক্ষমতা accessibility tool উন্নত করতে, contextual photo search শক্তিশালী করতে, এবং AI-generated image description-এর নির্ভুলতা বাড়াতে পারে। research demonstration আর consumer feature-এর মধ্যে ব্যবধান, যা ঐতিহাসিকভাবে Apple-এ দুই থেকে তিন বছরের যাত্রা, কোম্পানির applied AI প্রচেষ্টা গভীর হওয়ার সঙ্গে সঙ্গে দ্রুত কমে আসতে পারে।

এই নিবন্ধটি 9to5Mac-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধ পড়ুন.

Originally published on 9to5mac.com

অ্যাপলের RubiCap আকারের ১০ গুণ বড় AI মডেলকে হারায়

দক্ষ AI-তে নতুন মানদণ্ড

RubiCap আসলে কী করে

বর্ধিত মেয়াদ পাস করতে কংগ্রেস ব্যর্থ হওয়ায় সেকশন 702 মেয়াদোত্তীর্ণ হতে চলেছে

তিনটি মডেল, একটি ফ্রেমওয়ার্ক

দক্ষতা একটি মূল নকশা লক্ষ্য হিসেবে

Apple-এর foundation-model বিভাজন একটি হাইব্রিড AI কৌশলের ইঙ্গিত দেয়

ভবিষ্যতের দিকে

Comments (0)

Related Articles

প্রোমিথিউস ইঞ্জিনিয়ারিং ডিজাইনের জন্য AI টুলসকে লক্ষ্য করছে

বিশেষজ্ঞদের সতর্কবার্তা: এআই এজেন্টদের জন্য আরও কঠোর এন্টারপ্রাইজ গার্ডরেল দরকার

Trump Mobile T1-এর teardown HTC-র শিকড়ের ইঙ্গিত দিচ্ছে, US manufacturing-এর নয়

দ্বিদলীয় JAWBONE আইন সরকারি সেন্সরশিপকে লক্ষ্য করে

Keep Reading