कुशल AI में एक नया मानक

विस्कॉन्सिन-मैडिसन विश्वविद्यालय के सहयोगियों के साथ काम कर रहे एप्पल शोधकर्ताओं ने RubiCap नामक एक प्रशिक्षण ढांचा पेश किया है, जो कृत्रिम बुद्धिमत्ता की सबसे जिद्दी धारणाओं में से एक को चुनौती देता है: कि बड़े मॉडल हमेशा बेहतर परिणाम देते हैं। छवि कैप्शनिंग बेंचमार्क में, केवल 7 अरब पैरामीटर वाले RubiCap-संचालित मॉडल लगातार अपने आकार से दस गुना बड़े प्रतिस्पर्धी सिस्टम्स से बेहतर रहे — और कुछ मामलों में, 72 अरब पैरामीटर वाले मॉडलों से भी।

इसके प्रभाव किसी एक बेंचमार्क से कहीं आगे तक जाते हैं। छोटे लेकिन अधिक सक्षम मॉडल का मतलब है कम compute लागत, तेज inference, कम ऊर्जा खपत, और दूरस्थ data centers के बजाय सीधे device पर शक्तिशाली AI सुविधाएँ चलाने की संभावना। Apple, जिसने अपनी Apple Intelligence रणनीति का बड़ा हिस्सा private, on-device processing पर टिकाया है, उसके लिए compact architectures से अधिकतम प्रदर्शन निकालना स्पष्ट रणनीतिक हित का विषय है।

RubiCap वास्तव में क्या करता है

अधिकांश image captioning मॉडल किसी दृश्य का एक समग्र विवरण जनरेट करते हैं। RubiCap उस चीज़ को लक्ष्य बनाता है जिसे शोधकर्ता dense captioning कहते हैं — एक ही छवि के भीतर कई तत्वों के लिए विस्तृत, क्षेत्र-विशिष्ट विवरण तैयार करना। यह वही समृद्ध दृश्य समझ है जो अधिक सक्षम vision-language मॉडलों को प्रशिक्षित करने, सटीक image search को सक्षम बनाने, और दृष्टि बाधित उपयोगकर्ताओं के लिए accessibility सुविधाएँ देने के लिए आवश्यक है।

प्रशिक्षण में यह सफलता इस बात से आती है कि RubiCap learning signals कैसे उत्पन्न करता है। महंगे, मैन्युअली annotated datasets या पारंपरिक supervised learning दृष्टिकोणों पर निर्भर रहने के बजाय, यह ढांचा एक reinforcement learning रणनीति अपनाता है। यह एक शक्तिशाली frontier model — विशेष रूप से Gemini 2.5 Pro — का उपयोग छोटे मॉडलों द्वारा बनाए गए candidate captions का मूल्यांकन करने के लिए करता है। evaluator कई candidate outputs में consensus points और gaps की पहचान करता है, फिर स्पष्ट evaluation criteria तैयार करता है जो छोटे मॉडल को बेहतर outputs की ओर मार्गदर्शन करते हैं, बिना किसी एक "सही" ground truth answer की आवश्यकता के।

यह अधिकांश छोटे मॉडलों के प्रशिक्षण के तरीके से एक महत्वपूर्ण विचलन है। पारंपरिक दृष्टिकोण अक्सर बड़े मॉडलों से distillation या labeled datasets पर fine-tuning शामिल करते हैं। इसके बजाय RubiCap मॉडल को iterative feedback loops के माध्यम से caption quality पर तर्क करना सिखाता है, जिससे उसमें ऐसे evaluation instincts विकसित होते हैं जो व्यापक रूप से generalize करते हैं।

तीन मॉडल, एक ढांचा

Apple ने RubiCap नाम के तहत तीन variants जारी किए हैं: 2 अरब पैरामीटर वाला मॉडल (RubiCap-2B), 3 अरब पैरामीटर वाला मॉडल (RubiCap-3B), और प्रमुख 7 अरब पैरामीटर वाला RubiCap-7B। सभी benchmark evaluations में, 7B variant ने सबसे अधिक win rates हासिल किए, और 72B parameters तक के मॉडलों को पीछे छोड़ा। 3B संस्करण ने कई विशिष्ट benchmarks पर बड़े प्रतिद्वंद्वियों से बेहतर प्रदर्शन किया, यह दिखाते हुए कि मध्य-स्तरीय variant भी अपनी श्रेणी से कहीं ऊपर प्रदर्शन कर सकता है।

महत्वपूर्ण रूप से, परीक्षण के दौरान मॉडलों ने hallucination rates कम बनाए रखीं — image captioning सिस्टम्स की एक स्थायी विफलता, जिनमें वे ऐसी बातें गढ़ लेते हैं जो दृश्य में मौजूद नहीं होतीं। Dense captioning में एक साथ कई image regions पर ध्यान देना पड़ता है, जिससे hallucination का जोखिम बढ़ जाता है, और इस आयाम पर RubiCap का प्रदर्शन विशेष रूप से उल्लेखनीय है।

कुशलता एक केंद्रीय डिजाइन लक्ष्य के रूप में

यह शोध AI विकास में एक व्यापक प्रवृत्ति को रेखांकित करता है: brute-force scaling से हटकर architectural और methodological sophistication की ओर बढ़ना। वर्षों तक बेहतर AI के लिए प्रमुख तरीका बस अधिक data पर बड़े मॉडल प्रशिक्षित करना था। RubiCap दिखाता है कि training methodology — मॉडल कैसे सीखता है, केवल उसका आकार नहीं — निर्णायक कारक हो सकती है।

Apple के लिए यह उसके hardware और privacy constraints के साथ सीधे मेल खाता है। आधुनिक neural processing hardware के साथ 7B मॉडल को iPhone या Mac पर locally चलाना संभव है। 72B मॉडल चलाना संभव नहीं है। on-device-sized मॉडल से शीर्ष-स्तरीय captioning परिणाम हासिल करने की क्षमता अधिक समृद्ध accessibility सुविधाओं, स्मार्ट photo organization, और अधिक सक्षम visual search का मार्ग खोलती है, बिना संवेदनशील छवियों को cloud servers के जरिए भेजे।

इस शोध के broader AI industry पर भी प्रभाव हैं, जहाँ frontier models को प्रशिक्षित करने और deploy करने की लागत एक महत्वपूर्ण बाधा बन चुकी है। यदि RubiCap का reinforcement learning दृष्टिकोण अन्य modalities पर भी लागू होता है, तो यह कंपनियों के model development के तरीके को पुनर्परिभाषित कर सकता है — raw parameter count के बजाय training efficiency को प्राथमिकता देते हुए।

आगे की दिशा

Apple ने RubiCap के लिए कोई product deployment timeline घोषित नहीं किया है। यह publication एक research paper है, कोई product launch नहीं। लेकिन कंपनी का AI research प्रकाशित करने का इतिहास, जो बाद में operating system features में दिखाई देता है — on-device speech recognition से लेकर neural machine translation तक — संकेत देता है कि इन तकनीकों को वास्तविक दुनिया के deployment को ध्यान में रखकर विकसित किया जा रहा है।

जैसे-जैसे Apple Intelligence iOS, macOS, और iPadOS में विस्तार कर रही है, dense image captioning जैसी क्षमताएँ accessibility tools को बेहतर बना सकती हैं, contextual photo search को शक्ति दे सकती हैं, और AI-generated image descriptions की accuracy सुधार सकती हैं। शोध प्रदर्शन और consumer feature के बीच का अंतर, जो ऐतिहासिक रूप से Apple में दो से तीन साल की यात्रा रहा है, कंपनी के applied AI प्रयासों के गहराने के साथ तेज़ी से कम हो सकता है।

यह लेख 9to5Mac की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.