कार्यक्षम AI मधील नवे मानक

विस्कॉन्सिन-मॅडिसन विद्यापीठातील सहयोगींशी काम करणाऱ्या Apple संशोधकांनी RubiCap नावाचे प्रशिक्षण फ्रेमवर्क सादर केले आहे, जे कृत्रिम बुद्धिमत्तेतील सर्वात ठाम समजांपैकी एकाला आव्हान देते: मोठी मॉडेल्स नेहमीच चांगले परिणाम देतात. image captioning बेंचमार्क्समध्ये, केवळ 7 अब्ज पॅरामीटर्स असलेल्या RubiCap-चालित मॉडेल्सनी सातत्याने त्यांच्या दहापट मोठ्या स्पर्धक सिस्टीम्सना मागे टाकले — आणि काही प्रकरणांमध्ये 72 अब्ज पॅरामीटर्स असलेल्या मॉडेल्सनाही.

याचे परिणाम एका बेंचमार्कपुरते मर्यादित नाहीत. लहान पण अधिक सक्षम मॉडेल्सचा अर्थ कमी compute खर्च, जलद inference, कमी ऊर्जा वापर, आणि दूरच्या data centers ऐवजी device वरच शक्तिशाली AI वैशिष्ट्ये चालवण्याची शक्यता. Apple, ज्याने आपल्या Apple Intelligence धोरणाचा मोठा भाग private, on-device processing वर आधारला आहे, त्याच्यासाठी compact architectures मधून जास्तीत जास्त कार्यक्षमता मिळवणे हा स्पष्ट धोरणात्मक हिताचा विषय आहे.

RubiCap प्रत्यक्षात काय करते

बहुतेक image captioning मॉडेल्स एखाद्या दृश्याचे एकच एकूण वर्णन तयार करतात. RubiCap संशोधक ज्याला dense captioning म्हणतात त्याला लक्ष्य करते — म्हणजे एका प्रतिमेतील अनेक घटकांसाठी तपशीलवार, क्षेत्र-विशिष्ट वर्णने तयार करणे. अधिक सक्षम vision-language मॉडेल्स प्रशिक्षित करण्यासाठी, अचूक image search सक्षम करण्यासाठी, आणि दृष्टीदोष असलेल्या वापरकर्त्यांसाठी accessibility वैशिष्ट्ये देण्यासाठी अशा समृद्ध दृश्य समजुतीची गरज असते.

प्रशिक्षणातील ही झेप RubiCap learning signals कसे तयार करते यामुळे आली आहे. महागड्या, हाताने annotated datasets किंवा पारंपरिक supervised learning पद्धतींवर अवलंबून न राहता, हे फ्रेमवर्क reinforcement learning रणनीती वापरते. ते लहान मॉडेल्सनी तयार केलेल्या candidate captions चे मूल्यांकन करण्यासाठी एक शक्तिशाली frontier model — विशेषतः Gemini 2.5 Pro — वापरते. evaluator अनेक candidate outputs मधील consensus points आणि gaps ओळखतो, आणि मग स्पष्ट evaluation criteria तयार करतो जे एका एकमेव "बरोबर" ground truth answer शिवाय लहान मॉडेलला चांगल्या outputs कडे मार्गदर्शन करतात.

हा बहुतेक लहान मॉडेल्सच्या प्रशिक्षण पद्धतींपासून एक महत्त्वाचा फरक आहे. पारंपरिक पद्धतींमध्ये अनेकदा मोठ्या मॉडेल्समधून distillation किंवा labeled datasets वर fine-tuning असते. RubiCap त्याऐवजी iterative feedback loops द्वारे मॉडेलला caption quality बद्दल तर्क करायला शिकवते, ज्यामुळे व्यापक स्तरावर generalize होणारी evaluation instincts विकसित होतात.

तीन मॉडेल्स, एक फ्रेमवर्क

Apple ने RubiCap या नावाखाली तीन variants जारी केले आहेत: 2 अब्ज पॅरामीटरचे मॉडेल (RubiCap-2B), 3 अब्ज पॅरामीटरचे मॉडेल (RubiCap-3B), आणि प्रमुख 7 अब्ज पॅरामीटरचे RubiCap-7B. सर्व benchmark evaluations मध्ये, 7B variant ने सर्वाधिक win rates मिळवल्या, 72B parameters पर्यंतच्या मॉडेल्सना मागे टाकले. 3B आवृत्तीने काही विशिष्ट benchmarks वर मोठ्या प्रतिस्पर्ध्यांना मागे टाकले, ज्यामुळे मध्यम-स्तरीय variant देखील आपल्या वर्गापेक्षा वरचढ कामगिरी करू शकतो हे दिसून आले.

महत्त्वाचे म्हणजे, चाचणीदरम्यान मॉडेल्सनी कमी hallucination rates टिकवून ठेवल्या — image captioning systems मधील एक सतत दिसणारी failure mode, ज्यात दृश्यात नसलेले तपशील तयार केले जातात. Dense captioning साठी एकाच वेळी अनेक image regions वर लक्ष द्यावे लागते, ज्यामुळे hallucination चा धोका वाढतो; म्हणूनच या परिमाणात RubiCap ची कामगिरी विशेष उल्लेखनीय आहे.

कार्यक्षमता हा मुख्य डिझाइन उद्देश

हे संशोधन AI विकासातील व्यापक कल अधोरेखित करते: brute-force scaling पासून architectural आणि methodological sophistication कडे होणारी वाटचाल. अनेक वर्षे, चांगल्या AI साठी मुख्य सूत्र म्हणजे फक्त अधिक data वर मोठी मॉडेल्स प्रशिक्षित करणे होते. RubiCap दाखवते की training methodology — मॉडेल किती मोठे आहे हे नाही, तर ते कसे शिकते — हा निर्णायक घटक ठरू शकतो.

Apple साठी, हे त्याच्या hardware आणि privacy constraints शी थेट जुळते. आधुनिक neural processing hardware सह 7B मॉडेल iPhone किंवा Mac वर locally चालवणे शक्य आहे. 72B मॉडेल चालवणे शक्य नाही. on-device-sized मॉडेलमधून उच्च दर्जाचे captioning परिणाम मिळवण्याची क्षमता अधिक समृद्ध accessibility वैशिष्ट्ये, स्मार्ट photo organization, आणि अधिक सक्षम visual search यांचे दरवाजे उघडते, तेही संवेदनशील प्रतिमा cloud servers मधून न पाठवता.

या संशोधनाचे broader AI industry वरही परिणाम आहेत, जिथे frontier मॉडेल्स प्रशिक्षित करणे आणि deploy करण्याचा खर्च मोठा अडथळा बनला आहे. जर RubiCap चा reinforcement learning दृष्टिकोन इतर modalities वरही लागू झाला, तर तो कंपन्या model development कसे पाहतात ते बदलू शकतो — raw parameter count ऐवजी training efficiency ला प्राधान्य देत.

पुढे पाहताना

Apple ने RubiCap साठी product deployment timeline जाहीर केलेला नाही. हे एक research paper आहे, product launch नाही. पण company चा AI research प्रकाशित करण्याचा इतिहास, जो नंतर operating system features मध्ये दिसून येतो — on-device speech recognition पासून neural machine translation पर्यंत — सूचित करतो की या तंत्रांचा विकास प्रत्यक्ष जगातील deployment लक्षात घेऊन केला जात आहे.

Apple Intelligence iOS, macOS, आणि iPadOS वर विस्तारत असताना, dense image captioning सारख्या क्षमतांमुळे accessibility tools सुधारू शकतात, contextual photo search अधिक सक्षम होऊ शकतो, आणि AI-generated image descriptions ची अचूकता वाढू शकते. संशोधन आणि consumer feature यांच्यातील अंतर, ऐतिहासिकदृष्ट्या Apple मध्ये दोन ते तीन वर्षांचा प्रवास, कंपनीच्या applied AI प्रयत्नांना अधिक खोलवर नेल्याने कमी होत जाऊ शकतो.

हा लेख 9to5Mac च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.