திறமையான AI-யில் புதிய அளவுகோல்

விஸ்கான்சின்-மேடிசன் பல்கலைக்கழகத்திலிருந்து இணை ஆராய்ச்சியாளர்களுடன் பணியாற்றிய ஆப்பிள் ஆராய்ச்சியாளர்கள், செயற்கை நுண்ணறிவில் நிலைத்திருக்கும் மிக வலுவான கருதுகோள்களில் ஒன்றை சவால் செய்யும் RubiCap எனப்படும் பயிற்சி கட்டமைப்பை வெளியிட்டுள்ளனர்: பெரிய மாதிரிகள் எப்போதும் சிறந்த முடிவுகளைத் தருகின்றன என்பது. image captioning அளவுகோல்களில், வெறும் 7 பில்லியன் அளவுருக்கள் கொண்ட RubiCap-இயக்கப்பட்ட மாதிரிகள் தங்களின் அளவை விட பத்து மடங்கு பெரிய போட்டி அமைப்புகளை தொடர்ந்து மிஞ்சின — சில சந்தர்ப்பங்களில், 72 பில்லியன் அளவுருக்கள் கொண்ட மாதிரிகளையும் கூட.

இதன் விளைவுகள் ஒரு single benchmark-ஐ விட பல மடங்கு தொலைவிற்கு செல்கின்றன. சிறிய ஆனால் அதிக திறன் கொண்ட மாதிரிகள் என்றால் குறைந்த compute செலவுகள், வேகமான inference, குறைந்த ஆற்றல் நுகர்வு, மற்றும் தொலை data centers-ஐ விட device-இல் நேரடியாக சக்திவாய்ந்த AI அம்சங்களை இயக்கும் வாய்ப்பு. அதன் Apple Intelligence strategy-யின் பெரும்பகுதியை private, on-device processing மீது வைத்துள்ள Apple-க்கு, compact architectures-இலிருந்து அதிகபட்ச செயல்திறனை எடுப்பதில் தெளிவான மூலோபாய நலன் உள்ளது.

RubiCap உண்மையில் என்ன செய்கிறது

பெரும்பாலான image captioning மாதிரிகள் ஒரு காட்சியின் ஒரே, மொத்த விளக்கத்தை உருவாக்குகின்றன. RubiCap, ஆராய்ச்சியாளர்கள் dense captioning என்று அழைக்கும் அணுகுமுறையை இலக்காகக் கொண்டுள்ளது — ஒரே படத்தின் உள்ளே பல கூறுகளுக்கு விரிவான, பகுதி-சார்ந்த விளக்கங்களை உருவாக்குவது. மேலும் திறன் கொண்ட vision-language மாதிரிகளைப் பயிற்றுவிக்க, துல்லியமான image search-ஐ இயக்க, மற்றும் பார்வை குறைபாடு உள்ள பயனர்களுக்கான accessibility அம்சங்களை செயல்படுத்த, இதுவே தேவைப்படும் செறிவான காட்சி புரிதல் ஆகும்.

பயிற்சியில் ஏற்பட்ட முன்னேற்றம் RubiCap learning signal-களை உருவாக்கும் முறையிலிருந்தே வருகிறது. செலவான, கைமுறையாக annotate செய்யப்பட்ட datasets அல்லது பாரம்பரிய supervised learning அணுகுமுறைகளின் மீது சார்ந்திருக்காமல், இந்த கட்டமைப்பு reinforcement learning stratagy-ஐ பயன்படுத்துகிறது. இது சிறிய மாதிரிகள் உருவாக்கும் candidate captions-ஐ மதிப்பிட ஒரு சக்திவாய்ந்த frontier model — குறிப்பாக Gemini 2.5 Pro —-ஐ பயன்படுத்துகிறது. evaluator பல candidate outputs-களில் உள்ள consensus points மற்றும் gaps-ஐ கண்டறிந்து, அதன் பின்னர் தெளிவான evaluation criteria-களை வடிவமைக்கிறது; இது ஒரே ஒரு "சரியான" ground truth answer-ஐ வேண்டாமலேயே சிறிய மாதிரியைச் சிறந்த output-களுக்குத் திசைநடத்துகிறது.

இது பெரும்பாலான சிறிய மாதிரிகள் பயிற்றுவிக்கப்படும் முறையிலிருந்து ஒரு முக்கிய விலகல். பாரம்பரிய அணுகுமுறைகளில் பெரும்பாலும் பெரிய மாதிரிகளிலிருந்து distillation அல்லது labeled datasets-ல் fine-tuning இடம்பெறும். அதற்கு பதிலாக, RubiCap iterative feedback loops வழியாக caption quality பற்றி யோசிக்க மாதிரியைப் பயிற்றுவிக்கிறது; இதன் மூலம் அது பரந்த அளவில் generalize ஆகும் evaluation instincts-ஐ வளர்த்துக் கொள்கிறது.

மூன்று மாதிரிகள், ஒரு கட்டமைப்பு

Apple RubiCap என்ற பெயரில் மூன்று variants-ஐ வெளியிட்டுள்ளது: 2 பில்லியன் அளவுருக்கள் கொண்ட மாதிரி (RubiCap-2B), 3 பில்லியன் அளவுருக்கள் கொண்ட மாதிரி (RubiCap-3B), மற்றும் முதன்மை 7 பில்லியன் அளவுருக்கள் கொண்ட RubiCap-7B. அனைத்து benchmark evaluations-இலும், 7B variant மிக உயர்ந்த win rates-ஐ பெற்றது, 72B parameters வரை கொண்ட மாதிரிகளை மிஞ்சியது. 3B பதிப்பு சில குறிப்பிட்ட benchmarks-இல் பெரிய போட்டியாளர்களை மிஞ்சி, நடுத்தர நிலை variant கூட தனது வகையை விட மிக அதிக செயல்திறன் கொண்டது என்பதை நிரூபித்தது.

முக்கியமாக, சோதனை முழுவதும் மாதிரிகள் குறைந்த hallucination rates-ஐ பராமரித்தன — image captioning அமைப்புகளுக்கு தொடர்ச்சியாக ஏற்படும் ஒரு தோல்வி நிலை, இதில் காட்சியில் இல்லாத விவரங்களை உருவாக்கிவிடுகின்றன. Dense captioning-க்கு பல image regions-ஐ ஒரே நேரத்தில் கவனிக்க வேண்டும், இது hallucination அபாயத்தை அதிகரிக்கிறது; அந்த பரிமாணத்தில் RubiCap-இன் செயல்திறன் குறிப்பாக குறிப்பிடத்தக்கது.

வடிவமைப்பின் முக்கிய இலக்காக திறன்

இந்த ஆராய்ச்சி AI மேம்பாட்டில் பரந்த ஒரு போக்கை வலியுறுத்துகிறது: brute-force scaling-இலிருந்து architectural மற்றும் methodological sophistication-க்கு நகர்வு. பல ஆண்டுகளாக, சிறந்த AI-க்கான முக்கிய செய்முறை அதிக data-வில் பெரிய மாதிரிகளைப் பயிற்றுவிப்பதுதான். RubiCap காட்டுவது என்னவெனில், training methodology — மாதிரி எவ்வளவு பெரியது என்பதல்ல, அது எப்படி கற்றுக்கொள்கிறது என்பதே — தீர்மானிக்கும் மாறிலியாக இருக்க முடியும்.

Apple-க்கு, இது அதன் hardware மற்றும் privacy constraints-உடன் நேரடியாக பொருந்துகிறது. நவீன neural processing hardware-ஐ பயன்படுத்தி 7B model-ஐ iPhone அல்லது Mac-இல் locally இயக்குவது சாத்தியம். 72B model-ஐ இயக்குவது சாத்தியமில்லை. on-device-sized மாதிரியிலிருந்து உயர்தர captioning முடிவுகளைப் பெறும் திறன், sensitive images-ஐ cloud servers வழியாக அனுப்பாமல், மேலும் செறிவான accessibility அம்சங்கள், புத்திசாலியான photo organization, மற்றும் அதிக திறன் கொண்ட visual search ஆகியவற்றுக்கான கதவுகளைத் திறக்கிறது.

இந்த ஆராய்ச்சி broader AI industry-க்கும் விளைவுகளைத் தருகிறது; frontier models-ஐப் பயிற்றுவித்து deploy செய்வதற்கான செலவு குறிப்பிடத்தக்க தடையாகி உள்ளது. RubiCap-இன் reinforcement learning அணுகுமுறை மற்ற modalities-க்கும் பொதுவாகப் பயன்படுத்தப்படுமானால், அது நிறுவனங்கள் model development-ஐப் பற்றிக் கருதும் விதத்தை மாற்றக்கூடும் — raw parameter count-ஐ விட training efficiency-க்கு முன்னுரிமை அளித்து.

எதிர்கால நோக்கு

RubiCap-க்கு product deployment timeline-ஐ Apple அறிவிக்கவில்லை. இது ஒரு research paper, product launch அல்ல. ஆனால் பின்னர் operating system features-இல் தோன்றிய AI research-ஐ வெளியிடும் நிறுவனத்தின் வரலாறு — on-device speech recognition முதல் neural machine translation வரை — இந்த நுட்பங்கள் நிஜ உலக deployment-ஐ கருத்தில் கொண்டு உருவாக்கப்படுகின்றன என்பதை சுட்டுகிறது.

Apple Intelligence iOS, macOS, மற்றும் iPadOS-முழுவதும் விரிவடையும் நிலையில், dense image captioning போன்ற திறன்கள் accessibility tools-ஐ மேம்படுத்த, contextual photo search-ஐ இயக்க, மற்றும் AI-generated image descriptions-இன் துல்லியத்தை உயர்த்த உதவலாம். research demonstration மற்றும் consumer feature ஆகியவற்றுக்கிடையிலான இடைவெளி, வரலாற்றாக Apple-இல் இரண்டு முதல் மூன்று ஆண்டுகள் எடுத்த பயணம், நிறுவனம் applied AI முயற்சிகளை ஆழப்படுத்துவதால் வேகமாக குறையக்கூடும்.

இந்தக் கட்டுரை 9to5Mac-இன் செய்திப்பரப்பை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.