సమర్థవంతమైన AIలో కొత్త బెంచ్‌మార్క్

విస్కాన్సిన్-మాడిసన్ విశ్వవిద్యాలయానికి చెందిన సహకారులతో కలిసి పనిచేసిన ఆపిల్ పరిశోధకులు RubiCap అనే ట్రైనింగ్ ఫ్రేమ్‌వర్క్‌ను ఆవిష్కరించారు, ఇది కృత్రిమ మేధస్సులో అత్యంత గట్టిగా పట్టుబడిన అంచనాల్లో ఒకదానిని సవాలు చేస్తుంది: పెద్ద మోడళ్లు ఎప్పుడూ మెరుగైన ఫలితాలను ఇస్తాయనే భావన. image captioning బెంచ్‌మార్క్‌లలో, కేవలం 7 బిలియన్ పారామీటర్లు ఉన్న RubiCap-ఆధారిత మోడళ్లు, తమ పరిమాణానికి పది రెట్లు పెద్ద పోటీ వ్యవస్థలను నిరంతరం మించాయి — కొన్ని సందర్భాల్లో 72 బిలియన్ పారామీటర్‌ల మోడళ్లను కూడా.

దీని ప్రభావాలు ఒక్క బెంచ్‌మార్క్‌కే పరిమితం కావు. చిన్న కానీ మరింత సామర్థ్యవంతమైన మోడళ్లు అంటే తక్కువ compute ఖర్చులు, వేగవంతమైన inference, తగ్గిన శక్తి వినియోగం, మరియు దూరంలోని data centers కంటే device‌లోనే శక్తివంతమైన AI ఫీచర్లను నడిపే అవకాశం. Apple, తన Apple Intelligence వ్యూహంలో పెద్ద భాగాన్ని private, on-device processing‌పై ఆధారపెట్టినందున, compact architectures నుండి గరిష్ట పనితీరును తీసుకోవడంలో స్పష్టమైన వ్యూహాత్మక ఆసక్తి కలిగి ఉంది.

RubiCap నిజంగా ఏమి చేస్తుంది

చాలా image captioning మోడళ్లు ఒక దృశ్యానికి ఒకే సమగ్ర వివరణను సృష్టిస్తాయి. RubiCap పరిశోధకులు dense captioning అని పిలిచే దానిని లక్ష్యంగా చేసుకుంటుంది — ఒకే చిత్రంలోని అనేక అంశాలకు విపులమైన, ప్రాంత-నిర్దిష్ట వివరణలను తయారు చేయడం. ఇది మరింత సామర్థ్యవంతమైన vision-language మోడళ్లను ట్రెయిన్ చేయడానికి, ఖచ్చితమైన image search‌ను శక్తివంతం చేయడానికి, మరియు దృష్టి లోపం ఉన్న వినియోగదారుల కోసం accessibility ఫీచర్లను అందించడానికి అవసరమైన సమృద్ధమైన దృశ్య అవగాహన.

ఈ ట్రైనింగ్ breakthrough RubiCap learning signals‌ను ఎలా ఉత్పత్తి చేస్తుందనేదానిలో ఉంది. ఖరీదైన, మాన్యువల్‌గా annotated datasets లేదా సంప్రదాయ supervised learning పద్ధతులపై ఆధారపడకుండా, ఈ ఫ్రేమ్‌వర్క్ ఒక reinforcement learning వ్యూహాన్ని ఉపయోగిస్తుంది. ఇది చిన్న మోడళ్లు ఉత్పత్తి చేసిన candidate captions‌ను మూల్యాంకనం చేయడానికి ఒక శక్తివంతమైన frontier model — ప్రత్యేకంగా Gemini 2.5 Pro — ను ఉపయోగిస్తుంది. evaluator బహుళ candidate outputs‌లో consensus points మరియు gaps‌ను గుర్తించి, తరువాత స్పష్టమైన evaluation criteria‌ను రూపొందిస్తుంది; ఇవి ఒకే "సరైన" ground truth answer అవసరం లేకుండా చిన్న మోడల్‌ను మెరుగైన outputs వైపు దారి చూపిస్తాయి.

ఇది చాలా చిన్న మోడళ్లను ఎలా ట్రెయిన్ చేస్తారో దానిలో ఒక గణనీయమైన మలుపు. సాంప్రదాయ పద్ధతుల్లో పెద్ద మోడళ్ల నుండి distillation లేదా labeled datasets‌పై fine-tuning తరచుగా ఉంటుంది. RubiCap మాత్రం iterative feedback loops ద్వారా caption quality గురించి తర్కించమని మోడల్‌కు నేర్పుతుంది, తద్వారా విస్తృతంగా generalize అయ్యే evaluation instincts‌ను అభివృద్ధి చేస్తుంది.

మూడు మోడళ్లు, ఒకే ఫ్రేమ్‌వర్క్

Apple RubiCap పేరుతో మూడు variants‌ను విడుదల చేసింది: 2 బిలియన్-పారామీటర్ మోడల్ (RubiCap-2B), 3 బిలియన్-పారామీటర్ మోడల్ (RubiCap-3B), మరియు ప్రధాన 7 బిలియన్-పారామీటర్ RubiCap-7B. అన్ని benchmark evaluations‌లో, 7B variant అత్యధిక win rates‌ను సాధించింది, 72B parameters వరకు ఉన్న మోడళ్లను మించిపోయింది. 3B version కొన్ని నిర్దిష్ట benchmarks‌లో పెద్ద ప్రత్యర్థులను మించిపోయింది, మధ్యస్థ స్థాయి variant కూడా తన బరువుకు మించిన పనితీరు చూపుతుందని నిరూపించింది.

ముఖ్యంగా, పరీక్షలంతా మోడళ్లు తక్కువ hallucination rates‌ను కొనసాగించాయి — image captioning systems‌కు నిలకడగా వచ్చే ఒక వైఫల్య రకం, ఇందులో దృశ్యంలో లేని వివరాలను సృష్టిస్తాయి. Dense captioning‌కు ఒకేసారి అనేక image regions‌పై దృష్టి పెట్టాలి, ఇది hallucination ప్రమాదాన్ని పెంచుతుంది; ఆ పరిమాణంలో RubiCap పనితీరు ప్రత్యేకంగా గమనించదగ్గది.

సమర్థత ఒక ప్రధాన డిజైన్ లక్ష్యంగా

ఈ పరిశోధన AI అభివృద్ధిలో విస్తృతమైన ధోరణిని చూపిస్తోంది: brute-force scaling నుండి architectural మరియు methodological sophistication వైపు మార్పు. సంవత్సరాలుగా, మెరుగైన AI కోసం ప్రధాన పద్ధతి కేవలం ఎక్కువ dataపై పెద్ద మోడళ్లను ట్రెయిన్ చేయడమే. RubiCap చూపించేది ఏమిటంటే, training methodology — మోడల్ ఎంత పెద్దదో కాదు, అది ఎలా నేర్చుకుంటుందో — నిర్ణయాత్మక కారకం కావచ్చు.

Apple కోసం, ఇది దాని hardware మరియు privacy constraints‌తో నేరుగా సరిపోతుంది. ఆధునిక neural processing hardware‌తో 7B model‌ను iPhone లేదా Mac‌లో locally నడపడం సాధ్యం. 72B model‌ను నడపడం సాధ్యం కాదు. on-device-sized model నుండి అత్యుత్తమ స్థాయి captioning ఫలితాలను సాధించే సామర్థ్యం, సున్నితమైన చిత్రాలను cloud servers ద్వారా పంపకుండా, మరింత సమృద్ధైన accessibility ఫీచర్లు, తెలివైన photo organization, మరియు మరింత సామర్థ్యవంతమైన visual search‌కు మార్గం తెరుస్తుంది.

ఈ పరిశోధన broader AI industryపై కూడా ప్రభావం చూపుతుంది, అక్కడ frontier models‌ను ట్రెయిన్ చేయడం మరియు deploy చేయడం ఖర్చు ఒక ముఖ్యమైన అడ్డంకిగా మారింది. RubiCap యొక్క reinforcement learning approach ఇతర modalities‌కు కూడా సాధారణీకరించబడితే, అది కంపెనీలు model development‌ను ఎలా ఆలోచిస్తాయో మార్చేయవచ్చు — raw parameter count కంటే training efficiency‌ను ప్రాధాన్యం ఇస్తూ.

ముందుకు చూస్తే

RubiCap కోసం product deployment timeline‌ను Apple ప్రకటించలేదు. ఇది ఒక research paper, product launch కాదు. కానీ operating system features‌లో తరువాత కనిపించిన AI research‌ను ప్రచురించిన కంపెనీ చరిత్ర — on-device speech recognition నుండి neural machine translation వరకు — ఈ సాంకేతికతలను వాస్తవ ప్రపంచ deployment‌ను దృష్టిలో ఉంచుకుని అభివృద్ధి చేస్తున్నట్టు సూచిస్తోంది.

Apple Intelligence iOS, macOS, మరియు iPadOS అంతటా విస్తరిస్తున్న కొద్దీ, dense image captioning వంటి సామర్థ్యాలు accessibility tools‌ను మెరుగుపరచగలవు, contextual photo search‌ను శక్తివంతం చేయగలవు, మరియు AI-generated image descriptions యొక్క ఖచ్చితత్వాన్ని పెంచగలవు. research demonstration మరియు consumer feature మధ్య ఉన్న అంతరం, చారిత్రకంగా Appleలో రెండు నుంచి మూడు సంవత్సరాల ప్రయాణం, కంపెనీ applied AI ప్రయత్నాలను మరింత లోతుగా తీసుకెళ్తున్న కొద్దీ వేగంగా తగ్గవచ్చు.

ఈ వ్యాసం 9to5Mac నివేదికల ఆధారంగా ఉంది. అసలు వ్యాసాన్ని చదవండి.