दिसायला साध्या वाटणाऱ्या संगणकीय दृष्टी समस्येला आता व्यापक उत्तर मिळत आहे
आधुनिक AI प्रणाली प्रतिमांचे वर्णन करू शकतात, वस्तू ओळखू शकतात, आणि मजकूर काढू शकतात. पण मोजणी हे अजूनही सामान्यीकरण करणे कठीण असलेल्या दृश्य कार्यांपैकी एक आहे. गर्दीतले लोक बरोबर मोजणारे मॉडेल सूक्ष्मदर्शकाखालील पेशी किंवा उपग्रह प्रतिमांमधील वाहनांची मोजणी करण्यात अपयशी ठरू शकते. हा फरक महत्त्वाचा आहे, कारण मोजणी काही खेळण्यासारखी समस्या नाही. ती वैद्यकीय प्रतिमांकन, शेती, वाहतूक विश्लेषण, आणि अचूकता महत्त्वाची असलेल्या वैज्ञानिक कामात दिसते.
Count Anything नावाची नवी संशोधन प्रणाली ही मर्यादा दूर करण्यासाठी तयार केली आहे, जेणेकरून वस्तू मोजणीला एक सर्वसाधारण उपयोगी क्षमता बनवता येईल. स्रोत सामग्रीनुसार, हे मॉडेल केवळ टेक्स्ट प्रॉम्प्ट वापरून अतिशय वेगवेगळ्या प्रकारच्या प्रतिमांमधील वस्तू मोजू आणि लेबल करू शकते. डोके, गाड्या, पेशी, किंवा जिवाणूंच्या वसाहती मोजता येतील अशी एकच प्रणाली तयार करणे हे उद्दिष्ट आहे; प्रत्येक क्षेत्रासाठी वेगळे विशेष मॉडेल नको.
यामुळेच हे काम लक्षवेधी ठरते. आव्हान फक्त detection चे नाही. अत्यंत भिन्न प्रतिमा-प्रमाण, वस्तूंचे आकार, आणि दृश्य घनता हाताळताना डबल-काउंटिंग आणि संदिग्धता टाळणे ही खरी अडचण आहे; यामुळेच मोजणी प्रणाली अनेकदा मोडतात.
दोन मोजणी पद्धती, एका प्रणालीत एकत्र
Count Anything ची मुख्य रचना एक hybrid आहे. स्रोतानुसार, हे मॉडेल दोन पूरक पद्धती एकत्र करते. एक region-based आहे आणि मोठ्या, स्पष्ट दिसणाऱ्या वस्तूंसाठी उत्तम काम करते, त्यांच्याभोवती bounding boxes काढते. दुसरी pixel-based आहे आणि लहान किंवा दाट लक्ष्यांसाठी तयार केली आहे, box ऐवजी points ठेवते. ही प्रणाली दोन्ही output एकत्र करून अंतिम मोजलेल्या वस्तूंचा संच तयार करते.
हा दृष्टिकोन दृश्य AI मधील एक सामान्य अपयश दूर करतो. मोठ्या वस्तू आणि एकमेकांवर दाटपणे जमा झालेल्या लहान वस्तूंसाठी अनेकदा वेगळी हाताळणी लागते. गर्दी मोजणारे साधन दाट डोके मोजण्यात चांगले असू शकते, पण मोठ्या एकाकी वस्तूंमध्ये खराब. box-आधारित detector सूक्ष्म, दाट लक्षित वस्तू चुकवू शकतो. काम दोन भागांत विभागून आणि नंतर output reconcile करून, संशोधक स्पेक्ट्रमच्या दोन्ही टोकांना कव्हर करण्याचा प्रयत्न करत आहेत.

reconciliation टप्पा देखील दोन-मॉडेल सेटअपइतकाच महत्त्वाचा आहे. स्रोतानुसार, जेव्हा दोन्ही पद्धती एकाच लक्ष्यावर बोट ठेवतात, तेव्हा एक साधा confidence rule कोणती prediction ठेवायची ते ठरवतो, त्यामुळे डबल-काउंटिंग टाळले जाते. ही प्रत्यक्ष समस्येवरची प्रत्यक्ष उपाययोजना आहे: दोन स्वतंत्र counters ने एकच वस्तू पाहिली तर प्रणालीने ती एकाच उत्तरात एकत्र करण्याची गरज असते.
Meta च्या SAM3 वर उभारलेले
संशोधकांनी संपूर्ण मॉडेल शून्यातून बांधले नाही. ही प्रणाली Meta च्या pretrained SAM3 ला आधार मानते आणि प्रतिमा व मजकूर एकत्र प्रक्रिया करण्याची त्याची क्षमता वापरते. संपूर्ण नेटवर्क पुन्हा प्रशिक्षण देण्याऐवजी, टीमने मोजणीच्या कामासाठी लहान adapter घटक जोडले.
हा निर्णय AI विकासातील व्यापक प्रवाहाशी सुसंगत आहे. प्रत्येक नवीन वापरासाठी सर्वसाधारण multimodal मॉडेल्स नव्याने तयार करण्याऐवजी, संशोधक increasingly सक्षम base model पासून सुरुवात करून task-specific layers किंवा modules जोडत आहेत. याचे फायदे स्पष्ट आहेत: कमी प्रशिक्षण खर्च, जलद प्रयोग, आणि वेगवेगळ्या क्षेत्रांमध्ये ज्ञान हस्तांतरित होण्याची जास्त शक्यता.
इथे हस्तांतरणाचे लक्ष्य असामान्यपणे व्यापक आहे. हे मॉडेल उपग्रह प्रतिमा, वैद्यकीय स्कॅन, प्रयोगशाळा फोटो, आणि रोजच्या प्रतिमांमध्ये काम करण्यासाठी बनवले गेले आहे. जर हा दृष्टिकोन प्रमाणात यशस्वी झाला, तर मोजणीला स्वतंत्र vertical tasks ची रांग न मानता सामान्य visual reasoning function म्हणून पाहता येईल, असे तो सूचित करेल.
सानुकूल डेटासेट आणि मजबूत बेंचमार्क निकाल
स्रोतानुसार, Count Anything ला CLOC नावाच्या सानुकूल डेटासेटवर प्रशिक्षित करण्यात आले आणि चाचण्यांमध्ये त्याने अनेक स्पर्धक प्रणालींपेक्षा चांगली कामगिरी केली. ही कामगिरीची दावी महत्त्वाची आहे, कारण सर्वसाधारणता अचूकतेच्या किंमतीवर आली, तर त्याचा फारसा उपयोग नाही. मोजणी प्रणाली तिथेच टिकतात, जिथे दृश्ये गोंधळलेली, गर्दीची, किंवा domain-shifted असली तरी अचूकता टिकवता येते.

त्याच वेळी, अहवाल निकालांचा अतिरेक करत नाही. मॉडेल अजूनही संदिग्ध शब्दांमध्ये आणि अतिशय दाट दृश्यांमध्ये अडचणीत येते. या सावध नोंदी महत्त्वाच्या आहेत, कारण त्या अद्याप न सुटलेल्या भागाकडे लक्ष वेधतात. भाषा अस्पष्ट असेल किंवा दृश्य खूप गोंधळलेले असेल, तर नेमके काय मोजायचे यावर माणसेही एकमताने सांगू शकत नाहीत. “वाहने मोजा” असा प्रॉम्प्ट सोपा वाटतो, जोपर्यंत त्यात toy cars, आंशिकपणे लपलेली वस्तू, किंवा दूरची अस्पष्ट रूपे येत नाहीत.
दाट प्रतिमाही सततचे आव्हान आहेत. वस्तू खूप overlap होत असतील किंवा जवळजवळ वेगळ्या ओळखू न येण्याइतपत झाल्या असतील, तर मोजणी standard detection पेक्षा statistical estimation सारखी होते. एका प्रकारची density चांगली हाताळणारी प्रणाली दुसऱ्या प्रकारात अडखळू शकते. म्हणूनच hybrid रचना लक्षवेधी आहे, जरी ती edge cases पूर्णपणे सोडवत नसली तरी.
सामान्य मोजणी का महत्त्वाची आहे
Count Anything किंवा अशा प्रणाली परिपक्व झाल्या, तर त्याचा परिणाम benchmark leaderboards च्या पलीकडे जाऊ शकतो. वैद्यकशास्त्रात, विश्वसनीय मोजणी image-based analysis मध्ये मदत करू शकते, जिथे डॉक्टरांना पेशी, जखमा, किंवा इतर दिसणाऱ्या लक्ष्यांचे अंदाज लागतात. शेतीत, झाडे किंवा पिकांच्या वैशिष्ट्यांची मोजणी उत्पन्नाचा अंदाज लावण्यास मदत करू शकते. वाहतूक आणि शहर नियोजनात, गाड्या किंवा पादचाऱ्यांची मोजणी ट्रॅफिक व्यवस्थापनासाठी उपयुक्त ठरू शकते. विज्ञानात, दाट प्रतिमांमधील लहान रचनांची मोजणी ही नियमित पण कष्टदायक गरज असते.
प्रॉम्प्ट-आधारित प्रणालीचे आकर्षण म्हणजे ती वापरकर्त्याचा हेतू आणि मशीन आउटपुट यांच्यातील अडथळा कमी करते. एका अरुंद, एका वर्गासाठी बनवलेल्या साधनाऐवजी, वापरकर्ता भाषेत वस्तू निर्दिष्ट करू शकतो आणि काय समाविष्ट केले गेले आहे ते दाखवणारी दृश्य चिन्हे मिळवू शकतो. अशी explainability उपयुक्त आहे, कारण प्रणालीने योग्य गोष्टी मोजल्या का, हे वापरकर्ता तपासू शकतो; फक्त एक संभाव्य एकूण संख्या मिळून थांबत नाही.
हे संशोधन मोजणीतील कठीण भाग पूर्णपणे दूर करत नाही, पण त्यांना नव्याने मांडते. मोजणीला स्वतंत्र niches च्या संचासारखे न पाहता, ते तिला domain-specific फरकांसह एक सामायिक multimodal समस्या मानते. हे अधिक महत्त्वाकांक्षी लक्ष्य आहे, आणि स्रोतानुसार प्रारंभिक निकाल ते जवळून पाहण्याइतके मजबूत आहेत.
हा लेख The Decoder च्या वार्तांकनावर आधारित आहे. मूळ लेख वाचा.
Originally published on the-decoder.com


