दिसायला साध्या वाटणाऱ्या संगणकीय दृष्टी समस्येला आता व्यापक उत्तर मिळत आहे

आधुनिक AI प्रणाली प्रतिमांचे वर्णन करू शकतात, वस्तू ओळखू शकतात, आणि मजकूर काढू शकतात. पण मोजणी हे अजूनही सामान्यीकरण करणे कठीण असलेल्या दृश्य कार्यांपैकी एक आहे. गर्दीतले लोक बरोबर मोजणारे मॉडेल सूक्ष्मदर्शकाखालील पेशी किंवा उपग्रह प्रतिमांमधील वाहनांची मोजणी करण्यात अपयशी ठरू शकते. हा फरक महत्त्वाचा आहे, कारण मोजणी काही खेळण्यासारखी समस्या नाही. ती वैद्यकीय प्रतिमांकन, शेती, वाहतूक विश्लेषण, आणि अचूकता महत्त्वाची असलेल्या वैज्ञानिक कामात दिसते.

Count Anything नावाची नवी संशोधन प्रणाली ही मर्यादा दूर करण्यासाठी तयार केली आहे, जेणेकरून वस्तू मोजणीला एक सर्वसाधारण उपयोगी क्षमता बनवता येईल. स्रोत सामग्रीनुसार, हे मॉडेल केवळ टेक्स्ट प्रॉम्प्ट वापरून अतिशय वेगवेगळ्या प्रकारच्या प्रतिमांमधील वस्तू मोजू आणि लेबल करू शकते. डोके, गाड्या, पेशी, किंवा जिवाणूंच्या वसाहती मोजता येतील अशी एकच प्रणाली तयार करणे हे उद्दिष्ट आहे; प्रत्येक क्षेत्रासाठी वेगळे विशेष मॉडेल नको.

यामुळेच हे काम लक्षवेधी ठरते. आव्हान फक्त detection चे नाही. अत्यंत भिन्न प्रतिमा-प्रमाण, वस्तूंचे आकार, आणि दृश्य घनता हाताळताना डबल-काउंटिंग आणि संदिग्धता टाळणे ही खरी अडचण आहे; यामुळेच मोजणी प्रणाली अनेकदा मोडतात.

दोन मोजणी पद्धती, एका प्रणालीत एकत्र

Count Anything ची मुख्य रचना एक hybrid आहे. स्रोतानुसार, हे मॉडेल दोन पूरक पद्धती एकत्र करते. एक region-based आहे आणि मोठ्या, स्पष्ट दिसणाऱ्या वस्तूंसाठी उत्तम काम करते, त्यांच्याभोवती bounding boxes काढते. दुसरी pixel-based आहे आणि लहान किंवा दाट लक्ष्यांसाठी तयार केली आहे, box ऐवजी points ठेवते. ही प्रणाली दोन्ही output एकत्र करून अंतिम मोजलेल्या वस्तूंचा संच तयार करते.

हा दृष्टिकोन दृश्य AI मधील एक सामान्य अपयश दूर करतो. मोठ्या वस्तू आणि एकमेकांवर दाटपणे जमा झालेल्या लहान वस्तूंसाठी अनेकदा वेगळी हाताळणी लागते. गर्दी मोजणारे साधन दाट डोके मोजण्यात चांगले असू शकते, पण मोठ्या एकाकी वस्तूंमध्ये खराब. box-आधारित detector सूक्ष्म, दाट लक्षित वस्तू चुकवू शकतो. काम दोन भागांत विभागून आणि नंतर output reconcile करून, संशोधक स्पेक्ट्रमच्या दोन्ही टोकांना कव्हर करण्याचा प्रयत्न करत आहेत.

Count Anything framework चा architecture diagram, ज्यात text-conditioned encoder, region-level sparse counter, pixel-level dense counter, आणि दोन्ही counting paths एकत्र करणारे complementary count fusion दाखवले आहे.
Count Anything एक region-based आणि एक pixel-based counter एकत्र करून, त्यांचे निकाल अंतिम point set मध्ये विलीन करते. | Image: Lei et al.

reconciliation टप्पा देखील दोन-मॉडेल सेटअपइतकाच महत्त्वाचा आहे. स्रोतानुसार, जेव्हा दोन्ही पद्धती एकाच लक्ष्यावर बोट ठेवतात, तेव्हा एक साधा confidence rule कोणती prediction ठेवायची ते ठरवतो, त्यामुळे डबल-काउंटिंग टाळले जाते. ही प्रत्यक्ष समस्येवरची प्रत्यक्ष उपाययोजना आहे: दोन स्वतंत्र counters ने एकच वस्तू पाहिली तर प्रणालीने ती एकाच उत्तरात एकत्र करण्याची गरज असते.

Meta च्या SAM3 वर उभारलेले

संशोधकांनी संपूर्ण मॉडेल शून्यातून बांधले नाही. ही प्रणाली Meta च्या pretrained SAM3 ला आधार मानते आणि प्रतिमा व मजकूर एकत्र प्रक्रिया करण्याची त्याची क्षमता वापरते. संपूर्ण नेटवर्क पुन्हा प्रशिक्षण देण्याऐवजी, टीमने मोजणीच्या कामासाठी लहान adapter घटक जोडले.

हा निर्णय AI विकासातील व्यापक प्रवाहाशी सुसंगत आहे. प्रत्येक नवीन वापरासाठी सर्वसाधारण multimodal मॉडेल्स नव्याने तयार करण्याऐवजी, संशोधक increasingly सक्षम base model पासून सुरुवात करून task-specific layers किंवा modules जोडत आहेत. याचे फायदे स्पष्ट आहेत: कमी प्रशिक्षण खर्च, जलद प्रयोग, आणि वेगवेगळ्या क्षेत्रांमध्ये ज्ञान हस्तांतरित होण्याची जास्त शक्यता.

इथे हस्तांतरणाचे लक्ष्य असामान्यपणे व्यापक आहे. हे मॉडेल उपग्रह प्रतिमा, वैद्यकीय स्कॅन, प्रयोगशाळा फोटो, आणि रोजच्या प्रतिमांमध्ये काम करण्यासाठी बनवले गेले आहे. जर हा दृष्टिकोन प्रमाणात यशस्वी झाला, तर मोजणीला स्वतंत्र vertical tasks ची रांग न मानता सामान्य visual reasoning function म्हणून पाहता येईल, असे तो सूचित करेल.

सानुकूल डेटासेट आणि मजबूत बेंचमार्क निकाल

स्रोतानुसार, Count Anything ला CLOC नावाच्या सानुकूल डेटासेटवर प्रशिक्षित करण्यात आले आणि चाचण्यांमध्ये त्याने अनेक स्पर्धक प्रणालींपेक्षा चांगली कामगिरी केली. ही कामगिरीची दावी महत्त्वाची आहे, कारण सर्वसाधारणता अचूकतेच्या किंमतीवर आली, तर त्याचा फारसा उपयोग नाही. मोजणी प्रणाली तिथेच टिकतात, जिथे दृश्ये गोंधळलेली, गर्दीची, किंवा domain-shifted असली तरी अचूकता टिकवता येते.

General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, आणि Microbiology अशा सहा visual domains चे उदाहरण दाखवणारा image grid.
CLOC डेटासेट दैनंदिन फोटो आणि उपग्रह प्रतिमांपासून ते मायक्रोस्कोपी आणि हिस्टोपॅथॉलॉजीपर्यंत सहा अतिशय वेगवेगळ्या इमेज डोमेनना एकत्र आणते. | Image: Lei et al.

त्याच वेळी, अहवाल निकालांचा अतिरेक करत नाही. मॉडेल अजूनही संदिग्ध शब्दांमध्ये आणि अतिशय दाट दृश्यांमध्ये अडचणीत येते. या सावध नोंदी महत्त्वाच्या आहेत, कारण त्या अद्याप न सुटलेल्या भागाकडे लक्ष वेधतात. भाषा अस्पष्ट असेल किंवा दृश्य खूप गोंधळलेले असेल, तर नेमके काय मोजायचे यावर माणसेही एकमताने सांगू शकत नाहीत. “वाहने मोजा” असा प्रॉम्प्ट सोपा वाटतो, जोपर्यंत त्यात toy cars, आंशिकपणे लपलेली वस्तू, किंवा दूरची अस्पष्ट रूपे येत नाहीत.

दाट प्रतिमाही सततचे आव्हान आहेत. वस्तू खूप overlap होत असतील किंवा जवळजवळ वेगळ्या ओळखू न येण्याइतपत झाल्या असतील, तर मोजणी standard detection पेक्षा statistical estimation सारखी होते. एका प्रकारची density चांगली हाताळणारी प्रणाली दुसऱ्या प्रकारात अडखळू शकते. म्हणूनच hybrid रचना लक्षवेधी आहे, जरी ती edge cases पूर्णपणे सोडवत नसली तरी.

सामान्य मोजणी का महत्त्वाची आहे

Count Anything किंवा अशा प्रणाली परिपक्व झाल्या, तर त्याचा परिणाम benchmark leaderboards च्या पलीकडे जाऊ शकतो. वैद्यकशास्त्रात, विश्वसनीय मोजणी image-based analysis मध्ये मदत करू शकते, जिथे डॉक्टरांना पेशी, जखमा, किंवा इतर दिसणाऱ्या लक्ष्यांचे अंदाज लागतात. शेतीत, झाडे किंवा पिकांच्या वैशिष्ट्यांची मोजणी उत्पन्नाचा अंदाज लावण्यास मदत करू शकते. वाहतूक आणि शहर नियोजनात, गाड्या किंवा पादचाऱ्यांची मोजणी ट्रॅफिक व्यवस्थापनासाठी उपयुक्त ठरू शकते. विज्ञानात, दाट प्रतिमांमधील लहान रचनांची मोजणी ही नियमित पण कष्टदायक गरज असते.

प्रॉम्प्ट-आधारित प्रणालीचे आकर्षण म्हणजे ती वापरकर्त्याचा हेतू आणि मशीन आउटपुट यांच्यातील अडथळा कमी करते. एका अरुंद, एका वर्गासाठी बनवलेल्या साधनाऐवजी, वापरकर्ता भाषेत वस्तू निर्दिष्ट करू शकतो आणि काय समाविष्ट केले गेले आहे ते दाखवणारी दृश्य चिन्हे मिळवू शकतो. अशी explainability उपयुक्त आहे, कारण प्रणालीने योग्य गोष्टी मोजल्या का, हे वापरकर्ता तपासू शकतो; फक्त एक संभाव्य एकूण संख्या मिळून थांबत नाही.

हे संशोधन मोजणीतील कठीण भाग पूर्णपणे दूर करत नाही, पण त्यांना नव्याने मांडते. मोजणीला स्वतंत्र niches च्या संचासारखे न पाहता, ते तिला domain-specific फरकांसह एक सामायिक multimodal समस्या मानते. हे अधिक महत्त्वाकांक्षी लक्ष्य आहे, आणि स्रोतानुसार प्रारंभिक निकाल ते जवळून पाहण्याइतके मजबूत आहेत.

हा लेख The Decoder च्या वार्तांकनावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com