చాలా సులభంగా కనిపించే కంప్యూటర్ విజన్ సమస్యకు ఇప్పుడు విస్తృతమైన సమాధానం వస్తోంది
ఆధునిక AI వ్యవస్థలు చిత్రాలకు క్యాప్షన్లు ఇవ్వగలవు, వస్తువులను గుర్తించగలవు, మరియు వచనాన్ని వెలికితీయగలవు. కానీ లెక్కింపు ఇంకా సాధారణీకరించడానికి కష్టమైన దృశ్య పనుల్లో ఒకటిగానే ఉంది. జనసమూహంలో ఉన్న మనుషులను బాగా లెక్కించే ఒక మోడల్, మైక్రోస్కోప్ కింద ఉన్న కణాలను లేదా శాటిలైట్ చిత్రాలలోని వాహనాలను లెక్కించడంలో విఫలమవుతుంది. ఆ తేడా ముఖ్యమైనది, ఎందుకంటే లెక్కింపు ఒక ఆటబొమ్మ సమస్య కాదు. అది మెడికల్ ఇమేజింగ్, వ్యవసాయం, ట్రాఫిక్ విశ్లేషణ, మరియు ఖచ్చితత్వం కీలకమైన శాస్త్రీయ పనుల్లో కనిపిస్తుంది.
Count Anything అనే కొత్త పరిశోధనా వ్యవస్థ, వస్తువుల లెక్కింపును సాధారణ ప్రయోజన సామర్థ్యంగా మార్చడం ద్వారా ఆ పరిమితిని ఎదుర్కోవడానికి రూపొందించబడింది. మూల పదార్థం ప్రకారం, ఈ మోడల్ ఒక టెక్స్ట్ ప్రాంప్ట్ మాత్రమే ఉపయోగించి చాలా భిన్నమైన చిత్రాల్లోని వస్తువులను లెక్కించి, లేబుల్ చేయగలదు. తలలు, కార్లు, కణాలు, లేదా బ్యాక్టీరియా కాలనీలను లెక్కించమని అడిగినా పనిచేసే ఒకే వ్యవస్థను కలిగి ఉండటం దీని లక్ష్యం; ప్రతి డొమైన్కు వేరే ప్రత్యేక మోడల్ అవసరం ఉండకూడదు.
అదే ఈ పనిని గమనించదగినదిగా చేస్తుంది. సవాలు కేవలం డిటెక్షన్ కాదు. విపరీతంగా భిన్నమైన చిత్ర పరిమాణాలు, వస్తువుల పరిమాణాలు, మరియు దృశ్య సాంద్రతలను నిర్వహిస్తూ, డబుల్ కౌంటింగ్ మరియు అర్థసందిగ్ధతను తప్పించడం అసలు సమస్య; ఇవే లెక్కింపు వ్యవస్థలను తరచూ దెబ్బతీస్తాయి.
రెండు లెక్కింపు పద్ధతులు, ఒకే వ్యవస్థలో కలసి
Count Anything యొక్క ప్రధాన రూపకల్పన ఒక హైబ్రిడ్. మూలం ప్రకారం, ఈ మోడల్ రెండు పరస్పరపూరక విధానాలను కలిపింది. ఒకటి region-based, పెద్దగా స్పష్టంగా కనిపించే వస్తువుల కోసం ఉత్తమం, వాటి చుట్టూ bounding boxes వేస్తుంది. మరొకటి pixel-based, చిన్న లేదా అత్యంత సాంద్ర లక్ష్యాల కోసం, boxల బదులు points పెడుతుంది. వ్యవస్థ ఈ రెండు ఫలితాలను కలిపి చివరి counted objects సమితిని రూపొందిస్తుంది.
ఈ విధానం దృశ్య AIలో సాధారణంగా కనిపించే వైఫల్య విధానాన్ని పరిష్కరిస్తుంది. పెద్ద వస్తువులు మరియు గట్టిగా గుంపుగా ఉన్న చిన్న వస్తువులు తరచూ వేర్వేరు నిర్వహణను కోరుకుంటాయి. crowd counter ఘనమైన తల లెక్కింపులో బాగుండి, పెద్దగా విడిగా ఉన్న వస్తువుల్లో విఫలమవచ్చు. boxలకు శిక్షణ పొందిన detector, గట్టిగా ప్యాక్ అయిన సూక్ష్మ లక్ష్యాలను మిస్ చేయవచ్చు. పనిని విడగొట్టి, తర్వాత outputలను సమన్వయపరచడం ద్వారా, పరిశోధకులు స్పెక్ట్రమ్ యొక్క రెండు చివరల్నీ కవర్ చేయాలనుకుంటున్నారు.

సమన్వయ దశ కూడా రెండు-మోడల్ సెటప్ంతే ముఖ్యమైనది. మూలం ప్రకారం, రెండు పద్ధతులు ఒకే లక్ష్యాన్ని గుర్తిస్తే, ఒక సాధారణ confidence rule ఏ prediction నిలవాలో నిర్ణయిస్తుంది; దీని వల్ల డబుల్ కౌంటింగ్ జరగదు. ఇది ఒక ప్రాయోగిక సమస్యకు ప్రాయోగిక పరిష్కారం: రెండు వేర్వేరు counters ఒకే వస్తువును చూస్తే, దాన్ని ఒకే సమాధానంగా సంక్షిప్తం చేసే మార్గం వ్యవస్థకు కావాలి.
Meta యొక్క SAM3 మీద నిర్మితం
పరిశోధకులు మొత్తం మోడల్ను మొదటి నుంచి నిర్మించలేదు. ఈ వ్యవస్థ Meta యొక్క pretrained SAM3ను పునాదిగా తీసుకుని, చిత్రాలు మరియు టెక్స్ట్ను కలిసి ప్రాసెస్ చేయగల దాని సామర్థ్యాన్ని ఉపయోగిస్తుంది. మొత్తం నెట్వర్క్ను తిరిగి శిక్షణ ఇవ్వకుండా, బృందం లెక్కింపు పనికి చిన్న adapter భాగాలను జోడించింది.
ఈ ఎంపిక AI అభివృద్ధిలో ఉన్న విస్తృత ధోరణికి అనుగుణంగా ఉంది. ప్రతి కొత్త వినియోగం కోసం సాధారణ multimodal మోడళ్లను మళ్లీ నిర్మించడానికి బదులుగా, పరిశోధకులు increasingly ఒక సామర్థ్యమైన base model నుంచి ప్రారంభించి task-specific layers లేదా modules జోడిస్తున్నారు. దీనివల్ల స్పష్టమైన లాభాలు ఉన్నాయి: తక్కువ శిక్షణ వ్యయం, వేగవంతమైన ప్రయోగాలు, మరియు డొమైన్ల మధ్య జ్ఞాన బదిలీ అయ్యే అవకాశం ఎక్కువ.
ఈ సందర్భంలో బదిలీ లక్ష్యం అసాధారణంగా విస్తృతం. మోడల్ శాటిలైట్ ఇమేజరీ, మెడికల్ స్కాన్లు, ల్యాబ్ ఫోటోలు, మరియు రోజువారీ చిత్రాల్లో పనిచేయాలనే ఉద్దేశంతో ఉంది. ఈ విధానం స్థాయిలో పనిచేస్తే, లెక్కింపును వేర్వేరు vertical tasks సమూహంగా కాకుండా, సాధారణ visual reasoning functionగా చూడవచ్చని సూచిస్తుంది.
కస్టమ్ డేటాసెట్ మరియు బలమైన బెంచ్మార్క్ ఫలితాలు
మూలం ప్రకారం, Count Anythingను CLOC అనే కస్టమ్ డేటాసెట్పై శిక్షణ ఇచ్చి, పరీక్షల్లో అనేక పోటీ వ్యవస్థలను మించి ప్రదర్శించింది. సాధారణత ఖచ్చితత్వాన్ని తగ్గిస్తే అది ఉపయోగం లేనిదే కాబట్టి, ఈ పనితీరు ప్రకటన కీలకం. దృశ్యాలు గందరగోళంగా, జనసాంద్రంగా, లేదా డొమైన్ మారినప్పుడు కూడా ఖచ్చితత్వాన్ని నిలుపుకోగలిగినప్పుడే లెక్కింపు వ్యవస్థలు నిలబడతాయి.

అదే సమయంలో, నివేదిక ఫలితాన్ని అతిశయోక్తి చేయదు. మోడల్ ఇప్పటికీ సందిగ్ధ పదాలు మరియు అత్యంత సాంద్ర దృశ్యాల్లో ఇబ్బంది పడుతోంది. ఈ హెచ్చరికలు అవసరం, ఎందుకంటే ఇంకా పరిష్కారం కాని భాగాన్ని అవి చూపిస్తాయి. భాష అస్పష్టంగా ఉన్నప్పుడు లేదా దృశ్యం చాలా గందరగోళంగా ఉన్నప్పుడు, ఏమి లెక్కించాలి అన్నదానిపై మనుషులకూ భిన్నాభిప్రాయం ఉండొచ్చు. “వాహనాలను లెక్కించు” అనే ప్రాంప్ట్, toy cars, partially occluded objects, లేదా దూరంలో పూర్తిగా స్పష్టంగా కనిపించని ఆకారాలు ఎదురైనప్పుడు సులభంగా అనిపించదు.
సాంద్ర చిత్రాలు మరో నిరంతర సవాలు. వస్తువులు చాలా ఎక్కువగా ఒకదానిపై ఒకటి దొర్లితే లేదా దాదాపు గుర్తించలేనంతగా మారితే, లెక్కింపు standard detection కంటే statistical estimation లాగా మారుతుంది. ఒక రకమైన densityని బాగా handle చేసే వ్యవస్థ, మరొకదానిలో కూడా పని చేస్తుందని చెప్పలేము. అందుకే హైబ్రిడ్ డిజైన్ ప్రాముఖ్యమైనది, ఎడ్జ్ కేసులను పూర్తిగా పరిష్కరించకపోయినా.
సాధారణ లెక్కింపు ఎందుకు ముఖ్యం
Count Anything లేదా ఇలాంటి వ్యవస్థలు పరిపక్వమైతే, ప్రభావం బెంచ్మార్క్ లీడర్బోర్డ్లకంటే చాలా దూరం వెళ్తుంది. వైద్యంలో, నమ్మకమైన లెక్కింపు చిత్ర-ఆధారిత విశ్లేషణకు సహాయపడుతుంది; అక్కడ వైద్యులకు కణాలు, గాయాలు, లేదా ఇతర కనిపించే లక్ష్యాల అంచనాలు అవసరం. వ్యవసాయంలో, మొక్కలు లేదా పంట లక్షణాలను లెక్కించడం దిగుబడి అంచనాకు సహాయపడుతుంది. రవాణా మరియు నగర ప్రణాళికలో, కార్లు లేదా పాదచారులను లెక్కించడం ట్రాఫిక్ నిర్వహణకు దోహదపడుతుంది. శాస్త్రంలో, సాంద్ర చిత్రాల్లోని చిన్న నిర్మాణాలను లెక్కించడం ఒక సాధారణమైన కానీ శ్రమతో కూడిన అవసరం.
ప్రాంప్ట్-ఆధారిత వ్యవస్థ ఆకర్షణ ఏమిటంటే, అది వినియోగదారు ఉద్దేశ్యం మరియు యంత్ర అవుట్పుట్ మధ్య అడ్డంకిని తగ్గిస్తుంది. ఒకే వర్గానికి రూపొందించిన సంకుచిత సాధనాన్ని ఎంచుకోవడానికి బదులుగా, వినియోగదారు భాషలో వస్తువును పేర్కొని, ఏమి చేర్చారో చూపే దృశ్య గుర్తులతో పాటు లెక్కింపును పొందగలరు. ఈ రకమైన explainability ఉపయోగకరం, ఎందుకంటే వ్యవస్థ సరైన వాటినే లెక్కించిందా అని వినియోగదారులు తనిఖీ చేయగలరు; కేవలం ఒక సంభావ్య మొత్తం మాత్రమే కాదు.
ఈ పరిశోధన లెక్కింపులో ఉన్న కష్టమైన భాగాలను తొలగించదు, కానీ వాటిని కొత్తగా ఫ్రేమ్ చేస్తుంది. లెక్కింపును వేర్వేరు niches సమూహంగా చూడకుండా, అది domain-specific వైవిధ్యంతో కూడిన ఒక భాగస్వామ్య multimodal సమస్యగా చూస్తుంది. ఇది మరింత మహత్తరమైన లక్ష్యం, మరియు మూలం ప్రకారం, ప్రారంభ ఫలితాలు దాన్ని దగ్గరగా చూడాల్సినంత బలంగా ఉన్నాయి.
ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.
Originally published on the-decoder.com


