Count Anything సాధారణ AI లెక్కింపును లక్ష్యంగా పెట్టుకుంది

చాలా సులభంగా కనిపించే కంప్యూటర్ విజన్ సమస్యకు ఇప్పుడు విస్తృతమైన సమాధానం వస్తోంది

ఆధునిక AI వ్యవస్థలు చిత్రాలకు క్యాప్షన్‌లు ఇవ్వగలవు, వస్తువులను గుర్తించగలవు, మరియు వచనాన్ని వెలికితీయగలవు. కానీ లెక్కింపు ఇంకా సాధారణీకరించడానికి కష్టమైన దృశ్య పనుల్లో ఒకటిగానే ఉంది. జనసమూహంలో ఉన్న మనుషులను బాగా లెక్కించే ఒక మోడల్, మైక్రోస్కోప్ కింద ఉన్న కణాలను లేదా శాటిలైట్ చిత్రాలలోని వాహనాలను లెక్కించడంలో విఫలమవుతుంది. ఆ తేడా ముఖ్యమైనది, ఎందుకంటే లెక్కింపు ఒక ఆటబొమ్మ సమస్య కాదు. అది మెడికల్ ఇమేజింగ్, వ్యవసాయం, ట్రాఫిక్ విశ్లేషణ, మరియు ఖచ్చితత్వం కీలకమైన శాస్త్రీయ పనుల్లో కనిపిస్తుంది.

Count Anything అనే కొత్త పరిశోధనా వ్యవస్థ, వస్తువుల లెక్కింపును సాధారణ ప్రయోజన సామర్థ్యంగా మార్చడం ద్వారా ఆ పరిమితిని ఎదుర్కోవడానికి రూపొందించబడింది. మూల పదార్థం ప్రకారం, ఈ మోడల్ ఒక టెక్స్ట్ ప్రాంప్ట్ మాత్రమే ఉపయోగించి చాలా భిన్నమైన చిత్రాల్లోని వస్తువులను లెక్కించి, లేబుల్ చేయగలదు. తలలు, కార్లు, కణాలు, లేదా బ్యాక్టీరియా కాలనీలను లెక్కించమని అడిగినా పనిచేసే ఒకే వ్యవస్థను కలిగి ఉండటం దీని లక్ష్యం; ప్రతి డొమైన్‌కు వేరే ప్రత్యేక మోడల్ అవసరం ఉండకూడదు.

అదే ఈ పనిని గమనించదగినదిగా చేస్తుంది. సవాలు కేవలం డిటెక్షన్ కాదు. విపరీతంగా భిన్నమైన చిత్ర పరిమాణాలు, వస్తువుల పరిమాణాలు, మరియు దృశ్య సాంద్రతలను నిర్వహిస్తూ, డబుల్ కౌంటింగ్ మరియు అర్థసందిగ్ధతను తప్పించడం అసలు సమస్య; ఇవే లెక్కింపు వ్యవస్థలను తరచూ దెబ్బతీస్తాయి.

రెండు లెక్కింపు పద్ధతులు, ఒకే వ్యవస్థలో కలసి

Count Anything యొక్క ప్రధాన రూపకల్పన ఒక హైబ్రిడ్. మూలం ప్రకారం, ఈ మోడల్ రెండు పరస్పరపూరక విధానాలను కలిపింది. ఒకటి region-based, పెద్దగా స్పష్టంగా కనిపించే వస్తువుల కోసం ఉత్తమం, వాటి చుట్టూ bounding boxes వేస్తుంది. మరొకటి pixel-based, చిన్న లేదా అత్యంత సాంద్ర లక్ష్యాల కోసం, boxల బదులు points పెడుతుంది. వ్యవస్థ ఈ రెండు ఫలితాలను కలిపి చివరి counted objects సమితిని రూపొందిస్తుంది.

ఈ విధానం దృశ్య AIలో సాధారణంగా కనిపించే వైఫల్య విధానాన్ని పరిష్కరిస్తుంది. పెద్ద వస్తువులు మరియు గట్టిగా గుంపుగా ఉన్న చిన్న వస్తువులు తరచూ వేర్వేరు నిర్వహణను కోరుకుంటాయి. crowd counter ఘనమైన తల లెక్కింపులో బాగుండి, పెద్దగా విడిగా ఉన్న వస్తువుల్లో విఫలమవచ్చు. boxలకు శిక్షణ పొందిన detector, గట్టిగా ప్యాక్ అయిన సూక్ష్మ లక్ష్యాలను మిస్ చేయవచ్చు. పనిని విడగొట్టి, తర్వాత outputలను సమన్వయపరచడం ద్వారా, పరిశోధకులు స్పెక్ట్రమ్‌ యొక్క రెండు చివరల్నీ కవర్ చేయాలనుకుంటున్నారు.

Count Anything framework యొక్క architecture diagram, ఇందులో text-conditioned encoder, region-level sparse counter, pixel-level dense counter, మరియు రెండు counting paths‌ను కలిపే complementary count fusion చూపబడింది. — Count Anything ఒక region-based counter మరియు pixel-based counterను కలిపి, వాటి ఫలితాలను చివరి point setగా విలీనం చేస్తుంది. | Image: Lei et al.

సమన్వయ దశ కూడా రెండు-మోడల్ సెటప్‌ంతే ముఖ్యమైనది. మూలం ప్రకారం, రెండు పద్ధతులు ఒకే లక్ష్యాన్ని గుర్తిస్తే, ఒక సాధారణ confidence rule ఏ prediction నిలవాలో నిర్ణయిస్తుంది; దీని వల్ల డబుల్ కౌంటింగ్ జరగదు. ఇది ఒక ప్రాయోగిక సమస్యకు ప్రాయోగిక పరిష్కారం: రెండు వేర్వేరు counters ఒకే వస్తువును చూస్తే, దాన్ని ఒకే సమాధానంగా సంక్షిప్తం చేసే మార్గం వ్యవస్థకు కావాలి.

A Gatik autonomous truck at a PepsiCo distribution center.

Gatik PepsiCo నెట్‌వర్క్‌లో autonomous freight పాత్రను లోతుగా పెంచుతోంది

PepsiCo, Gatikతో తన పనిని multi-year deal ద్వారా విస్తరించింది; ఇది North American food and beverage logisticsలో autonomous middle-mile freightను మరింత లోతుగా తీసుకెళ్తోంది.

Read article

Meta యొక్క SAM3 మీద నిర్మితం

పరిశోధకులు మొత్తం మోడల్‌ను మొదటి నుంచి నిర్మించలేదు. ఈ వ్యవస్థ Meta యొక్క pretrained SAM3ను పునాదిగా తీసుకుని, చిత్రాలు మరియు టెక్స్ట్‌ను కలిసి ప్రాసెస్ చేయగల దాని సామర్థ్యాన్ని ఉపయోగిస్తుంది. మొత్తం నెట్‌వర్క్‌ను తిరిగి శిక్షణ ఇవ్వకుండా, బృందం లెక్కింపు పనికి చిన్న adapter భాగాలను జోడించింది.

ఈ ఎంపిక AI అభివృద్ధిలో ఉన్న విస్తృత ధోరణికి అనుగుణంగా ఉంది. ప్రతి కొత్త వినియోగం కోసం సాధారణ multimodal మోడళ్లను మళ్లీ నిర్మించడానికి బదులుగా, పరిశోధకులు increasingly ఒక సామర్థ్యమైన base model నుంచి ప్రారంభించి task-specific layers లేదా modules జోడిస్తున్నారు. దీనివల్ల స్పష్టమైన లాభాలు ఉన్నాయి: తక్కువ శిక్షణ వ్యయం, వేగవంతమైన ప్రయోగాలు, మరియు డొమైన్‌ల మధ్య జ్ఞాన బదిలీ అయ్యే అవకాశం ఎక్కువ.

ఈ సందర్భంలో బదిలీ లక్ష్యం అసాధారణంగా విస్తృతం. మోడల్ శాటిలైట్ ఇమేజరీ, మెడికల్ స్కాన్‌లు, ల్యాబ్ ఫోటోలు, మరియు రోజువారీ చిత్రాల్లో పనిచేయాలనే ఉద్దేశంతో ఉంది. ఈ విధానం స్థాయిలో పనిచేస్తే, లెక్కింపును వేర్వేరు vertical tasks సమూహంగా కాకుండా, సాధారణ visual reasoning functionగా చూడవచ్చని సూచిస్తుంది.

కస్టమ్ డేటాసెట్ మరియు బలమైన బెంచ్‌మార్క్ ఫలితాలు

మూలం ప్రకారం, Count Anythingను CLOC అనే కస్టమ్ డేటాసెట్‌పై శిక్షణ ఇచ్చి, పరీక్షల్లో అనేక పోటీ వ్యవస్థలను మించి ప్రదర్శించింది. సాధారణత ఖచ్చితత్వాన్ని తగ్గిస్తే అది ఉపయోగం లేనిదే కాబట్టి, ఈ పనితీరు ప్రకటన కీలకం. దృశ్యాలు గందరగోళంగా, జనసాంద్రంగా, లేదా డొమైన్ మారినప్పుడు కూడా ఖచ్చితత్వాన్ని నిలుపుకోగలిగినప్పుడే లెక్కింపు వ్యవస్థలు నిలబడతాయి.

General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, మరియు Microbiology అనే ఆరు visual domains ఉదాహరణలను చూపించే image grid. — CLOC డేటాసెట్, రోజువారీ ఫోటోలు మరియు శాటిలైట్ ఇమేజరీ నుంచి మైక్రోస్కోపీ మరియు హిస్టోపాథాలజీ వరకు, ఆరు చాలా భిన్నమైన చిత్ర డొమైన్‌లను కలుపుతుంది. | Image: Lei et al.

అదే సమయంలో, నివేదిక ఫలితాన్ని అతిశయోక్తి చేయదు. మోడల్ ఇప్పటికీ సందిగ్ధ పదాలు మరియు అత్యంత సాంద్ర దృశ్యాల్లో ఇబ్బంది పడుతోంది. ఈ హెచ్చరికలు అవసరం, ఎందుకంటే ఇంకా పరిష్కారం కాని భాగాన్ని అవి చూపిస్తాయి. భాష అస్పష్టంగా ఉన్నప్పుడు లేదా దృశ్యం చాలా గందరగోళంగా ఉన్నప్పుడు, ఏమి లెక్కించాలి అన్నదానిపై మనుషులకూ భిన్నాభిప్రాయం ఉండొచ్చు. “వాహనాలను లెక్కించు” అనే ప్రాంప్ట్, toy cars, partially occluded objects, లేదా దూరంలో పూర్తిగా స్పష్టంగా కనిపించని ఆకారాలు ఎదురైనప్పుడు సులభంగా అనిపించదు.

సాంద్ర చిత్రాలు మరో నిరంతర సవాలు. వస్తువులు చాలా ఎక్కువగా ఒకదానిపై ఒకటి దొర్లితే లేదా దాదాపు గుర్తించలేనంతగా మారితే, లెక్కింపు standard detection కంటే statistical estimation లాగా మారుతుంది. ఒక రకమైన densityని బాగా handle చేసే వ్యవస్థ, మరొకదానిలో కూడా పని చేస్తుందని చెప్పలేము. అందుకే హైబ్రిడ్ డిజైన్ ప్రాముఖ్యమైనది, ఎడ్జ్ కేసులను పూర్తిగా పరిష్కరించకపోయినా.

Google మరియు OpenAI చైనాతో సంబంధం ఉన్న వేర్వేరు AI దుర్వినియోగ కార్యకలాపాలను బయటపెట్టాయి

Google ఒక AI-సক্ষম మోసపు నెట్‌వర్క్‌పై దావా వేసింది, అదే సమయంలో US చర్చలు మరియు మౌలిక సదుపాయాల కథనాలను లక్ష్యంగా చేసుకున్న చైనాతో సంబంధం ఉన్న రెండు ప్రభావ క్లస్టర్లను అడ్డుకున్నామని OpenAI తెలిపింది.

Read article

సాధారణ లెక్కింపు ఎందుకు ముఖ్యం

Count Anything లేదా ఇలాంటి వ్యవస్థలు పరిపక్వమైతే, ప్రభావం బెంచ్‌మార్క్ లీడర్‌బోర్డ్లకంటే చాలా దూరం వెళ్తుంది. వైద్యంలో, నమ్మకమైన లెక్కింపు చిత్ర-ఆధారిత విశ్లేషణకు సహాయపడుతుంది; అక్కడ వైద్యులకు కణాలు, గాయాలు, లేదా ఇతర కనిపించే లక్ష్యాల అంచనాలు అవసరం. వ్యవసాయంలో, మొక్కలు లేదా పంట లక్షణాలను లెక్కించడం దిగుబడి అంచనాకు సహాయపడుతుంది. రవాణా మరియు నగర ప్రణాళికలో, కార్లు లేదా పాదచారులను లెక్కించడం ట్రాఫిక్ నిర్వహణకు దోహదపడుతుంది. శాస్త్రంలో, సాంద్ర చిత్రాల్లోని చిన్న నిర్మాణాలను లెక్కించడం ఒక సాధారణమైన కానీ శ్రమతో కూడిన అవసరం.

ప్రాంప్ట్-ఆధారిత వ్యవస్థ ఆకర్షణ ఏమిటంటే, అది వినియోగదారు ఉద్దేశ్యం మరియు యంత్ర అవుట్‌పుట్ మధ్య అడ్డంకిని తగ్గిస్తుంది. ఒకే వర్గానికి రూపొందించిన సంకుచిత సాధనాన్ని ఎంచుకోవడానికి బదులుగా, వినియోగదారు భాషలో వస్తువును పేర్కొని, ఏమి చేర్చారో చూపే దృశ్య గుర్తులతో పాటు లెక్కింపును పొందగలరు. ఈ రకమైన explainability ఉపయోగకరం, ఎందుకంటే వ్యవస్థ సరైన వాటినే లెక్కించిందా అని వినియోగదారులు తనిఖీ చేయగలరు; కేవలం ఒక సంభావ్య మొత్తం మాత్రమే కాదు.

ఈ పరిశోధన లెక్కింపులో ఉన్న కష్టమైన భాగాలను తొలగించదు, కానీ వాటిని కొత్తగా ఫ్రేమ్ చేస్తుంది. లెక్కింపును వేర్వేరు niches సమూహంగా చూడకుండా, అది domain-specific వైవిధ్యంతో కూడిన ఒక భాగస్వామ్య multimodal సమస్యగా చూస్తుంది. ఇది మరింత మహత్తరమైన లక్ష్యం, మరియు మూలం ప్రకారం, ప్రారంభ ఫలితాలు దాన్ని దగ్గరగా చూడాల్సినంత బలంగా ఉన్నాయి.

ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com

‘Count Anything’ సాధారణ AI నైపుణ్యంగా వస్తువుల లెక్కింపును మార్చాలని చూస్తోంది