AI సామర్థ్యానికి మరో మార్గం

AI మోడళ్లు పెరుగుతూనే ఉన్నప్పుడు, పరిశ్రమకు పరిచితమైన ఒక తారతమ్యం ఎదురైంది: పెద్ద సిస్టమ్‌లు విస్తృత సామర్థ్యాలను అందిస్తాయి, కానీ అవి ఎక్కువ శక్తి, ఎక్కువ మెమరీ, మరియు నడవడానికి ఎక్కువ సమయం కోరుకుంటాయి. ఈ ఖర్చులను నియంత్రించడానికి చేసిన అనేక ప్రయత్నాలు మోడళ్లను చిన్నవిగా చేయడం లేదా సంఖ్యాత్మక ఖచ్చితత్వాన్ని తగ్గించడం మీద దృష్టి పెట్టాయి. ఇప్పుడు మరో పరిశోధనా దారి, పెద్ద మోడళ్లలో ఇప్పటికే విపరీతంగా ఉన్న ఒక లక్షణం చుట్టూ హార్డ్‌వేర్‌ను తిరిగి రూపకల్పన చేయడం మరింత మంచి పరిష్కారం కావచ్చని వాదిస్తోంది: సున్నాలు.

ఆ లక్షణాన్ని sparsity అంటారు. అనేక neural networkలలో, weightలు మరియు activationలలో పెద్ద సంఖ్యలో విలువలు పూర్తిగా సున్నా లేదా సున్నాకు అంత దగ్గరగా ఉంటాయి కాబట్టి, అర్థవంతమైన ఖచ్చితత్వ నష్టంలేకుండా వాటిని సున్నాగా పరిగణించవచ్చు. సిద్ధాంతపరంగా, ఆ దాదాపు ఖాళీ ప్రాంతాలు విపరీతమైన అవకాశాన్ని సూచిస్తాయి. తక్కువ లేదా ఏమీ దోహదం చేయని విలువలను multiply చేసి add చేయడంలో శక్తిని ఖర్చు చేయడం బదులు, ఒక సిస్టమ్ వాటిని దాటవేయవచ్చు. సున్నాల పొడవైన వరుసలను నిల్వ చేయడం బదులు, నిజంగా ముఖ్యమైన nonzero భాగాలపై దృష్టి పెట్టవచ్చు.

సమస్య ఏమిటంటే, ప్రధానప్రవాహ కంప్యూటింగ్ హార్డ్‌వేర్ ఈ నిర్మాణాన్ని సహజంగా ఉపయోగించదు. CPUs మరియు GPUs dense numerical work‌లో బాగా పని చేస్తాయి, అక్కడ matrixలో ప్రతి స్థానమూ ముఖ్యమైనదిగా భావిస్తారు. Sparse computation కష్టం, ఎందుకంటే ఏది దాటవేయాలి, అవసరమైన విలువలను సమర్థవంతంగా ఎలా తీసుకురావాలి, మరియు irregular dataని నిర్వహించడంలో overhead ఎంత పెరగకుండా చూసుకోవాలి అనే విషయాలు యంత్రానికి తెలుసుండాలి.

పూర్తి stack మారాల్సిందే అని పరిశోధకులు ఎందుకు భావిస్తున్నారు

స్టాన్‌ఫర్డ్ ఇంజినీర్లు, sparsityని సీరియస్‌గా తీసుకోవాలంటే hardware, low-level firmware, మరియు software సహా మొత్తం stackలో redesign అవసరమని అంటున్నారు. వారి పరిశోధనా బృందం sparse మరియు సాంప్రదాయ workloads రెండింటినీ సమర్థవంతంగా నిర్వహించగల chipను అభివృద్ధి చేసినట్టు చెబుతోంది, dense-computing assumptions‌పై అడ్డంగా జతచేసిన ఒక awkward special caseలా కాకుండా.

బృందం ప్రకారం, ఫలితం గణనీయంగా ఉంది. వారు పరిశీలించిన workloads అంతటా, ఆ chip సగటున ఒక CPU శక్తి వినియోగంలో 1/70 వంతు మాత్రమే ఉపయోగించింది మరియు లెక్కలను సగటున దాదాపు ఎనిమిది రెట్లు వేగంగా పూర్తి చేసింది. ఈ సంఖ్యలు workloadపై ఆధారపడి మారాయి, కానీ ప్రధాన వాదన ఏమిటంటే sparse-native design, అధిక సామర్థ్య మోడళ్లను వదలకుండా పరిశ్రమకు పెద్ద లాభాలు ఇవ్వగలదని.

ఈ ఫలితం స్కేల్‌లో కూడా నిలబడితే, అది అకడమిక్ benchmarkingను మించి ప్రభావం చూపుతుంది. AI భవిష్యత్తు algorithmic progressకే కాకుండా power availability, cooling, carbon footprint, మరియు increasingly large inference systems నడపడానికి అయ్యే ఖర్చుతో కూడా మరింత పరిమితమవుతోంది. తక్కువ-శక్తి computationకు నమ్మదగిన ఏ దారైనా వ్యూహాత్మకంగా ముఖ్యమైనది.

చిన్న మోడళ్ల కంటే sparsity ఏమి ఇస్తుంది

Sparsity ఆకర్షణ ఏమిటంటే, అది మోడల్ పరిమాణం లేదా performanceను త్యాగం చేయాల్సిన అవసరం లేకపోవచ్చు. చిన్న మోడళ్లు మరియు lower-precision arithmetic ఖర్చులను తగ్గించగలవు, కానీ అవి తరచుగా సామర్థ్యాన్ని కూడా పరిమితం చేస్తాయి. Sparsity మరో ఎంపికను సూచిస్తోంది: చాలా పెద్ద మోడళ్లను కొనసాగించండి, కానీ అత్యల్పంగా దోహదపడే భాగాలపై compute వృథా చేయకుండా ఉండండి.

ప్రముఖ కంపెనీలు భారీ సిస్టమ్‌లను విడుదల చేస్తూనే ఉన్న నేపథ్యంలో ఈ ఆలోచన మరింత ప్రాసంగికంగా మారింది. Meta యొక్క తాజా Llama release 2 trillion parameters‌కు చేరిందని వ్యాసం చెబుతోంది, scale శక్తి డిమాండ్‌ను ఎంత వేగంగా పెంచుతుందో ఇది చూపిస్తుంది. ఆ parameters లేదా వాటి activations‌లో పెద్ద భాగం వాడకంలో దాదాపు అప్రాముఖ్యంగా ఉంటే, వాటిని తెలివిగా చూసే హార్డ్‌వేర్ scale నుంచి వెనక్కి తగ్గకుండా efficiencyని తెరవగలదు.

ప్రయోగంలో, లాభాలు ఇవి కావచ్చు:

  • మోడల్ training లేదా inference కోసం తక్కువ శక్తి వినియోగం
  • Sparse workloads‌కు తక్కువ runtime
  • సున్నాల పెద్ద బ్లాకులను నిల్వ చేయకపోవడం వల్ల తక్కువ memory burden
  • పెద్ద స్థాయి AI deployment‌కు తక్కువ carbon footprint

ఇవి చిన్న మెరుగుదలలు కావు. ఇవి ఆధునిక AI యొక్క ఆర్థికశాస్త్రం మరియు పర్యావరణ స్థిరత్వానికి నేరుగా సంబంధించినవి.

Sparse computingను వాస్తవంగా మార్చే సవాలు

Sparsity ఎన్నేళ్లుగానో భావనాత్మకంగా ఆకర్షణీయంగా ఉన్నా, దాన్ని ఉపయోగించడం కష్టం. Dense hardware క్రమబద్ధతపై ఆధారపడుతుంది. Sparse data స్వభావతః అసంఘటితమైనది. అంటే డిజైనర్లు indexing, routing, scheduling, మరియు memory access వంటి సమస్యలను పరిష్కరించాలి; చాలా విలువలు లేకపోవడం వల్ల ఇవి మరింత క్లిష్టమవుతాయి.

అందుకే Stanford బృందం stack-wide designని ముఖ్యంగా చూపిస్తోంది. firmware మరియు software ఇంకా dense execution patternsను ఊహిస్తే, ఒక్క specialized accelerator సరిపోదు. టూల్స్ sparse representationsను అర్థం చేసుకోవాలి, hardware వాటిని సమర్థవంతంగా ప్రాసెస్ చేయాలి, మరియు మొత్తం system “zerosను దాటవేయండి”ను “zeros ఎక్కడున్నాయో తెలుసుకోవడంలో సమయం వృథా చేయండి”గా మార్చివేయకూడదు.

ఈ systems perspectiveనే ఈ పనిని ప్రాముఖ్యమైనదిగా చేస్తోంది. ఇది sparsityని ఒక algorithmic trickగా చూపడం లేదు. AI workloadsను machinesపై ఎలా map చేయాలో అనే architectural rethinkగా దీనిని చూపిస్తోంది.

విస్తృత AI నిర్మాణానికి ఇది ఎందుకు ముఖ్యం

పరిశ్రమలో compute పట్ల తక్షణ ఆకలి తగ్గుతున్న సూచనలు లేవు. కొందరు నిపుణులు సాధారణ scaling తగ్గుతున్న లాభాల వద్ద నిలిచిపోతుందని వాదించినప్పటికీ, కంపెనీలు ఇంకా పెద్ద మోడళ్లను మరియు మరింత విస్తృత deploymentను కొనసాగిస్తున్నాయి. దాంతో శక్తి సామర్థ్యం రెండో స్థాయి engineering concern కాకుండా first-order problem అవుతుంది.

ల్యాబ్‌ను మించి gains నిజంగా నిలిచితే, sparse-native hardware అత్యంత ముఖ్యమైన పరిష్కారాలలో ఒకటిగా మారవచ్చు. ఇది advanced మోడళ్లను సాధ్యపడేలా ఉంచుతూ power draw మరియు runtimeను తగ్గించే మార్గాన్ని ఇస్తుంది. దాంతో ఇవి ప్రభావితమవుతాయి:

  • డేటా సెంటర్ రూపకల్పన మరియు ఆపరేటింగ్ ఖర్చులు
  • పెద్ద మోడళ్లను స్థాయిలో సేవలందించే సాధ్యత
  • కఠినమైన power limits ఉన్న edge లేదా embedded AI systems
  • AI వృద్ధిని చుట్టుముట్టిన వాతావరణ మరియు మౌలిక సదుపాయాల చర్చలు

ముఖ్యంగా, భవిష్యత్ మోడళ్లు ఎలా నిర్మించబడతాయో కూడా ఇది ప్రభావితం చేయవచ్చు. hardware sparsityని నేరుగా ప్రోత్సహించడం ప్రారంభించిన తర్వాత, model designers architectures మరియు training methodsను మరింత sparsity బయటపడేలా ఆప్టిమైజ్ చేయవచ్చు.

వాస్తవికమైన కానీ ప్రభావవంతమైన పురోగతి

బలమైన పరిశోధన ఫలితాలు మరియు ప్రధానప్రవాహ స్వీకరణ మధ్య ఇంకా దూరం ఉంది. ప్రస్తుత AI infrastructure dense computation కోసం నిర్మించిన GPUs మరియు software ecosystemsలో భారీగా పెట్టుబడి పెట్టింది. కొత్త hardware పనిచేస్తుందని మాత్రమే కాకుండా, అది integrate అవుతుందని, scale అవుతుందని, మరియు switching costsను సమర్థించగలదని కూడా నిరూపించాలి.

అయినప్పటికీ, ఈ పరిశోధన నుంచి వచ్చే వాదనను పట్టించుకోకుండా ఉండటం కష్టం. పెద్ద AI మోడళ్లలో సంప్రదాయ విధానంలో ప్రాసెస్ చేయాల్సిన అవసరం లేని విలువలు ఉంటే, ప్రస్తుతం ఉన్న hardware stack నిజమైన efficiencyని వదిలేసినట్టే. Sparse computing ఆ inefficiencyని ఒక design targetగా మారుస్తుంది.

AI పురోగతి benchmark scoresతో పాటు energy limitsకూ వ్యతిరేకంగా కొలవబడుతున్న ఈ సమయంలో, ఇది రంగంలోని అత్యంత ముఖ్యమైన engineering targetsలో ఒకటిగా మారవచ్చు. శక్తివంతమైన AI భవిష్యత్తు పెద్ద మోడళ్లను తొలగించడం కంటే, అవి ఉపయోగించని వాటిని చివరకు compute చేయడం ఆపడం నేర్చుకోవడంపై ఎక్కువగా ఆధారపడవచ్చు.

ఈ వ్యాసం IEEE Spectrum నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on spectrum.ieee.org