మెటా మరియు అకాడెమిక్ సహకారులు స్వీయ-మెరుగుదల ఏఐని మరొక అడుగు ముందుకు తీసుకెళ్తున్నారు

మెటా, యూనివర్సిటీ ఆఫ్ బ్రిటిష్ కొలంబియా, మరియు ఇతర సంస్థల పరిశోధకులు “హైపర్‌ఏజెంట్లు” అనే కొత్త తరహా వ్యవస్థలను అభివృద్ధి చేశామని అంటున్నారు. ఇవి పనులను పరిష్కరించడంలో మాత్రమే కాదు, తాము తాము మెరుగుపరచుకోవడానికి ఉపయోగించే ప్రక్రియను మెరుగుపరచడంలో కూడా మెరుగుపడగలవు. ఈ విధానం నిలకడగా పనిచేస్తే, అది స్వీయ-మెరుగుదల ఏఐకి ఒక గణనీయ విస్తరణగా మారుతుంది, ముఖ్యంగా మునుపటి పద్ధతులు బాగా పనిచేసిన రంగాలను, ప్రత్యేకించి ప్రోగ్రామింగ్‌ను, దాటి.

The Decoder నివేదిక ప్రకారం, ఈ పని Darwin Gödel Machine, లేదా DGM, అనే ఫ్రేమ్‌వర్క్‌పై ఆధారపడింది. ఇందులో ఒక ఏజెంట్ తన స్వంత కోడ్‌కి వేరియంట్లను సృష్టించి, వాటిని పరీక్షించి, విజయవంతమైన సంచికలను ఒక ఆర్కైవ్‌లో నిల్వ చేస్తుంది; అది మరింత మెరుగుదల దశలకు సహాయపడుతుంది. ఆ ముందటి అమరికలో ప్రధాన పరిమితి ఏమిటంటే, మెరుగుదలని దిశానిర్దేశం చేసే మెకానిజం మనుషులచే స్థిరంగా నిర్ణయించబడినదిగా ఉండటం. ఏజెంట్ ఆ ఫ్రేమ్‌వర్క్‌లో ఆప్టిమైజ్ చేయగలిగింది, కానీ ఫ్రేమ్‌వర్క్‌ను itself మార్చలేకపోయింది.

హైపర్‌ఏజెంట్‌ను ప్రత్యేకంగా 만드는ది ఏమిటి

ప్రతిపాదిత పరిష్కారం రెండు ఫంక్షన్లను ఒకే ఎడిట్ చేయగల ప్రోగ్రామ్‌లో కలపడం. ఒక భాగం ప్రస్తుత పనిని నిర్వహిస్తుంది, ఉదాహరణకు ఒక శాస్త్రీయ పత్రాన్ని అంచనా వేయడం లేదా రోబోట్ కోసం రివార్డ్ ఫంక్షన్‌ను డిజైన్ చేయడం. మరొక భాగం ఏజెంట్‌ను సవరించి కొత్త వేరియంట్లను సృష్టిస్తుంది. ఈ రెండు భాగాలు ఒకే codebase‌లో ఉన్నందున, సూత్రప్రాయంగా వ్యవస్థ తన task-solving ప్రవర్తనను మాత్రమే కాకుండా, తన improvement logic‌ను కూడా తిరిగి రాయగలదు.

హైపర్‌ఏజెంట్ ఆలోచన వెనుక ఉన్న ప్రధాన వాదన ఇదే. స్థిరమైన, మనుషులచే రచించబడిన షెల్‌లో మాత్రమే మెరుగుపడటానికి బదులు, ఏజెంట్ ఆ షెల్‌ను కూడా ఆప్టిమైజ్ చేయగలదు. మూల నివేదికలో చెప్పినట్లుగా, అది పనులలో మెరుగుపడటంతో పాటు “మొదటిసారి ఎలా మెరుగుపడాలో తెలుసుకోవడంలో” కూడా మెరుగుపడుతుంది.

స్వీయ-మెరుగుదల చాలా కాలంగా ఒక పరిమితిని ఎదుర్కొంటోంది కాబట్టి ఇది ముఖ్యమైనది. ఒక వ్యవస్థ ఒక రంగంలో చాలా సామర్థ్యంతో ఉండవచ్చు, అయినప్పటికీ అది స్వయంగా అభివృద్ధి చెందని చేతితో నిర్మించిన మెకానిజాలపై ఆధారపడుతూనే ఉంటుంది. హైపర్‌ఏజెంట్లు ఆ bottleneck‌ను తొలగించడానికి meta-level‌ను కూడా editable‌గా చేయాలనే ప్రయత్నం.

మునుపటి స్వీయ-మెరుగుదల ఎందుకు బాగా సాధారణీకరించబడలేదు

ఇచ్చిన source text ప్రకారం, అసలు Darwin Gödel Machine coding tasks‌లో మంచి అవకాశాన్ని చూపింది; ఎందుకంటే మెరుగైన ప్రోగ్రామర్‌గా ఉండటం మరియు మెరుగైన self-modifications రాయడం మధ్య సహజ సంబంధం ఉంది. coding‌లో, task skill మరియు తన implementation‌ను మార్చే skill బలంగా అనుసంధానమై ఉంటాయి.

coding వెలుపల ఆ లింక్ బలహీనపడుతుంది. scientific papers‌ను అంచనా వేయడంలో మెరుగైన ఏజెంట్, స్వయంచాలకంగా తన code‌ను తిరిగి రాయడంలో మెరుగవ్వదు. మాన్యువల్ అడ్జస్ట్మెంట్ లేకుండా original DGM programming‌ను దాటి బాగా పనిచేయలేకపోవడానికి ఇదే కారణమని పరిశోధకులు వాదిస్తున్నారు. మనుషులు జోక్యం చేసుకుని ట్యూన్ చేయకపోతే non-programming tasks‌లో సిస్టమ్ దాదాపు zero performance సాధించిందని రిపోర్ట్ చెబుతోంది.

హైపర్‌ఏజెంట్లు ఆ failure mode‌ను పరిష్కరించడానికి ఉద్దేశించబడ్డాయి. improvement mechanism‌నే ఆప్టిమైజ్ చేయడానికి అనుమతించడం ద్వారా, పరిశోధకులు DGM యొక్క archive-based evolutionary structure‌ను కొనసాగించాలని, అదే సమయంలో meta-agent‌ను శాశ్వతంగా fixed‌గా ఉండకుండా విడిపించాలని లక్ష్యంగా పెట్టుకున్నారు.

కొత్త వ్యవస్థ: DGM-H

ఈ కొత్త approach‌ను బృందం DGM-Hyperagents, లేదా DGM-H, అని పిలుస్తోంది. ఆర్కైవ్ విధానంలో కీలక భాగంగా మిగులుతుంది. వ్యవస్థ వేరియంట్లను సృష్టిస్తుంది, వాటిని మదింపు చేస్తుంది, మరియు విజయవంతమైన సంచికలను భవిష్యత్ మార్పులకు stepping stones‌గా ఉపయోగిస్తుంది. మారేది ఏమిటంటే, “meta” component ఇక locked‌గా లేదు. ఏజెంట్ మంచి వేరియంట్లను సృష్టించే process‌ను అదే cycle‌లో భాగంగా మార్చుకునేలా architecture రూపొందించబడింది.

ఇది గణనీయమైన భావనాత్మక మార్పు. చాలా ఏఐ వ్యవస్థల్లో, self-improvement object-level task solver మరియు meta-level controller లేదా training logic మధ్య ఉన్న గట్టి విభజన వల్ల పరిమితం అవుతుంది. DGM-H ఆ విభజనను తగ్గించి, రెండింటినీ editable codeలో ఉంచుతుంది. ఫలితం, కనీసం సూత్రప్రాయంగా, task competence‌తో ముందే సరిపోలని unfamiliar domains‌కు అనుగుణంగా మారే మెరుగైన అవకాశం ఉన్న వ్యవస్థ.

నాలుగు task areas across reported results

candidate text ప్రకారం, పరిశోధకులు DGM-Hను నాలుగు task areas‌లో పరీక్షించి, పెద్ద gains‌ను నివేదించారు. ఈ excerpt పూర్తిస్థాయి numerical results‌ను ఇవ్వలేదు, కాబట్టి వాటిని అధికంగా చెప్పకూడదు. చెప్పగలిగింది ఏమిటంటే, broader applicability విషయంలో original setup కంటే system‌ను గణనీయంగా stronger‌గా research team ప్రస్తావిస్తోంది.

ఆ వాదన ముఖ్యమైనది, ఎందుకంటే generality స్వీయ-మెరుగుదల ఏఐలో అత్యంత కఠిన లక్ష్యాలలో ఒకటి. అనేక systems సంకుచిత పరిస్థితుల్లో బాగా పనిచేస్తాయి కానీ, వాతావరణం మారినప్పుడు కూలిపోయే handcrafted assumptions‌పై ఆధారపడతాయి. హైపర్‌ఏజెంట్లు వేర్వేరు task types‌లో meaningful‌గా మెరుగుపడగలిగితే, అవి మరింత flexible autonomous systems వైపు పురోగతిని సూచిస్తాయి.

అదే సమయంలో, ఇచ్చిన material దీన్ని research‌గా వివరిస్తోంది, production capability‌గా కాదు. కాబట్టి దీన్ని experimental step‌గా అర్థం చేసుకోవాలి, broadly self-accelerating ఏఐ ఇప్పటికే scale‌లో పనిచేస్తోందనడానికి ఆధారంగా కాదు.

ఈ పరిశోధన ఎందుకు ముఖ్యం

హైపర్‌ఏజెంట్ల broader significance అవి frontier‌ను ఎక్కడికి కదిలిస్తున్నాయన్నదానిలో ఉంది. ఏఐ పరిశోధకులు performance improve చేయడానికి search, optimize, లేదా code write చేయగల systems‌ను చాలా కాలంగా అన్వేషిస్తున్నారు. మార్చే logic‌ను itself revise చేయగల systems‌ను నిర్మించడం కష్టం, మరియు అది పనికిరాని మార్పుల్లో కూలిపోకుండా ఉండాలి. DGM-H ఈ recursive loop‌ను మరింత capable‌గా, మరింత broadly useful‌గా చేయడానికి ఒక ప్రయత్నంగా చూపబడింది.

ఈ approach robust‌గా నిరూపితమైతే, task skill మరియు self-modification skill సహజంగా సరిపోలని domains‌లో ఇది ప్రాముఖ్యత కలిగి ఉంటుంది. scientific analysis, robotics, మరియు ఇతర complex areas source text‌లో పేర్కొన్న ఉదాహరణలు. అటువంటి సెట్టింగ్స్‌లో, system విలువ అది చర్య తీసుకోవడంలో మాత్రమే కాకుండా, అది ఎలా నేర్చుకుంటుంది మరియు ఎలా adapt అవుతుంది అనే విధానాన్ని redesign చేయగల సామర్థ్యంలో కూడా పెరుగుతుంది.

ఆ అవకాశం కూడా ఈ పని technical details‌ను మించి ఎందుకు దృష్టిని ఆకర్షిస్తుందో వివరిస్తుంది. తన స్వంత optimizer‌ను optimize చేయగల వ్యవస్థ, ఏఐ capability growth, safety, evaluation, మరియు control వంటి మౌలిక ప్రశ్నలను తాకుతుంది. ఇచ్చిన report performance gains‌ను హైలైట్ చేస్తుంది, కానీ అదే architecture idea oversight మరియు alignment పై ఆందోళన చెందే researchers scrutiny‌ను కూడా ఆకర్షిస్తుంది.

ఒక incremental అయినా notable అడుగు

లభ్యమైన material ఆధారంగా, safest conclusion ఏమిటంటే, Meta మరియు దాని collaborators మరింత flexible self-improvement model‌ను ముందుకు తీసుకువెళ్తున్నారు; runaway recursive intelligence‌కు solved path‌ను చూపడం కాదు. ఈ research, గత self-modification approaches‌లో ఉన్న ఒక నిర్దిష్ట weakness‌ను address చేస్తోంది, మరియు multiple task areas‌లో progress‌ను claim చేస్తోంది.

అదే దీన్ని notable‌గా చేస్తుంది. స్వీయ-మెరుగుదల ఏఐ గురించి చాలా సార్లు abstract లేదా speculative terms‌లో చర్చిస్తారు. Hyperagents ఆ discussion‌కు మరింత concrete technical form ఇస్తాయి: editable meta-mechanisms, archive-based iteration, మరియు software engineering‌ను దాటి generalize చేయాలనే explicit ప్రయత్నం. ఈ method foundational‌గా మారుతుందా లేదా useful experiment‌గా మిగులుతుందా అనేది ఇక్కడ ఇచ్చిన summary‌ను మించే results‌పై ఆధారపడి ఉంటుంది. కానీ ఒక research direction‌గా, ఇది ఏఐలో అత్యంత consequential questions‌లో ఒకదాని వైపు స్పష్టంగా లక్ష్యంగా పెట్టుకుంటోంది: systems improve అవుతాయా అన్నదే కాదు, improvement process‌ను itself improve చేయగలవా అన్నదీ.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడి ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com