మోడళ్లను ఉపయోగకరమైన సహాయకులుగా శిక్షణ ఇవ్వడం ఒక ఖర్చుతో రావచ్చు

పెద్ద భాషా మోడళ్లు ఇప్పుడు మానవ పాల్గొనేవారికి ప్రత్యామ్నాయాలుగా ఎక్కువగా వాడబడుతున్నాయి. పరిశోధకులు వాటిని ప్రజా స్పందన, విద్యా ప్రవర్తన, మరియు క్లినికల్ పరస్పర చర్యల కోసం ప్రాక్సీలుగా పరీక్షిస్తున్నారు. కానీ ఒక కొత్త భారీ అధ్యయనం ప్రకారం, మోడళ్లను మరింత ఉపయోగకరమైన సహాయకులుగా మార్చే శిక్షణే వాటిని మానవ ప్రవర్తన సిమ్యులేషన్లుగా తక్కువ ఖచ్చితంగా చేయవచ్చు.

అందించిన నివేదికలో వివరించిన ఈ పని Psych-201 అనే డేటాసెట్‌పై ఆధారపడింది. ఇది సుమారు 2,08,000 పాల్గొనేవారు మరియు దాదాపు 2.6 కోట్ల స్పందనలను కలిగిన ప్రవర్తనా ప్రయోగాల నుంచి నిర్మించబడింది. పరిశోధకులు Qwen3, Llama3, మరియు OLMo 3 కుటుంబాల్లో బేస్ మోడళ్లను పోస్ట్-ట్రెయిన్ చేసిన వేరియంట్లతో పోల్చారు. వారి ప్రధాన కనుగొలు స్థిరంగా ఉంది: అదనపు శిక్షణతో రూపొందిన అసిస్టెంట్-శైలి వెర్షన్ల కంటే బేస్ మోడళ్లు మానవ సమాధానాలను మెరుగుగా అంచనా వేశాయి.

ఈ ఫలితం ఎందుకు ముఖ్యమైంది

అసిస్టెంట్ మోడళ్లు మరింత సురక్షితంగా, సహాయకంగా, నిర్మితంగా, మరియు తరచుగా తమ తర్కంలో మరింత స్పష్టంగా ఉండేలా రూపొందించబడతాయి. ఇవి రోజువారీ ఉత్పత్తి వినియోగానికి విలువైన లక్షణాలు. కానీ ఇవి ఒక ప్రయోగంలో సాధారణ మనిషిలా ప్రవర్తించడమే కాదు. ఒక మోడల్‌ను స్పష్టంగా, మర్యాదగా, మరియు పనికి అనుకూలంగా స్థిరంగా సమాధానాలు ఇవ్వడానికి ట్యూన్ చేసి ఉంటే, అది నిజమైన మానవ స్పందనలకు లక్షణమైన వైవిధ్యం మరియు అస్తవ్యస్తత నుంచి దూరమయ్యే అవకాశం ఉంది.

అందుకే చాట్‌బాట్‌లను మానవ సబ్జెక్టుల ప్రత్యామ్నాయాలుగా భావించే ఏ రంగానికైనా ఈ అధ్యయనం ముఖ్యం. లక్ష్యం ప్రజలు నిజంగా ఎలా సమాధానాలు ఇస్తారు, నిర్ణయిస్తారు, లేదా స్పందిస్తారో సిమ్యులేట్ చేయడం అయితే, మరింత మెరుగైన అసిస్టెంట్ తప్పు సాధనం కావచ్చు.

బేస్ మోడళ్లు పోస్ట్-ట్రెయిన్ చేసిన వెర్షన్లను మించాయి

నివేదిక ప్రకారం ఈ నమూనా మోడల్ కుటుంబాలు మరియు పరిమాణాలAcross కనిపించింది. బేస్ మోడళ్లు, ఇవి టెక్స్ట్‌లో తదుపరి పదాన్ని అంచనా వేయడానికి మాత్రమే శిక్షణ పొందాయి, మనుషులు నిజంగా ఇచ్చిన సమాధానాలను అంచనా వేయడంలో వారి పోస్ట్-ట్రెయిన్ సంతతుల కంటే మెరుగుగా నిలిచాయి. ఈ తగ్గుదల సాధారణ పోస్ట్-ట్రైనింగ్ లక్ష్యాలలో కనిపించింది; reasoning మోడళ్లలోనే అత్యంత తీవ్ర తగ్గుదల కనిపించింది, ఆ తర్వాత instruction-tuned వెర్షన్లు మరియు vision-extended వేరియంట్లు వచ్చాయి.

ఈ కనుగొలు ప్రత్యేకంగా ఆశ్చర్యకరం, ఎందుకంటే ఇది AI ఉత్పత్తి అభివృద్ధిలోని ఒక సాధారణ అనుమానానికి విరుద్ధంగా ఉంది: తరువాతి, మరింత మెరుగైన వెర్షన్లు సమగ్రంగా మెరుగుగా ఉండాలి. అవి మెరుగైన సహాయకులుగా ఉండవచ్చు. కానీ అధ్యయనం అవి మానసిక ప్రతిబింబాలుగా బలహీనంగా ఉండవచ్చని వాదిస్తోంది.

బెంచ్‌మార్క్‌ల కోసం మాత్రమే కాదు, ప్రవర్తన కోసం రూపొందించిన డేటాసెట్

Psych-201 ఈ కృషిలో ప్రధాన భాగం. మూల పాఠ్యం దీన్ని ఇలాంటి మునుపటి సేకరణలన్నింటికన్నా అనేక రెట్లు పెద్దదిగా వివరిస్తుంది, ఇందులో పూర్తి ప్రయోగ రన్లు మరియు వయస్సు, జాతీయత, ప్రశ్నావళి స్పందనలు వంటి పాల్గొనేవారి మెటాడేటా ఉన్నాయి. మానవ-సదృశతను అంచనా వేయాలంటే విస్తృత ప్రవర్తనా ఆధారాలు అవసరం, సంకుచిత బెంచ్‌మార్క్ కాదు.

ఇంత పెద్ద డేటాసెట్‌తో, పరిశోధకులు కొన్ని ఉదాహరణలను మాత్రమే ఎంచుకోవడం కాకుండా, అనేక పనుల్లో మోడళ్లను మానవ పంపిణీలతో పోల్చగలరు. ఈ స్కేలు, ఇది ఏదో ఒక మోడల్ లేదా ఒక ప్రయోగం యొక్క విచిత్రత కాదని, ఒక వ్యవస్థాత్మక శిక్షణ వ్యయమని బలపరుస్తుంది.

AI పరిశోధన మరియు విధాన వినియోగానికి దీని అర్థం

ఈ ఫలితం అసౌకర్యకరం, ఎందుకంటే సిమ్యులేటెడ్ పాల్గొనేవారు ఆకర్షణీయంగా ఉంటారు. వారు తక్కువ ఖర్చుతో, వేగంగా, మరియు స్కేలు చేయదగినవారు. ప్రభుత్వాలు, కంపెనీలు, మరియు పరిశోధకులు విధానాలపై స్పందనలను అంచనా వేయడానికి, హస్తక్షేపాలను పరీక్షించడానికి, లేదా నిజమైన ప్రజల వద్దకు వెళ్లే ముందు అధ్యయనాల ప్రోటోటైపులను తయారు చేయడానికి వారిని ఉపయోగించాలనుకోవచ్చు. కానీ పోస్ట్-ట్రెయిన్ సహాయక మోడళ్లు మానవ ప్రవర్తనను వ్యవస్థాత్మకంగా వక్రీకరిస్తే, ఆ సౌలభ్యం తప్పుడు నమ్మకంగా మారుతుంది.

ఈ అధ్యయనం భాషా మోడళ్లు ప్రవర్తనా పనులకు పనికిరావు అని చెప్పడం లేదు. ఇది మోడల్ ఎంపిక ముఖ్యం అని, అలాగే రూపకల్పన లక్ష్యం కూడా ముఖ్యం అని చెబుతోంది. ఒక వినియోగదారునికి పని పూర్తి చేయడంలో సహాయం చేయడానికి ఆప్టిమైజ్ చేసిన మోడల్, ఒక జనాభా ఎలా ఆలోచిస్తుంది లేదా ప్రతిస్పందిస్తుంది అనే దాన్ని అనుకరించడానికి సరైన మోడల్ కాకపోవచ్చు. ఇవి వేర్వేరు లక్ష్యాలు, మరియు ప్రతి అసిస్టెంట్ ట్యూనింగ్ తరం‌తో ఆ అంతరం పెరగవచ్చు.

పెద్ద పాఠం

AI వ్యవస్థలు సాధారణంగా సామర్థ్యం ఒకే అక్షంలో మెరుగవుతుందనేలా చర్చించబడతాయి. ఈ అధ్యయనం మరింత సంక్లిష్టమైన వాస్తవాన్ని సూచిస్తోంది. ఒక మోడల్‌ను ఒక పాత్రకు మెరుగుపరచడం, మరో పాత్రలో దాన్ని బలహీనపరచవచ్చు. మరింత సజావుగా కలిసిన అసిస్టెంట్, తక్కువ మానవ-సదృశ సబ్జెక్ట్‌గా మారవచ్చు. ఇది శిక్షణ వైఫల్యం కాదు, కానీ శిక్షణ లక్ష్యాలు విలువలు మరియు trade-offs ను సంకేతపరుస్తాయని గుర్తు చేస్తుంది.

సింథటిక్ పాల్గొనేవారిని కోరుకునే పరిశోధకులకు takeaway సులభం: అత్యంత మెరుగుపరచబడిన చాట్‌బాట్‌నే అత్యంత వాస్తవికమైనది అని అనుకోకండి. ఒక ఉత్పత్తిలో అత్యంత ఉపయోగకరమైన సహాయకుడే, మానవ ప్రవర్తనకు ప్రాక్సీగా నమ్మడానికి పూర్తిగా తప్పు మోడల్ కావచ్చు.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com