Anthropic శక్తివంతమైన AI ఏజెంట్లు నిశ్శబ్దంగా మెరుగైన ఒప్పందాలు చేస్తారని గుర్తించింది

శక్తివంతమైన మోడళ్లు మెరుగుగా చేశాయి, వినియోగదారులు గుర్తించలేదు

Anthropic నిర్వహించిన ఒక అంతర్గత ప్రయోగం, AI అసమానత యొక్క సున్నితమైన కానీ ముఖ్యమైన రూపం ఇప్పటికే వెలుగులోకి వస్తోందని సూచిస్తోంది: శక్తివంతమైన మోడళ్ల ద్వారా ప్రతినిధ్యం పొందిన వ్యక్తులు, చుట్టుపక్కల ఎవరూ ఆ లోటును గుర్తించకుండా, మెరుగైన ఫలితాలను సాధించగలరు. అందించిన మూల పాఠ్య ప్రకారం, Anthropic 2025 డిసెంబరులో ఒక వారం పాటు “Project Deal” అనే అంతర్గత మార్కెట్‌ను నిర్వహించింది, ఇందులో 69 మంది ఉద్యోగులు Slack పై Claude-ఆధారిత AI ఏజెంట్లను ఉపయోగించి నిజమైన వస్తువులను కొనుగోలు, విక్రయాలు చేశారు.

ప్రతి పాల్గొనేవారికి $100 బడ్జెట్ ఇచ్చారు. మార్కెట్ తెరవకముందు, Claude స్వచ్ఛందులకు వారు ఏమి కొనాలనుకుంటున్నారు లేదా అమ్మాలనుకుంటున్నారు, వారి ధర అభిరుచులు ఏమిటి, మరియు వారి ఏజెంట్ ఏ విధమైన చర్చా శైలిని ఉపయోగించాలి అనేది అడిగింది. ఆ సమాచారం ఆధారంగా Anthropic కస్టమ్ system prompts తయారుచేసింది. తర్వాత, AI ఏజెంట్లు మొత్తం ప్రక్రియను చివరవరకూ నిర్వహించారు: జాబితాలు రాయడం, ప్రత్యర్థులను కనుగొనడం, ఆఫర్లు ఇవ్వడం, చర్చించడం, ఒప్పందాలు ముగించడం. వస్తువులు మార్పిడి చేయడానికి మాత్రమే మనుషులు చివరలో తిరిగి ప్రవేశించారు.

ప్రయోగంలోని కీలక మలుపు పాల్గొనేవారికి తెలియకుండా ఉంచబడింది. Anthropic మార్కెట్‌కు సమాంతర వెర్షన్లను నడిపింది. కొన్నింటిలో ప్రతి పాల్గొనేవారికి Claude Opus 4.5 ద్వారా ప్రతినిధ్యం లభించింది, ఇది మూల పాఠ్యంలో ఆ సమయంలో Anthropic యొక్క frontier model గా పేర్కొనబడింది. మరికొన్నింటిలో, పాల్గొనేవారికి 50% అవకాశం Claude Haiku 4.5 ద్వారా ప్రతినిధ్యం పొందేలా జరిగింది, ఇది కంపెనీ యొక్క చిన్న మోడల్.

ఫలితం కేవలం సాంకేతికం కాదు. సామాజికమైంది కూడా.

మూలం ప్రకారం, మరింత సామర్థ్యవంతమైన Opus మోడల్ సగటున Haiku కంటే స్థిరంగా మెరుగైన ధరలు సాధించింది మరియు ఎక్కువ ఒప్పందాలు కుదుర్చుకుంది. అదే సమయంలో, మరింత దూకుడైన చర్చా సూచనలు ఫలితాల్లో గణాంకపరంగా ముఖ్యమైన తేడాను చూపలేదు. ఇంకొక మాటలో చెప్పాలంటే, కేవలం గట్టిగా మోపమని చెప్పడం కంటే, మోడల్ సామర్థ్యమే ఎక్కువ ప్రాముఖ్యమైంది.

ఈ ఫలితం, enterprise AI స్వీకరణలో సాధారణంగా ఉండే ఒక ఊహకు వ్యతిరేకంగా ఉంది; అక్కడ సంస్థలు ప్రాంప్ట్ శైలి లేదా ఉపరితల ప్రవర్తనే ఎక్కువ విలువను నిర్ణయిస్తాయని అనుకుంటారు. Anthropic ఫలితాలు, ప్రాథమిక మోడల్ బలం టోన్ కంటే ఎక్కువ ప్రాముఖ్యమై ఉండవచ్చని సూచిస్తున్నాయి. ఈ నమూనా సాధారణంగా వర్తిస్తే, ఏజెంట్ నాణ్యతే డిజిటల్ లావాదేవీలలో ఎవరు అనుకూల నిబంధనలను పొందుతారో నిశ్శబ్దంగా నిర్ణయించవచ్చు.

అత్యంత ప్రాముఖ్యమైన కనుగొనడం ఆర్థికం కన్నా గ్రహణపరమైనదై ఉండవచ్చు. బలహీనమైన Haiku ఏజెంట్లు ఉన్న వినియోగదారులు వాస్తవంగా చెడు ఫలితాలు పొందినా, తమ లావాదేవీలను Opus ద్వారా ప్రతినిధ్యం పొందిన వినియోగదారుల్లాగే న్యాయంగా రేటు చేసినట్లు Anthropic చెబుతోంది. ఇదే సంస్థ AI-సహాయ నిర్ణయాలలో “అదృశ్య అసమానత”గా పేర్కొంటోంది.

ఇది కీలకమైన ఆలోచన. సంప్రదాయ అసమానతలు సాధారణంగా ధర, ప్రాప్యత, లేదా సేవా నాణ్యతలో కనిపిస్తాయి. Anthropic సూచిస్తున్నది మరింత గుర్తించడానికి కష్టం: ఇద్దరు వ్యక్తులు సమానంగా సంతృప్తిగా అనిపించవచ్చు, కానీ వారి తరఫున పనిచేసిన యంత్రం ఒకరికి విధిగా తక్కువ స్థాయి ప్రతినిధిత్వం ఇచ్చి ఉండవచ్చు.

Sakana AI bets AI that improves itself can break the compute arms race of frontier labs

సకానా AI పునరావృత స్వయంసुधారణను ముందుకు తీసుకెళ్లేందుకు ప్రయోగశాల ఏర్పాటు చేసింది

సకానా AI పునరావృత స్వయంసुधారణ కోసం ఒక ప్రత్యేక ప్రయోగశాలను సృష్టించింది. తమ స్వంత పునాదులను మెరుగుపరచుకునే AI వ్యవస్థలు కంప్యూట్ ఆయుధపోటీకి ప్రత్యామ్నాయంగా నిలవవచ్చని అది వాదిస్తోంది.

Read article

AI ఏజెంట్లు మధ్యవర్తులుగా మారుతున్నారు

Project Deal ముఖ్యమైనది, ఎందుకంటే అది చర్చను chatbots నుండి agency వైపు తీసుకెళ్తుంది. ఈ వ్యవస్థలు ప్రశ్నలకు సమాధానం ఇవ్వడమే కాదు. అవి మార్కెట్లలో ఒకరి తరఫున మరొకరితో ప్రజలను ప్రతినిధ్యం వహించాయి. దీంతో అవి ఉత్పాదకత సాధనాల కంటే, మార్కెట్లలో పనిచేసే మధ్యవర్తుల్లా మారాయి.

ఈ పాత్ర విస్తరిస్తే, మోడల్ వ్యత్యాసాలు వాణిజ్యం, కొనుగోలు, నియామకం, కస్టమర్ సేవ, మరియు అంతర్గత వ్యాపార కార్యకలాపాలపై ప్రత్యక్ష ప్రభావాలు చూపవచ్చు. శక్తివంతమైన వ్యవస్థలు నిరంతరం మెరుగైన చర్చలు జరిపితే, సమాచారాన్ని మరింత సమర్థవంతంగా వర్గీకరిస్తే, లేదా మెరుగైన ప్రత్యర్థులను గుర్తిస్తే, frontier model కు ప్రాప్యత ఒక ప్రాయోగిక ప్రయోజనంగా మారుతుంది. బలహీన వైపు ఉన్నవారు తాము నష్టంలో ఉన్నామని కూడా తెలియకపోవచ్చు.

ఈ ఫలితం అన్ని మార్కెట్లకూ స్వయంచాలకంగా వర్తిస్తుందని మూల పాఠ్యం చెప్పలేదు. ప్రయోగం అంతర్గతమైనది, తక్కువ కాలం నడిచింది, మరియు పరిమిత స్థాయిలో ఉంది. అయినప్పటికీ, విధాన నిర్ణేతలు, కంపెనీలు మరింత తరచుగా ఎదుర్కొనే ఒక వాస్తవాన్ని అది స్పష్టంగా చూపిస్తుంది: AI ఏజెంట్లు వినియోగదారుల తరఫున పనిచేయడం ప్రారంభించిన వెంటనే, సామర్థ్య అంతరాలు ఫలితాల అంతరాలుగా మారవచ్చు.

Prompting మాత్రమే సరిపోదు

రిపోర్ట్‌లోని ఉపయోగకరమైన కనుగొనుళ్లలో ఒకటి ఏమిటంటే, దూకుడైన చర్చా సూచనలు గణాంకపరంగా ముఖ్యమైన మెరుగుదల ఇవ్వలేదు. దీని అర్థం, బలహీన మోడళ్లను కేవలం ప్రాంప్ట్‌లను కఠినంగా మార్చడం ద్వారా భర్తీ చేయవచ్చని సంస్థలు అనుకోకూడదు.

డెవలపర్లు, AI వ్యవస్థలను కొనుగోలు చేసేవారికి ఇది ప్రాయోగిక హెచ్చరిక. ఏజెంట్ పనితీరు personality framing కంటే core reasoning, decision quality పై ఎక్కువ ఆధారపడవచ్చు. ఆకర్షణీయమైన interface లేదా కఠినమైన శైలి తప్పనిసరిగా మెరుగైన ప్రతినిధిత్వంగా మారదు.

ఈ తేడా ముఖ్యమైనది, ఎందుకంటే అనేక AI అమలులను excellence కంటే adequacy ఆధారంగా సమర్థించుకుంటారు. చౌకగా లేదా చిన్నదైన మోడల్ సంభాషణలో సరిపోతుందనిపించినా, అది వినియోగదారుడి తరఫున నిర్ణయాలు తీసుకోవడానికి లేదా చర్చించడానికి నమ్మబడినప్పుడు గణనీయంగా తక్కువ పనితీరు చూపవచ్చు.

విధాన ప్రశ్న ఇప్పటికే ఎదురుగా ఉంది

Anthropic “అదృశ్య అసమానత” అనే పదప్రయోగం ఈ ఒక్క ప్రయోగాన్ని దాటి కూడా ప్రతిధ్వనిస్తుంది. సంస్థలు ఉద్యోగ స్థాయిలు, కస్టమర్ విభాగాలు లేదా ప్రజా సేవల్లో వేర్వేరు తరగతుల AI ఏజెంట్లను అమలు చేస్తే, ఉపయోగం సమయంలో స్పష్టమైన అన్యాయ సూచనలు లేకుండానే అసమాన ప్రవర్తనను సృష్టించవచ్చు.

ఇది సాధారణ పారదర్శకత కంటే కఠినమైన governance సమస్య. AI పాల్గొంది అని వినియోగదారులకు చెప్పడం, ఆ AI మరొకరికి ఇచ్చినదానిలా సామర్థ్యవంతమా అనే ప్రశ్నకు సమాధానం ఇవ్వదు. మరియు వినియోగదారుడి అనుభవం ఇంకా న్యాయంగానే అనిపిస్తే, మార్కెట్ లేదా సంస్థ ఆ అసమతుల్యతను సరిచేయడానికి తక్షణ ఒత్తిడిని ఎదుర్కోకపోవచ్చు.

అందువల్ల Project Deal ఒక ప్రారంభ హెచ్చరికలా చదవాలి. AI ప్రాప్యత అంటే ఒక వ్యక్తికి డిజిటల్ సహాయకుడు ఉన్నాడా అన్న ప్రశ్న మాత్రమే కాదు; ఎలాంటి సహాయకుడు లభించాడో, stakes ఉన్నప్పుడు అతను ఎంత సామర్థ్యవంతుడో కూడా.

Anthropic Slack‌లో నిజమైన లావాదేవీల కోసం Claude ఏజెంట్లతో ఒక వారం పాటు అంతర్గత మార్కెట్‌ను నడిపింది.
Claude Opus 4.5, సగటున Claude Haiku 4.5 కంటే మెరుగైన ధరలు, ఎక్కువ ఒప్పందాలు సాధించింది.
బలహీన ఏజెంట్ల ద్వారా ప్రతినిధ్యం పొందిన వినియోగదారులు, చెడు ఫలితాలున్నప్పటికీ, న్యాయాన్ని అదే స్థాయిలో రేటింగ్ ఇచ్చారు.

ఈ వ్యాసం The Decoder నివేదికపై ఆధారపడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com

Anthropic అంతర్గత మార్కెట్‌లో మెరుగైన AI ఏజెంట్లు నిశ్శబ్దంగా మెరుగైన ఒప్పందాలు పొందుతున్నారని కనిపించింది