मजबूत मॉडेल्सनी चांगली कामगिरी केली, आणि वापरकर्त्यांना फरक कळला नाही

Anthropic च्या एका अंतर्गत प्रयोगातून सूचित होते की AI असमानतेचे एक सूक्ष्म पण महत्त्वाचे रूप आधीच तयार होत असावे: मजबूत मॉडेल्सद्वारे प्रतिनिधित्व केलेल्या लोकांना, आसपासच्या कोणालाही त्या तफावतीची जाणीव न होता, अधिक चांगले परिणाम मिळू शकतात. उपलब्ध स्रोत मजकुरानुसार, Anthropic ने डिसेंबर 2025 मध्ये एक आठवडा चालणारा अंतर्गत बाजार “Project Deal” चालवला, ज्यात 69 कर्मचाऱ्यांनी Slack वर Claude-आधारित AI एजंटांचा वापर करून प्रत्यक्ष वस्तूंची खरेदी-विक्री केली.

प्रत्येक सहभागीस $100 बजेट देण्यात आले. बाजार उघडण्यापूर्वी, Claude ने स्वयंसेवकांना ते काय खरेदी किंवा विक्री करू इच्छितात, त्यांच्या किंमत पसंती काय आहेत, आणि त्यांच्या एजंटने कोणती वाटाघाटीची शैली वापरावी असे त्यांना वाटते, हे विचारले. त्यानंतर Anthropic ने त्या इनपुट्सवरून custom system prompts तयार केले. मग AI एजंटांनी प्रक्रिया सुरुवातीपासून शेवटपर्यंत हाताळली: लिस्टिंग लिहिणे, समोरची बाजू शोधणे, ऑफर देणे, घासाघीस करणे, आणि व्यवहार पूर्ण करणे. वस्तूंची देवाणघेवाण करण्यासाठी मानव शेवटीच मध्ये आले.

प्रयोगातील मुख्य वळण सहभागींना दाखवले गेले नाही. Anthropic ने बाजाराच्या समांतर आवृत्त्या चालवल्या. काही ठिकाणी प्रत्येक सहभागीला Claude Opus 4.5 ने प्रतिनिधित्व केले, ज्याचे वर्णन स्रोत मजकुरात त्या वेळी Anthropic चे frontier model असे केले आहे. इतर ठिकाणी सहभागींच्या प्रतिनिधित्वाची 50% शक्यता Claude Haiku 4.5 कडे होती, जो कंपनीचा छोटा मॉडेल आहे.

निकाल केवळ तांत्रिक नव्हता. सामाजिकही होता.

स्रोताप्रमाणे, अधिक सक्षम Opus मॉडेलने सरासरीने Haiku पेक्षा सातत्याने चांगल्या किमती मिळवल्या आणि अधिक व्यवहार पूर्ण केले. त्याच वेळी, अधिक आक्रमक वाटाघाटीच्या सूचना परिणामांमध्ये सांख्यिकीय दृष्ट्या महत्त्वाचा फरक निर्माण करू शकल्या नाहीत. म्हणजेच, केवळ अधिक कठोरपणे बोलणी करायला सांगणे नव्हे, तर मॉडेलची क्षमता अधिक महत्त्वाची ठरली.

हा परिणाम enterprise AI स्वीकारात आढळणाऱ्या एका सामान्य समजुतीच्या विरुद्ध आहे, ज्यात संस्था कधी कधी असे गृहीत धरतात की prompt style किंवा वरवरचे वर्तनच बहुतेक मूल्य ठरवेल. Anthropic चे निष्कर्ष सूचित करतात की मूलभूत मॉडेलची ताकद tone पेक्षा अधिक महत्त्वाची असू शकते. हा नमुना व्यापक झाला, तर एजंटची गुणवत्ता शांतपणे ठरवू शकते की डिजिटल व्यवहारात कोणाला अनुकूल अटी मिळतील.

सर्वात लक्षवेधी निष्कर्ष आर्थिकपेक्षा जाणिवेवर आधारित असू शकतो. Anthropic म्हणते की कमजोर Haiku एजंटांनी वस्तुनिष्ठदृष्ट्या वाईट निकाल मिळवले तरी, त्या वापरकर्त्यांनी त्यांच्या व्यवहारांना Opus प्रतिनिधित्व मिळालेल्या वापरकर्त्यांइतकेच न्याय्य रेट केले. यालाच कंपनी AI-सहाय्यित निर्णय प्रक्रियेत “invisible inequality” असे म्हणते.

हा महत्त्वाचा मुद्दा आहे. पारंपरिक असमानता बहुतेकदा किंमत, प्रवेश किंवा सेवेच्या गुणवत्तेत दिसते. Anthropic ज्या गोष्टीकडे निर्देश करते ती अधिक कठीण आहे: दोन लोक समानपणे समाधानी वाटू शकतात, पण मशीनने त्यांच्यासाठी काम करताना एकाला सातत्याने कमी दर्जाचे प्रतिनिधित्व दिले असू शकते.

AI एजंट मध्यस्थ बनत आहेत

Project Deal महत्त्वाचा आहे, कारण तो चर्चा chatbots पासून agency कडे नेतो. ही प्रणाली केवळ प्रश्नांची उत्तरे देत नव्हती. ती बाजारात एकमेकांविरुद्ध लोकांचे प्रतिनिधित्व करत होती. त्यामुळे ती उत्पादकता साधनांपेक्षा बाजारात काम करणाऱ्या मध्यस्थांसारखी बनते.

ही भूमिका वाढत गेल्यास, मॉडेलमधील फरकांचा व्यापार, खरेदी, भरती, ग्राहक सेवा आणि अंतर्गत व्यवसायिक कामकाजावर थेट परिणाम होऊ शकतो. जर मजबूत प्रणाली सातत्याने चांगली घासाघीस करत असतील, माहिती अधिक परिणामकारकरित्या वर्गीकृत करत असतील, किंवा चांगल्या प्रतिपक्षांचा शोध घेत असतील, तर frontier model ला प्रवेश ही प्रत्यक्ष advantage ठरते. कमकुवत बाजूला असलेल्या लोकांना आपण नुकसानीत आहोत हेही कदाचित कळणार नाही.

स्रोत मजकुरात असे म्हटलेले नाही की हा निकाल आपोआप सर्व बाजारांवर लागू होतो. प्रयोग अंतर्गत, अल्पकालीन आणि मर्यादित प्रमाणावरचा होता. तरीही, तो धोरणकर्ते आणि कंपन्यांना अधिक वेळा सामोरे जावे लागेल अशा एका वास्तवाचे ठोस निदर्शन घडवतो: AI एजंटांनी वापरकर्त्यांच्या वतीने काम करणे सुरू केले की, क्षमता-अंतर परिणाम-अंतरांमध्ये बदलू शकते.

Prompting पुरेसे नसेल

अहवालातील उपयुक्त निष्कर्षांपैकी एक म्हणजे आक्रमक वाटाघाटीच्या सूचनांनी सांख्यिकीयदृष्ट्या महत्त्वपूर्ण सुधारणा दिली नाही. याचा अर्थ संस्था फक्त prompts अधिक कठोर करून कमजोर मॉडेलची कमतरता भरून काढू शकतील असे मानू शकत नाहीत.

डेव्हलपर्स आणि AI प्रणाली खरेदी करणाऱ्यांसाठी ही व्यावहारिक चेतावणी आहे. एजंटची कामगिरी व्यक्तिमत्त्वाच्या चौकटीपेक्षा core reasoning आणि decision quality वर अधिक अवलंबून असू शकते. एक आकर्षक interface किंवा कठोर शैली आपोआप चांगल्या प्रतिनिधित्वात रूपांतरित होत नाही.

हा फरक महत्त्वाचा आहे, कारण अनेक AI deployments उत्कृष्टतेपेक्षा पुरेशेपणाच्या आधारावर समर्थित केले जातात. एखादा स्वस्त किंवा छोटा मॉडेल संभाषणात पुरेसा चांगला वाटला, तरी त्याच्यावर वापरकर्त्याच्या वतीने निर्णय घेण्याची किंवा वाटाघाटी करण्याची जबाबदारी आली, तर तो लक्षणीयरीत्या खराब काम करू शकतो.

धोरणात्मक प्रश्न आता समोर आहे

Anthropic च्या invisible inequality या भाषेचा अर्थ या एकाच प्रयोगाच्या पलीकडेही आहे. संस्था कर्मचारी स्तर, ग्राहक विभाग किंवा सार्वजनिक सेवांमध्ये वेगवेगळ्या वर्गांचे AI एजंट तैनात करत असतील, तर वापराच्या क्षणी स्पष्ट अन्यायाची चिन्हे नसतानाही असमान वागणूक निर्माण होऊ शकते.

ही केवळ पारदर्शकतेपेक्षा कठीण governance समस्या आहे. वापरकर्त्यांना AI वापरले गेले हे सांगणे, त्या AI ची क्षमता इतरांना मिळालेल्या AI इतकीच होती का, याचे उत्तर देत नाही. आणि वापरकर्त्याचा अनुभव तरीही न्याय्य वाटत असेल, तर बाजार किंवा संस्थेला ती तफावत दुरुस्त करण्यासाठी तातडीचा दबाव जाणवणार नाही.

म्हणूनच Project Deal हा एक आरंभीचा इशारा म्हणून वाचला पाहिजे. AI access म्हणजे केवळ डिजिटल सहायक मिळाला का, हा प्रश्न नाही; कोणता सहायक मिळाला, आणि stakes असताना तो किती सक्षम होता, हेसुद्धा तितकेच महत्त्वाचे आहे.

  • Anthropic ने Slack मध्ये प्रत्यक्ष व्यवहारांसाठी Claude एजंट वापरून एक आठवडा चालणारा अंतर्गत बाजार चालवला.
  • Claude Opus 4.5 ने सरासरीने Claude Haiku 4.5 पेक्षा चांगल्या किमती आणि अधिक सौदे मिळवले.
  • कमकुवत एजंटांनी प्रतिनिधित्व केलेल्या वापरकर्त्यांनी वाईट परिणाम असूनही न्याय्यतेचे मूल्यांकन समान केले.

हा लेख The Decoder च्या वार्तांकनावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com