मजबूत मॉडलों ने बेहतर प्रदर्शन किया, और उपयोगकर्ताओं ने फर्क नहीं पहचाना
Anthropic के एक आंतरिक प्रयोग से संकेत मिलता है कि AI असमानता का एक सूक्ष्म लेकिन महत्वपूर्ण रूप पहले ही उभर सकता है: मजबूत मॉडलों द्वारा प्रतिनिधित्व किए गए लोग, आसपास के किसी को यह एहसास कराए बिना, बेहतर नतीजे हासिल कर सकते हैं। उपलब्ध स्रोत पाठ के अनुसार, Anthropic ने दिसंबर 2025 में एक सप्ताह लंबा आंतरिक बाज़ार “Project Deal” चलाया, जिसमें 69 कर्मचारियों ने Slack पर Claude-आधारित AI एजेंटों का इस्तेमाल करके वास्तविक वस्तुओं की खरीद-बिक्री की।
हर प्रतिभागी को 100 डॉलर का बजट मिला। बाज़ार खुलने से पहले, Claude ने स्वयंसेवकों से पूछा कि वे क्या खरीदना या बेचना चाहते हैं, उनकी कीमत संबंधी प्राथमिकताएं क्या हैं और वे अपने एजेंट से किस तरह की बातचीत शैली चाहते हैं। Anthropic ने फिर उन इनपुट्स से कस्टम सिस्टम प्रॉम्प्ट बनाए। इसके बाद AI एजेंटों ने पूरी प्रक्रिया संभाली: सूचियां लिखना, संभावित पक्षों को ढूंढना, ऑफर देना, मोलभाव करना और सौदे पूरे करना। इंसानों ने अंत में केवल सामान का आदान-प्रदान करने के लिए हस्तक्षेप किया।
प्रयोग का मुख्य मोड़ प्रतिभागियों से छिपा हुआ था। Anthropic ने बाज़ार के समानांतर संस्करण चलाए। कुछ में हर प्रतिभागी को Claude Opus 4.5 द्वारा प्रतिनिधित्व किया गया, जिसे स्रोत पाठ में उस समय Anthropic का फ्रंटियर मॉडल बताया गया है। दूसरों में, प्रतिभागियों के पास 50% संभावना थी कि उनका प्रतिनिधित्व Claude Haiku 4.5 करे, जो कंपनी का सबसे छोटा मॉडल है।
नतीजा सिर्फ तकनीकी नहीं था। सामाजिक भी था।
स्रोत के अनुसार, अधिक सक्षम Opus मॉडल ने औसतन Haiku की तुलना में लगातार बेहतर कीमतें हासिल कीं और अधिक सौदे पूरे किए। साथ ही, अधिक आक्रामक बातचीत निर्देशों से नतीजों में सांख्यिकीय रूप से महत्वपूर्ण सुधार नहीं हुआ। दूसरे शब्दों में, केवल ज़्यादा सख्ती से मोलभाव कराने से नहीं, बल्कि मॉडल की क्षमता से फर्क पड़ा।
यह परिणाम एंटरप्राइज़ AI अपनाने की एक आम धारणा के खिलाफ जाता है, जहां संगठन कभी-कभी मान लेते हैं कि प्रॉम्प्ट का अंदाज़ या सतही व्यवहार ही अधिकतर मूल्य तय करेगा। Anthropic के निष्कर्ष सुझाते हैं कि आधारभूत मॉडल की ताकत स्वर से अधिक महत्वपूर्ण हो सकती है। यदि यह पैटर्न व्यापक रूप से लागू होता है, तो एजेंट की गुणवत्ता चुपचाप तय कर सकती है कि डिजिटल लेनदेन में किसे बेहतर शर्तें मिलेंगी।
सबसे चौंकाने वाला निष्कर्ष आर्थिक से अधिक धारणा-आधारित हो सकता है। Anthropic का कहना है कि जिन उपयोगकर्ताओं के कमजोर Haiku एजेंटों ने वस्तुगत रूप से खराब नतीजे दिए, उन्होंने भी अपने लेनदेन को उतना ही निष्पक्ष रेट किया जितना Opus द्वारा प्रतिनिधित्व किए गए उपयोगकर्ताओं ने। यही असमानता कंपनी “AI-सहायता प्राप्त निर्णय-निर्माण में अदृश्य असमानता” के रूप में चिन्हित करती है।
यह एक महत्वपूर्ण विचार है। पारंपरिक असमानताएं अक्सर कीमत, पहुंच या सेवा-गुणवत्ता में दिखाई देती हैं। Anthropic जिस बात की ओर इशारा कर रहा है, वह अधिक कठिन है: दो लोग समान रूप से संतुष्ट महसूस कर सकते हैं, जबकि मशीन उनके लिए लगातार अलग स्तर की प्रतिनिधित्व कर रही हो।
AI एजेंट मध्यस्थ बनते जा रहे हैं
Project Deal महत्वपूर्ण है क्योंकि यह चर्चा को चैटबॉट्स से आगे बढ़ाकर एजेंसी तक ले जाता है। ये सिस्टम सिर्फ सवालों के जवाब नहीं दे रहे थे। वे एक-दूसरे के साथ बाज़ार में लोगों का प्रतिनिधित्व कर रहे थे। इससे वे उत्पादकता उपकरणों से कम और बाज़ारों में काम करने वाले मध्यस्थों के अधिक समान हो जाते हैं।
जैसे-जैसे यह भूमिका बढ़ेगी, मॉडल अंतर का वाणिज्य, खरीद, नियुक्ति, ग्राहक सेवा और आंतरिक व्यावसायिक संचालन पर सीधा प्रभाव पड़ सकता है। यदि मजबूत सिस्टम लगातार बेहतर मोलभाव करते हैं, जानकारी को अधिक प्रभावी ढंग से छांटते हैं, या बेहतर प्रतिपक्षों की पहचान करते हैं, तो फ्रंटियर मॉडल तक पहुंच एक व्यावहारिक लाभ बन जाती है। कमजोर पक्ष के लोग शायद यह भी न जानें कि वे नुकसान में हैं।
स्रोत पाठ यह दावा नहीं करता कि यह नतीजा स्वतः सभी बाज़ारों पर लागू होता है। प्रयोग आंतरिक था, कम अवधि का था और सीमित पैमाने का था। फिर भी, यह एक ठोस प्रदर्शन देता है उस चीज़ का जिसे नीति-निर्माताओं और कंपनियों को अधिक बार देखना पड़ सकता है: जैसे ही AI एजेंट उपयोगकर्ताओं की ओर से काम करने लगते हैं, क्षमता-खामियां परिणाम-खामियों में बदल सकती हैं।
सिर्फ प्रॉम्प्टिंग पर्याप्त नहीं हो सकती
रिपोर्ट की एक उपयोगी खोज यह है कि आक्रामक बातचीत निर्देशों से सांख्यिकीय रूप से महत्वपूर्ण सुधार नहीं हुआ। इसका मतलब है कि संगठन यह मानकर नहीं चल सकते कि वे केवल प्रॉम्प्ट को अधिक आक्रामक बनाकर कमजोर मॉडल की भरपाई कर लेंगे।
डेवलपर्स और AI सिस्टम के खरीदारों के लिए यह व्यावहारिक चेतावनी है। एजेंट का प्रदर्शन शायद व्यक्तित्व के फ्रेम से कम, और मूल तर्क तथा निर्णय-गुणवत्ता से अधिक तय होता है। एक चमकदार इंटरफ़ेस या तीखा अंदाज़ अनिवार्य रूप से बेहतर प्रतिनिधित्व में नहीं बदलता।
यह फर्क इसलिए महत्वपूर्ण है क्योंकि कई AI तैनातियों को उत्कृष्टता नहीं, पर्याप्तता के आधार पर उचित ठहराया जाता है। अगर एक सस्ता या छोटा मॉडल बातचीत में काफी अच्छा लगता है, तो भी वह तब काफी खराब प्रदर्शन कर सकता है जब उस पर किसी उपयोगकर्ता की ओर से निर्णय लेने या मोलभाव करने की जिम्मेदारी दी जाए।
नीति का सवाल अब सामने है
Anthropic की “अदृश्य असमानता” वाली भाषा इस एक प्रयोग से कहीं आगे गूंजती है। यदि संगठन कर्मचारियों की अलग-अलग श्रेणियों, ग्राहक वर्गों या सार्वजनिक सेवाओं में अलग-अलग वर्गों के AI एजेंट तैनात करते हैं, तो वे उपयोग के समय स्पष्ट अनुचितता के संकेतों के बिना असमान व्यवहार पैदा कर सकते हैं।
यह साधारण पारदर्शिता से कहीं कठिन शासन-समस्या है। उपयोगकर्ताओं को यह बताना कि AI शामिल था, यह नहीं बताता कि वह AI किसी और को दिए गए AI जितना सक्षम था या नहीं। और जब उपयोगकर्ता अनुभव फिर भी निष्पक्ष लगता है, तो बाज़ार या संस्था पर असमानता सुधारने का तत्काल दबाव नहीं बनता।
इसलिए Project Deal एक शुरुआती चेतावनी की तरह पढ़ा जाना चाहिए। यह सुझाता है कि AI तक पहुंच सिर्फ डिजिटल सहायक मिलने का सवाल नहीं है, बल्कि यह भी है कि कौन-सा सहायक मिला और जब परिणाम पर दांव लगे हों तो वह कितना सक्षम है।
- Anthropic ने Slack पर वास्तविक लेनदेन के लिए Claude एजेंटों के साथ एक सप्ताह लंबा आंतरिक बाज़ार चलाया।
- Claude Opus 4.5 ने औसतन Claude Haiku 4.5 की तुलना में बेहतर कीमतें और अधिक सौदे हासिल किए।
- कमजोर एजेंटों द्वारा प्रतिनिधित्व किए गए उपयोगकर्ताओं ने खराब नतीजों के बावजूद निष्पक्षता को समान रूप से रेट किया।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com


