मॉडलों को उपयोगी सहायक बनाने का एक मूल्य भी हो सकता है
बड़े भाषा मॉडल increasingly मानव प्रतिभागियों के स्थानापन्न के रूप में उपयोग किए जा रहे हैं। शोधकर्ता उन्हें जन-प्रतिक्रिया, शैक्षिक व्यवहार, और यहां तक कि नैदानिक बातचीत के लिए प्रॉक्सी के रूप में परखते हैं। लेकिन एक नया बड़ा अध्ययन सुझाव देता है कि वही प्रशिक्षण जो मॉडलों को अधिक उपयोगी सहायक बनाता है, उन्हें मानव व्यवहार के सिमुलेशन के रूप में कम सटीक भी बना सकता है।
दिए गए रिपोर्ट में वर्णित यह कार्य Psych-201 पर आधारित है, एक ऐसा डेटासेट जो लगभग 2,08,000 प्रतिभागियों और करीब 2.6 करोड़ प्रतिक्रियाओं वाले व्यवहारिक प्रयोगों से बनाया गया है। शोधकर्ताओं ने Qwen3, Llama3, और OLMo 3 परिवारों में बेस मॉडलों की तुलना पोस्ट-ट्रेन किए गए संस्करणों से की। उनका केंद्रीय निष्कर्ष सुसंगत था: अतिरिक्त प्रशिक्षण से बने सहायक-शैली संस्करणों की तुलना में बेस मॉडल मानव प्रतिक्रियाओं की बेहतर भविष्यवाणी करते हैं।
यह परिणाम क्यों मायने रखता है
सहायक मॉडल अधिक सुरक्षित, अधिक सहायक, अधिक संरचित, और अक्सर अपने तर्क में अधिक स्पष्ट होने के लिए डिज़ाइन किए जाते हैं। ये गुण रोजमर्रा के उत्पाद उपयोग के लिए मूल्यवान हैं। लेकिन ये किसी प्रयोग में सामान्य व्यक्ति की तरह व्यवहार करने के समान नहीं हैं। यदि किसी मॉडल को स्पष्ट, विनम्र, और कार्य-उन्मुख स्थिरता के साथ उत्तर देने के लिए ट्यून किया गया है, तो वह वास्तविक मानव प्रतिक्रियाओं की विशेषता वाली विविधता और अव्यवस्था से दूर जा सकता है।
इसी कारण यह अध्ययन उन सभी क्षेत्रों के लिए महत्वपूर्ण है जो चैटबॉट को मानव विषयों के विकल्प के रूप में देखते हैं। यदि उद्देश्य यह सिमुलेट करना है कि लोग वास्तव में कैसे जवाब देते, निर्णय लेते, या प्रतिक्रिया करते हैं, तो अधिक परिष्कृत सहायक गलत उपकरण हो सकता है।
बेस मॉडल पोस्ट-ट्रेंड संस्करणों से बेहतर रहे
रिपोर्ट के अनुसार यह पैटर्न मॉडल परिवारों और आकारों में समान रहा। बेस मॉडल, जिन्हें केवल टेक्स्ट में अगले शब्द की भविष्यवाणी करने के लिए प्रशिक्षित किया गया था, उन उत्तरों की भविष्यवाणी करने में अपने पोस्ट-ट्रेंड वंशजों से बेहतर रहे जो मनुष्यों ने वास्तव में दिए थे। यह गिरावट सामान्य पोस्ट-ट्रेनिंग उद्देश्यों में दिखाई दी, जिसमें रीजनिंग मॉडल सबसे अधिक नीचे गए, उसके बाद निर्देश-ट्यून किए गए संस्करण और विज़न-विस्तारित रूप आए।
यह निष्कर्ष खास तौर पर इसलिए चौंकाने वाला है क्योंकि यह AI उत्पाद विकास की एक सामान्य धारणा के खिलाफ जाता है: कि बाद के, अधिक परिष्कृत संस्करण व्यापक रूप से बेहतर होने चाहिए। वे बेहतर सहायक हो सकते हैं। अध्ययन का तर्क है कि वे कमज़ोर मनोवैज्ञानिक दर्पण हो सकते हैं।
व्यवहार के लिए बनाया गया डेटासेट, केवल बेंचमार्क के लिए नहीं
Psych-201 इस योगदान का एक बड़ा हिस्सा प्रतीत होता है। स्रोत पाठ इसे अपनी तरह के किसी भी पिछले संग्रह से कई गुना बड़ा बताता है, जिसमें पूरी प्रयोग शृंखलाएँ और प्रतिभागी मेटाडेटा जैसे आयु, राष्ट्रीयता, और प्रश्नावली प्रतिक्रियाएँ शामिल हैं। यह महत्वपूर्ण है क्योंकि मानव-सदृशता का आकलन करने के लिए व्यवहारिक साक्ष्यों का व्यापक आधार चाहिए, न कि एक संकीर्ण बेंचमार्क।
इतना बड़ा डेटासेट होने पर शोधकर्ता मॉडलों की तुलना मानव वितरणों से कई कार्यों में कर सकते हैं, बजाय कुछ ऐसे उदाहरण चुनने के जिनमें मॉडल का व्यवहार संयोग से विश्वसनीय दिखता है। यह पैमाना इस बात को मजबूत करता है कि यह किसी एक मॉडल या एक प्रयोग की विचित्रता नहीं, बल्कि एक प्रणालीगत प्रशिक्षण समझौता है।
AI शोध और नीति उपयोग के लिए इसका मतलब
यह निष्कर्ष असुविधाजनक है क्योंकि सिम्युलेटेड प्रतिभागी आकर्षक होते हैं। वे सस्ते, तेज़, और स्केलेबल हैं। सरकारें, कंपनियाँ, और शोधकर्ता नीतियों पर प्रतिक्रियाओं का अनुमान लगाने, हस्तक्षेपों का परीक्षण करने, या वास्तविक लोगों तक जाने से पहले अध्ययन प्रोटोटाइप करने के लिए उनका उपयोग करना चाह सकते हैं। लेकिन अगर पोस्ट-ट्रेंड सहायक मॉडल व्यवस्थित रूप से मानव व्यवहार को विकृत करते हैं, तो सुविधा झूठे आत्मविश्वास में बदल सकती है।
अध्ययन यह नहीं कहता कि भाषा मॉडल व्यवहारिक कार्य के लिए बेकार हैं। यह कहता है कि मॉडल का चयन महत्वपूर्ण है, और डिज़ाइन लक्ष्य भी। जो मॉडल किसी उपयोगकर्ता को कार्य पूरा करने में मदद करने के लिए अनुकूलित है, वही मॉडल किसी आबादी के सोचने या प्रतिक्रिया देने के तरीके की नकल करने के लिए सबसे उपयुक्त नहीं हो सकता। ये अलग लक्ष्य हैं, और सहायक ट्यूनिंग की हर पीढ़ी के साथ यह अंतर बढ़ सकता है।
बड़ा सबक
AI प्रणालियों को अक्सर ऐसे बताया जाता है मानो क्षमता एक ही अक्ष पर बढ़ती हो। यह अध्ययन अधिक जटिल वास्तविकता की ओर इशारा करता है। किसी मॉडल को एक भूमिका के लिए बेहतर बनाना दूसरी भूमिका में उसे कमजोर कर सकता है। एक अधिक संरेखित सहायक, कम मानव-जैसा विषय बन सकता है। यह प्रशिक्षण की विफलता नहीं, बल्कि इस बात की याद दिलाता है कि प्रशिक्षण लक्ष्य मूल्यों और समझौतों को कोड करते हैं।
जो शोधकर्ता कृत्रिम प्रतिभागी चाहते हैं, उनके लिए निष्कर्ष सीधा है: यह न मानें कि सबसे परिष्कृत चैटबॉट ही सबसे यथार्थवादी भी है। किसी उत्पाद में सबसे उपयोगी सहायक, मानव व्यवहार के प्रॉक्सी के रूप में भरोसा करने के लिए बिल्कुल गलत मॉडल हो सकता है।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com
