मॉडेल्सना उपयुक्त सहाय्यक बनवण्याला एक किंमत असू शकते

मोठी भाषा मॉडेल्स आता मानवी सहभागींच्या पर्याय म्हणून अधिकाधिक वापरली जात आहेत. संशोधक त्यांचा जनमत प्रतिसाद, शैक्षणिक वर्तन, आणि अगदी क्लिनिकल परस्परक्रिया यांचे प्रॉक्सी म्हणून वापर करून तपास करतात. पण एका नवीन मोठ्या अभ्यासातून असे दिसते की मॉडेल्सना अधिक उपयुक्त सहाय्यक बनवणारे प्रशिक्षणच त्यांना मानवी वर्तनाच्या सिम्युलेशनमध्ये कमी अचूक बनवू शकते.

दिलेल्या अहवालात वर्णन केलेले हे कार्य Psych-201 या डेटासेटवर आधारित आहे, जे सुमारे 2,08,000 सहभागी आणि जवळपास 2.6 कोटी प्रतिसाद असलेल्या वर्तनात्मक प्रयोगांमधून तयार करण्यात आले आहे. संशोधकांनी Qwen3, Llama3, आणि OLMo 3 कुटुंबांमधील बेस मॉडेल्सची पोस्ट-ट्रेंड प्रकारांशी तुलना केली. त्यांचा मुख्य निष्कर्ष सातत्यपूर्ण होता: अतिरिक्त प्रशिक्षणातून तयार झालेल्या सहाय्यक-शैलीच्या आवृत्त्यांपेक्षा बेस मॉडेल्सनी मानवी उत्तरांचा चांगला अंदाज लावला.

हा निकाल का महत्त्वाचा आहे

सहाय्यक मॉडेल्स अधिक सुरक्षित, अधिक उपयुक्त, अधिक संरचित, आणि अनेकदा त्यांच्या तर्कात अधिक स्पष्ट राहतील अशा प्रकारे डिझाइन केली जातात. ही वैशिष्ट्ये रोजच्या उत्पादन वापरासाठी उपयुक्त आहेत. पण ती एखाद्या प्रयोगात सामान्य व्यक्तीप्रमाणे वागण्यासारखी नाहीत. जर एखादे मॉडेल स्पष्ट, नम्र, आणि कार्य-केंद्रित सुसंगततेसह उत्तर देण्यासाठी ट्यून केले गेले असेल, तर ते खऱ्या मानवी प्रतिसादांची वैशिष्ट्यपूर्ण वैविध्य आणि विस्कळीतपणा यापासून दूर जाऊ शकते.

म्हणूनच चॅटबॉट्सना मानवी विषयांच्या जागी वापरणाऱ्या कोणत्याही क्षेत्रासाठी हा अभ्यास महत्त्वाचा आहे. जर उद्देश लोक प्रत्यक्षात कसे उत्तर देतात, निर्णय घेतात, किंवा प्रतिक्रिया देतात याचे सिम्युलेशन करणे असेल, तर अधिक परिष्कृत सहाय्यक चुकीचे साधन ठरू शकते.

बेस मॉडेल्सनी पोस्ट-ट्रेंड आवृत्त्यांपेक्षा चांगली कामगिरी केली

अहवालानुसार, हा नमुना मॉडेल कुटुंबे आणि आकारांमध्ये कायम राहिला. बेस मॉडेल्स, ज्यांना केवळ मजकूरातील पुढचा शब्द भाकीत करण्यासाठी प्रशिक्षित केले जाते, त्यांनी मानवांनी प्रत्यक्ष दिलेल्या उत्तरांचा अंदाज लावण्यात त्यांच्या पोस्ट-ट्रेंड वारसांपेक्षा चांगली कामगिरी केली. ही घसरण सामान्य पोस्ट-ट्रेनिंग उद्दिष्टांमध्ये दिसून आली; reasoning मॉडेल्समध्ये सर्वात तीव्र घसरण झाली, त्यानंतर instruction-tuned आवृत्त्या आणि vision-extended प्रकार आले.

हा निष्कर्ष विशेषतः लक्षवेधी आहे, कारण तो AI उत्पादन विकासातील एका सामान्य अंतर्ज्ञानाच्या विरोधात जातो: नंतरच्या, अधिक परिष्कृत आवृत्त्या एकूणच चांगल्या असाव्यात. त्या अधिक चांगले सहाय्यक असू शकतात. पण हा अभ्यास सांगतो की त्या कमी मानवीसदृश आरसे असू शकतात.

बेंचमार्कसाठी नव्हे, तर वर्तनासाठी तयार केलेला डेटासेट

Psych-201 हा या योगदानाचा मोठा भाग दिसतो. स्रोत मजकुरात तो अशा प्रकारच्या पूर्वीच्या कोणत्याही संग्रहापेक्षा अनेक पटींनी मोठा असल्याचे वर्णन केले आहे, ज्यात पूर्ण प्रयोग-रन्स आणि वय, राष्ट्रीयत्व, आणि प्रश्नावली प्रतिसाद यांसारखे सहभागी मेटाडेटा समाविष्ट आहे. हे महत्त्वाचे आहे, कारण मानवीसदृशता मोजण्यासाठी व्यापक वर्तनात्मक पुरावा आवश्यक असतो, अरुंद बेंचमार्क नव्हे.

इतका मोठा डेटासेट असल्यामुळे संशोधक काही उदाहरणे निवडून नाही, तर अनेक कामांमध्ये मॉडेलची तुलना मानवी वितरणांशी करू शकतात. या प्रमाणामुळे हे एखाद्या एकाच मॉडेलचे किंवा एका प्रयोगाचे विचित्र प्रकरण नाही, तर एक प्रणालीगत प्रशिक्षण-तडजोड आहे, हे अधिक ठोस होते.

AI संशोधन आणि धोरणात्मक वापरासाठी याचा अर्थ

हा निष्कर्ष गैरसोयीचा आहे, कारण सिम्युलेटेड सहभागी आकर्षक असतात. ते स्वस्त, जलद, आणि स्केलेबल असतात. सरकारे, कंपन्या, आणि संशोधक धोरणांवरील प्रतिक्रिया भाकीत करण्यासाठी, हस्तक्षेपांची चाचणी घेण्यासाठी, किंवा खऱ्या लोकांकडे जाण्यापूर्वी अभ्यासांचे प्रोटोटाइप तयार करण्यासाठी त्यांचा वापर करू शकतात. पण जर पोस्ट-ट्रेंड सहाय्यक मॉडेल्स सातत्याने मानवी वर्तन वाकवतात, तर सोय खोट्या आत्मविश्वासात बदलू शकते.

हा अभ्यास असे म्हणत नाही की भाषा मॉडेल्स वर्तनात्मक कामासाठी निरुपयोगी आहेत. तो म्हणतो की मॉडेल निवड महत्त्वाची आहे, आणि डिझाइन लक्ष्यही महत्त्वाचे आहे. जे मॉडेल वापरकर्त्याला काम पूर्ण करण्यास मदत करण्यासाठी ऑप्टिमाइझ केलेले आहे, तेच मॉडेल लोकसंख्या कशी विचार करते किंवा प्रतिसाद देते याची नक्कल करण्यासाठी सर्वात योग्य असेलच असे नाही. ही वेगळी उद्दिष्टे आहेत, आणि सहाय्यक ट्यूनिंगच्या प्रत्येक पिढीसोबत ही दरी वाढू शकते.

मोठा धडा

AI प्रणालींची चर्चा अनेकदा अशी केली जाते जणू क्षमता एका सरळ अक्षावर सुधारते. हा अभ्यास अधिक गुंतागुंतीच्या वास्तवाकडे निर्देश करतो. एखादे मॉडेल एका भूमिकेसाठी चांगले करणे, दुसऱ्या भूमिकेत त्याला कमकुवत करू शकते. अधिक संरेखित सहाय्यक, कमी मानवीसदृश विषय बनू शकतो. हे प्रशिक्षणाचे अपयश नसून, प्रशिक्षण उद्दिष्टे मूल्ये आणि तडजोडी कोड करतात याची आठवण आहे.

कृत्रिम सहभागी हवे असलेल्या संशोधकांसाठी takeaway सोपा आहे: सर्वात परिष्कृत चॅटबॉटच सर्वात वास्तवदर्शी असेल असे गृहित धरू नका. उत्पादनात सर्वात उपयुक्त सहाय्यक, मानवी वर्तनासाठी प्रॉक्सी म्हणून विश्वास ठेवण्यासाठी अगदी चुकीचे मॉडेल असू शकते.

हा लेख The Decoder च्या वार्तांकनावर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com