नियंत्रणक्षमता प्रश्न
जसजसे AI तर्कशील मॉडेल्स अधिक सक्षम होत जातात, एक प्रश्न सुरक्षा संशोधनाच्या केंद्रभागी बनला आहे: विकासक या प्रणालींना त्यांच्या विचारप्रक्रियेला नियंत्रित, बदलत किंवा लपवण्यासाठी निर्देश देऊ शकतात का? OpenAI च्या नवीन संशोधन एक निश्चित आणि आश्वासक उत्तर प्रदान करते — सहजतेने नाही, आणि ती संरचनात्मक प्रतिरोधक AI पारदर्शकता आणि पर्यवेक्षण साठी खरोखरच चांगली बातमी आहे।
संशोधनाने तर्कशील मॉडेल्स हे दडपू शकते किंवा त्यांची विचारप्रक्रिया खोटेपणा करू शकते हे चाचले. निष्कर्ष असे सूचित करतात की तर्कशील मॉडेल्समध्ये गहन विचारप्रक्रिया वर्तन अंतर्भूत आहेत जे सरळ ओव्हरराइडला प्रतिरोध करतात — एक गुणधर्म ज्याचे विश्वासार्ह AI प्रणाली कसे बनवायचे आणि निरीक्षण करायचे यासाठी महत्त्वपूर्ण परिणाम आहेत।
OpenAI च्या o-series सारख्या तर्कशील मॉडेल्स विस्तारित विचार प्रक्रिया वापरतात जे स्क्रॅचपॅड-शैली आउटपुट म्हणून वापरकर्त्यांना दृश्यमान होतात. दृश्यमान विचारप्रक्रिया मॉडेलच्या अंतर्गत गणनेचे अचूक प्रतिनिधित्व करते का — आणि वाईट कलाकारांनी किंवा गैर-संरेखित उद्देश्यांनी ती प्रक्रिया लपवली किंवा हेराफेरी केली जाऊ शकते का — हा AI सुरक्षा मंडळीमध्ये वर्षांचा जीवंत वाद आहे।
संशोधनाने काय शोधले
संशोधकांनी तर्कशील मॉडेल्सच्या संस्करणांना प्रशिक्षित करण्याचा प्रयत्न केला जे एकतर त्यांची विचारप्रक्रिया पूर्णपणे लपवतील किंवा दिशाभ्रमक विचार ट्रेस तयार करतील, तरीही अंतिम उत्तरांवर पोहोचतील. त्यांना जे सापडले ते असे होते की दृश्यमान विचारप्रक्रियेला अंतर्गत संगणनेपासून वेगळे करण्याचा प्रयत्न सामान्यतः एकूण मॉडेल कार्यप्रदर्शन कमी करतो। विचारप्रक्रिया आणि आउटपुट गुणवत्ता घनिष्ठपणे जोडलेली प्रतीत होते — तुम्ही सहजतेने दूसरी काढून टाकू शकत नाही तर दूसरीचे नुकसान केल्याशिवाय।
हे जोडणे प्रशिक्षणाच्या दरम्यान या मॉडेल्स कसे विचार करण्यास शिकतात यासाठी संरचनात्मक गुणधर्म आहे. ते विचारप्रक्रिया नमुने विकसित करतात जे त्यांच्या समस्या-समाधान क्षमतेसाठी अभिन्न आहेत, एक विभाज्य आवरण नाही जो काढून टाकला जाऊ शकतो. सूचना प्रश्नपत्र किंवा लक्ष्यबद्ध fine-tuning द्वारे या विचारप्रक्रियेला दडपण्याचा प्रयत्न मुख्यतः असक्षम होते असे विश्वासार्ह सक्षम आणि विश्वासार्ह गोपनीय दोन्हीही मॉडेल्स तयार करण्यात।
संशोधनाने हे देखील शोधले की मॉडेल्स दृश्यमान विचारप्रक्रिया वापरून वापरकर्त्यांना धोका देऊ शकतात — संभाव्य-दिसणारी परंतु बनावट विचार पायऱ्या दर्शवताना गुप्तपणे भिन्न अंतर्गत तर्क अनुसरण करताना. या परिस्थितीचा व्यापकपणे चाचला गेला आणि वर्तमान मॉडेल आर्किटेक्चरमध्ये विश्वासार्हरित्या उत्पादन करणे कठीण असल्याचे आढळले, दृश्यमान विचारप्रक्रिया वास्तविक अंतर्गत विचारप्रक्रियेचा ट्रॅक करते असा पुरावा प्रदान करताना शुद्ध कार्यक्षमता असण्यापेक्षा।





