AI मॉडेल्सना योग्य सूचना पाळायला शिकवणे
OpenAI ने IH-Challenge नावाच्या नवीन प्रशिक्षण पद्धतीवर संशोधन प्रकाशित केले आहे, जी तैनात AI प्रणालींमधील सर्वात सातत्याने दिसणाऱ्या समस्यांपैकी एक सोडवण्यासाठी तयार करण्यात आली आहे: developer, operator, आणि verified users यांसारख्या विश्वासार्ह पक्षांकडून येणाऱ्या सूचनांना, web content किंवा tool outputs सारख्या अविश्वसनीय चॅनेलमधून येणाऱ्या संभाव्य विरोधी सूचनांपेक्षा मॉडेल्सनी सातत्याने प्राधान्य देणे.
हे काम AI safety समुदाय instruction hierarchy problem म्हणतो त्यावर लक्ष केंद्रित करते. agent म्हणून कार्य करणाऱ्या मोठ्या भाषा मॉडेलला एकाच वेळी अनेक स्रोतांकडून सूचना मिळू शकतात: developer कडून system prompt, user कडून सूचना, आणि web किंवा बाह्य tools मधून मिळालेला मजकूर. त्या सूचना एकमेकांशी संघर्ष करत असतील, तर कोणती पाळायची हे ठरवण्यासाठी मॉडेलकडे तत्त्वाधारित मार्ग हवा.
Instruction Hierarchy का कठीण ठरली
सिद्धांतात उपाय सोपा आहे: system prompt नेहमी user input वर प्राधान्य मिळायला हवे, आणि user input ने बाह्य स्रोतांतील मजकुरावर. प्रत्यक्षात, human feedback वर प्रामुख्याने प्रशिक्षित language models विरोधी दबावाखाली ही hierarchy टिकवण्यात आश्चर्यकारकरित्या कमकुवत ठरले आहेत.
हल्लेखोरांनी या कमकुवतपणाचा मोठ्या प्रमाणावर फायदा घेतला आहे. Prompt injection attacks, ज्यात webpage किंवा document मध्ये लपवलेला दुष्ट मजकूर AI ला त्याचा system prompt दुर्लक्षित करून नवीन निर्देश पाळायला सांगतो, अशा हल्ल्यांनी डझनभर वास्तविक तैनातींमधील AI agentsना बाधित केले आहे. हे हल्ले अनेकदा अत्यंत साधे असतात, आणि अन्यथा निरुपद्रवी दिसणाऱ्या मजकुरात ignore all previous instructions अशी वाक्ये असतात.
IH-Challenge हे instruction hierarchy चे पालन तपासण्यासाठी खास तयार केलेल्या training examples तयार करून या समस्येला हाताळतो. dataset मध्ये अशी परिस्थिती समाविष्ट आहे जिथे कमी-विश्वासाच्या स्रोतांकडून आलेल्या विरोधी सूचनांचा उच्च-विश्वास system prompts शी थेट संघर्ष होतो, त्यामुळे मॉडेलला अशा छेडछाडीच्या प्रयत्नांना ओळखणे आणि त्यांना प्रतिकार करणे शिकवले जाते.
सुधारणेचे तीन स्तंभ
OpenAI तीन वेगवेगळ्या पैलूंमध्ये सुधारणा नोंदवते. पहिले, instruction hierarchy adherence: IH-Challenge सह प्रशिक्षित मॉडेल्सना विरोधी user instructions समोर आल्यावर system prompt निर्देश पाळण्याची शक्यता लक्षणीयरीत्या जास्त असते. दुसरे, safety steerability: operator OpenAI च्या धोरणांनी ठरवलेल्या मर्यादांमध्ये मॉडेलचे वर्तन अधिक विश्वासार्हपणे सानुकूलित करू शकतात. तिसरे, prompt injection resistance: direct आणि indirect दोन्ही प्रकारच्या injection attacks प्रति मॉडेलची संवेदनशीलता लक्षणीयरीत्या कमी होते.
या संशोधनात असेही आढळते की IH-Challenge प्रशिक्षण, प्रशिक्षणात वापरलेल्या विशिष्ट परिस्थितींपलीकडेही सामान्यीकरण करते. मॉडेल्स trust levels चे अधिक मजबूत अंतर्गत प्रतिनिधित्व विकसित करत असल्याचे दिसते, आणि प्रशिक्षणात न पाहिलेल्या नवीन attack patterns वर शिकलेली hierarchy लागू करतात.
AI Agent तैनातीवरील परिणाम
हे काम एका महत्त्वाच्या क्षणी येते. AI agents ना email, browsers, code execution environments, आणि enterprise software कडे प्रवेश मिळत असताना, यशस्वी prompt injection attacks चे परिणाम लाजिरवाण्यापासून विनाशकारीपर्यंत वाढतात. एखादा दुष्ट webpage वापरून hijack करता येणारा agent संवेदनशील data लीक करू शकतो, credentials exfiltrate करू शकतो, किंवा मोठ्या प्रमाणावर विध्वंसक कृती करू शकतो.
IH-Challenge हा मोठ्या कोड्याचा फक्त एक भाग आहे. training पातळीवरील technical defenses ना architectural safeguards सोबत एकत्र करावे लागेल, जसे sandboxed execution environments, उच्च-जोखीम कृतींसाठी confirmation gates, आणि tool permissions चे काळजीपूर्वक मर्यादितीकरण, जेणेकरून अर्थपूर्ण संरक्षण मिळेल. पण मॉडेलमध्येच अंतर्भूत केलेल्या पायाभूत संरक्षण म्हणून, हे baseline लक्षणीयरीत्या वाढवते.
हा लेख OpenAI च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on openai.com



