OpenAI IH-Challenge LLMsना छेडछाडीला प्रतिकार करण्यासाठी प्रशिक्षण देते

AI मॉडेल्सना योग्य सूचना पाळायला शिकवणे

OpenAI ने IH-Challenge नावाच्या नवीन प्रशिक्षण पद्धतीवर संशोधन प्रकाशित केले आहे, जी तैनात AI प्रणालींमधील सर्वात सातत्याने दिसणाऱ्या समस्यांपैकी एक सोडवण्यासाठी तयार करण्यात आली आहे: developer, operator, आणि verified users यांसारख्या विश्वासार्ह पक्षांकडून येणाऱ्या सूचनांना, web content किंवा tool outputs सारख्या अविश्वसनीय चॅनेलमधून येणाऱ्या संभाव्य विरोधी सूचनांपेक्षा मॉडेल्सनी सातत्याने प्राधान्य देणे.

हे काम AI safety समुदाय instruction hierarchy problem म्हणतो त्यावर लक्ष केंद्रित करते. agent म्हणून कार्य करणाऱ्या मोठ्या भाषा मॉडेलला एकाच वेळी अनेक स्रोतांकडून सूचना मिळू शकतात: developer कडून system prompt, user कडून सूचना, आणि web किंवा बाह्य tools मधून मिळालेला मजकूर. त्या सूचना एकमेकांशी संघर्ष करत असतील, तर कोणती पाळायची हे ठरवण्यासाठी मॉडेलकडे तत्त्वाधारित मार्ग हवा.

Instruction Hierarchy का कठीण ठरली

सिद्धांतात उपाय सोपा आहे: system prompt नेहमी user input वर प्राधान्य मिळायला हवे, आणि user input ने बाह्य स्रोतांतील मजकुरावर. प्रत्यक्षात, human feedback वर प्रामुख्याने प्रशिक्षित language models विरोधी दबावाखाली ही hierarchy टिकवण्यात आश्चर्यकारकरित्या कमकुवत ठरले आहेत.

हल्लेखोरांनी या कमकुवतपणाचा मोठ्या प्रमाणावर फायदा घेतला आहे. Prompt injection attacks, ज्यात webpage किंवा document मध्ये लपवलेला दुष्ट मजकूर AI ला त्याचा system prompt दुर्लक्षित करून नवीन निर्देश पाळायला सांगतो, अशा हल्ल्यांनी डझनभर वास्तविक तैनातींमधील AI agentsना बाधित केले आहे. हे हल्ले अनेकदा अत्यंत साधे असतात, आणि अन्यथा निरुपद्रवी दिसणाऱ्या मजकुरात ignore all previous instructions अशी वाक्ये असतात.

IH-Challenge हे instruction hierarchy चे पालन तपासण्यासाठी खास तयार केलेल्या training examples तयार करून या समस्येला हाताळतो. dataset मध्ये अशी परिस्थिती समाविष्ट आहे जिथे कमी-विश्वासाच्या स्रोतांकडून आलेल्या विरोधी सूचनांचा उच्च-विश्वास system prompts शी थेट संघर्ष होतो, त्यामुळे मॉडेलला अशा छेडछाडीच्या प्रयत्नांना ओळखणे आणि त्यांना प्रतिकार करणे शिकवले जाते.

How we used Gemini to build Google I/O 2026

Google ने सांगितले की Gemini ने I/O 2026 तयार करण्यात कशी मदत केली

Googleचे म्हणणे आहे की टीम्सनी Google I/O 2026 साठी चित्रपट, दृश्ये आणि इव्हेंट घटक तयार करण्यासाठी Gemini आणि इतर AI साधनांचा वापर केला, आणि हा परिषद AI-सहाय्यित निर्मितीचा अंतर्गत नमुना म्हणून मांडला.

Read article

सुधारणेचे तीन स्तंभ

OpenAI तीन वेगवेगळ्या पैलूंमध्ये सुधारणा नोंदवते. पहिले, instruction hierarchy adherence: IH-Challenge सह प्रशिक्षित मॉडेल्सना विरोधी user instructions समोर आल्यावर system prompt निर्देश पाळण्याची शक्यता लक्षणीयरीत्या जास्त असते. दुसरे, safety steerability: operator OpenAI च्या धोरणांनी ठरवलेल्या मर्यादांमध्ये मॉडेलचे वर्तन अधिक विश्वासार्हपणे सानुकूलित करू शकतात. तिसरे, prompt injection resistance: direct आणि indirect दोन्ही प्रकारच्या injection attacks प्रति मॉडेलची संवेदनशीलता लक्षणीयरीत्या कमी होते.

या संशोधनात असेही आढळते की IH-Challenge प्रशिक्षण, प्रशिक्षणात वापरलेल्या विशिष्ट परिस्थितींपलीकडेही सामान्यीकरण करते. मॉडेल्स trust levels चे अधिक मजबूत अंतर्गत प्रतिनिधित्व विकसित करत असल्याचे दिसते, आणि प्रशिक्षणात न पाहिलेल्या नवीन attack patterns वर शिकलेली hierarchy लागू करतात.

AI Agent तैनातीवरील परिणाम

हे काम एका महत्त्वाच्या क्षणी येते. AI agents ना email, browsers, code execution environments, आणि enterprise software कडे प्रवेश मिळत असताना, यशस्वी prompt injection attacks चे परिणाम लाजिरवाण्यापासून विनाशकारीपर्यंत वाढतात. एखादा दुष्ट webpage वापरून hijack करता येणारा agent संवेदनशील data लीक करू शकतो, credentials exfiltrate करू शकतो, किंवा मोठ्या प्रमाणावर विध्वंसक कृती करू शकतो.

IH-Challenge हा मोठ्या कोड्याचा फक्त एक भाग आहे. training पातळीवरील technical defenses ना architectural safeguards सोबत एकत्र करावे लागेल, जसे sandboxed execution environments, उच्च-जोखीम कृतींसाठी confirmation gates, आणि tool permissions चे काळजीपूर्वक मर्यादितीकरण, जेणेकरून अर्थपूर्ण संरक्षण मिळेल. पण मॉडेलमध्येच अंतर्भूत केलेल्या पायाभूत संरक्षण म्हणून, हे baseline लक्षणीयरीत्या वाढवते.

हा लेख OpenAI च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

OpenAI चे रोबोटिक्स इन्फ्रास्ट्रक्चर काम आणि दीर्घकालीन ग्राहकदृष्टीभोवती पुन्हा उभारले जात आहे

OpenAI ने आपली रोबोटिक्स टीम पुन्हा उभी केली आहे, सुरुवात इन्फ्रास्ट्रक्चर कामांपासून करत, तर CEO Sam Altman सर्वांसाठी वैयक्तिक रोबोट हा दीर्घकालीन उद्देश सांगतात.

Read article

Originally published on openai.com

OpenAI चा IH-Challenge LLMsना छेडछाडीपासून अधिक मजबूत करतो

AI मॉडेल्सना योग्य सूचना पाळायला शिकवणे

Instruction Hierarchy का कठीण ठरली

Google ने सांगितले की Gemini ने I/O 2026 तयार करण्यात कशी मदत केली

सुधारणेचे तीन स्तंभ

AI Agent तैनातीवरील परिणाम

OpenAI चे रोबोटिक्स इन्फ्रास्ट्रक्चर काम आणि दीर्घकालीन ग्राहकदृष्टीभोवती पुन्हा उभारले जात आहे

Comments (0)

Related Articles

उमेदवारांची चाचणी घेण्यासाठी Anthropic ने मुलाखतींमध्ये AI साधनांवर बंदी घातली

Keep Reading