AI மாடல்களை சரியான உத்தரவுகளைப் பின்பற்றக் கற்றுத்தருதல்

OpenAI, IH-Challenge எனப்படும் புதிய பயிற்சி முறையைப் பற்றிய ஆய்வை வெளியிட்டுள்ளது. இது நடைமுறையில் பயன்படுத்தப்படும் AI அமைப்புகளில் நீடித்துக் கொண்டிருக்கும் முக்கிய சிக்கல்களில் ஒன்றைத் தீர்க்க வடிவமைக்கப்பட்டுள்ளது: டெவலப்பர்கள், இயக்குநர்கள், மற்றும் சரிபார்க்கப்பட்ட பயனர்கள் போன்ற நம்பகமான தரப்புகளின் உத்தரவுகளை, வலை உள்ளடக்கம் அல்லது கருவி வெளியீடுகள் போன்ற நம்பகமற்ற வழிகளால் வரும் சாத்தியமான விரோதமான உத்தரவுகளை விட, மாடல்கள் நம்பகமாக முன்னுரிமை அளிக்கச் செய்வது.

இந்த வேலை, AI பாதுகாப்பு சமூகமானது instruction hierarchy problem என்று அழைக்கும் பிரச்சினையைச் சமாளிக்கிறது. ஒரு முகவராக இயங்கும் பெரிய மொழி மாடல் பல்வேறு மூலங்களில் இருந்து ஒரே நேரத்தில் உத்தரவுகளைப் பெறலாம்: டெவலப்பரிடமிருந்து system prompt, பயனரிடமிருந்து உத்தரவுகள், மற்றும் வலை அல்லது வெளிப்புற கருவிகளிலிருந்து மீட்டெடுக்கப்பட்ட உள்ளடக்கம். அந்த உத்தரவுகள் மோதும் போது, எதைப் பின்பற்ற வேண்டும் என்பதை முடிவுசெய்ய மாடலுக்கு ஒரு கொள்கைமுறையான வழி தேவைப்படுகிறது.

Instruction Hierarchy ஏன் கடினமாக இருந்தது

கோட்பாட்டில் தீர்வு எளிதானது: system prompt எப்போதும் user input-ஐ விட மேலிடத்தில் இருக்க வேண்டும்; அது wiederum வெளிப்புற மூலங்களிலிருந்து வரும் உள்ளடக்கத்தை விட மேலிடத்தில் இருக்க வேண்டும். ஆனால் நடைமுறையில், மனித கருத்துக்கிணக்கத்தின் அடிப்படையில் முதன்மையாகப் பயிற்சியளிக்கப்பட்ட மொழி மாடல்கள், விரோத அழுத்தத்தின் கீழ் இந்த hierarchy-களை நிலைநிறுத்துவதில் எதிர்பார்த்ததைவிட மோசமாக இருந்துள்ளன.

தாக்குதலாளர்கள் இந்த பலவீனத்தை பரவலாகப் பயன்படுத்தியுள்ளனர். Prompt injection தாக்குதல்கள், அதாவது ஒரு வலைப்பக்கத்தில் அல்லது ஆவணத்தில் பதிக்கப்பட்ட தீய உரை AI-யை அதன் system prompt-ஐ புறக்கணித்து புதிய உத்தரவுகளைப் பின்பற்றுமாறு கூறுவது, பல டஜன் நிஜ உலகப் பயன்பாடுகளில் AI முகவர்களை பாதித்துள்ளன. இந்த தாக்குதல்கள் பெரும்பாலும் மிகவும் எளிதானவை; பொதுவாக harmless போலத் தோன்றும் உள்ளடக்கத்தில் ignore all previous instructions போன்ற சொற்றொடர்கள் பதியப்பட்டிருக்கும்.

IH-Challenge, instruction hierarchy-யைப் பின்பற்றும் திறனை தீவிரமாக சோதிக்க சிறப்பாக வடிவமைக்கப்பட்ட training examples-களை உருவாக்கி இதைச் சமாளிக்கிறது. அந்த dataset-இல், குறைந்த நம்பகத்தன்மை கொண்ட மூலங்களில் இருந்து வரும் விரோத உத்தரவுகள், உயர் நம்பகத்தன்மை கொண்ட system prompts-க்கு நேரடியாக முரண்படும் சூழல்கள் அடங்குகின்றன; இதன் மூலம் அந்த கையாளல் முயற்சிகளை அடையாளம் கண்டு எதிர்க்க மாடல் பயிற்சி பெறுகிறது.

முன்னேற்றத்தின் மூன்று தூண்கள்

OpenAI, மூன்று தனித்த பரிமாணங்களில் மேம்பாடுகள் இருப்பதாக அறிவிக்கிறது. முதலில், instruction hierarchy adherence: IH-Challenge உடன் பயிற்சியளிக்கப்பட்ட மாடல்கள், முரண்படும் user instructions-ஐ எதிர்கொள்ளும் போது system prompt உத்தரவுகளைப் பின்பற்ற அதிக வாய்ப்புடையவையாக இருக்கின்றன. இரண்டாவது, safety steerability: OpenAI-யின் கொள்கைகளால் நிர்ணயிக்கப்பட்ட வரம்புகளுக்குள், இயக்குநர்கள் மாடல் நடத்தைப் பெருமளவில் நம்பகமாகத் தனிப்பயனாக்க முடிகிறது. மூன்றாவது, prompt injection resistance: direct மற்றும் indirect இருவிதமான injection தாக்குதல்களிலும் மாடல்கள் குறிப்பிடத்தக்க வகையில் குறைந்த பாதிப்புத்தன்மையைக் காட்டுகின்றன.

இந்த ஆய்வு, பயிற்சியில் பயன்படுத்தப்பட்ட குறிப்பிட்ட சூழல்களைத் தாண்டியும் IH-Challenge பயிற்சி பொதுப்படுத்தப்படுவதை கண்டறிகிறது. மாடல்கள் trust levels பற்றிய இன்னும் வலுவான உள் பிரதிநிதித்துவத்தை உருவாக்குகின்றன போலத் தெரிகிறது; பயிற்சியில் பார்க்கப்படாத புதிய attack patterns-களிலும் கற்ற hierarchy-யைப் பயன்படுத்துகின்றன.

AI Agent பயன்பாட்டிற்கான விளைவுகள்

இந்த வேலை முக்கிய தருணத்தில் வருகிறது. AI agents-கள் email, browsers, code execution environments, மற்றும் enterprise software-க்கு அணுகலைப் பெறும் நிலையில், வெற்றிகரமான prompt injection தாக்குதல்களின் விளைவுகள் வெட்கத்திற்குரிய தவறுகளிலிருந்து பேரழிவான விளைவுகளாக உயர்கின்றன. ஒரு தீய வலைப்பக்கம் மூலம் hijack செய்யக்கூடிய agent, sensitive data-ஐ கசியவிடலாம், credentials-ஐ exfiltrate செய்யலாம், அல்லது பரவலாக சேதகரமான செயல்களை மேற்கொள்ளலாம்.

IH-Challenge என்பது பெரிய புதிரின் ஒரு பகுதியை மட்டுமே பிரதிநிதித்துவப்படுத்துகிறது. training மட்டத்தில் உள்ள தொழில்நுட்ப பாதுகாப்புகள், architectural safeguards-களுடன் இணைக்கப்பட வேண்டும்: sandboxed execution environments, உயர்ஆபத்து நடவடிக்கைகளுக்கான confirmation gates, மற்றும் tool permissions-ஐ கவனமாக வரையறுப்பது போன்றவை, பொருத்தமான பாதுகாப்பை வழங்குவதற்காக. ஆனால் மாடலின் உட்பகுதியிலேயே கட்டமைக்கப்பட்ட அடிப்படை பாதுகாப்பாக, இது அடித்தளத் தரத்தை குறிப்பிடத்தக்க அளவில் உயர்த்துகிறது.

இந்த கட்டுரை OpenAI வழங்கிய செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on openai.com