OpenAI IH-Challenge LLMகளை கையாளுதலை எதிர்க்கப் பயிற்றுவிக்கிறது

AI மாடல்களை சரியான உத்தரவுகளைப் பின்பற்றக் கற்றுத்தருதல்

OpenAI, IH-Challenge எனப்படும் புதிய பயிற்சி முறையைப் பற்றிய ஆய்வை வெளியிட்டுள்ளது. இது நடைமுறையில் பயன்படுத்தப்படும் AI அமைப்புகளில் நீடித்துக் கொண்டிருக்கும் முக்கிய சிக்கல்களில் ஒன்றைத் தீர்க்க வடிவமைக்கப்பட்டுள்ளது: டெவலப்பர்கள், இயக்குநர்கள், மற்றும் சரிபார்க்கப்பட்ட பயனர்கள் போன்ற நம்பகமான தரப்புகளின் உத்தரவுகளை, வலை உள்ளடக்கம் அல்லது கருவி வெளியீடுகள் போன்ற நம்பகமற்ற வழிகளால் வரும் சாத்தியமான விரோதமான உத்தரவுகளை விட, மாடல்கள் நம்பகமாக முன்னுரிமை அளிக்கச் செய்வது.

இந்த வேலை, AI பாதுகாப்பு சமூகமானது instruction hierarchy problem என்று அழைக்கும் பிரச்சினையைச் சமாளிக்கிறது. ஒரு முகவராக இயங்கும் பெரிய மொழி மாடல் பல்வேறு மூலங்களில் இருந்து ஒரே நேரத்தில் உத்தரவுகளைப் பெறலாம்: டெவலப்பரிடமிருந்து system prompt, பயனரிடமிருந்து உத்தரவுகள், மற்றும் வலை அல்லது வெளிப்புற கருவிகளிலிருந்து மீட்டெடுக்கப்பட்ட உள்ளடக்கம். அந்த உத்தரவுகள் மோதும் போது, எதைப் பின்பற்ற வேண்டும் என்பதை முடிவுசெய்ய மாடலுக்கு ஒரு கொள்கைமுறையான வழி தேவைப்படுகிறது.

Instruction Hierarchy ஏன் கடினமாக இருந்தது

கோட்பாட்டில் தீர்வு எளிதானது: system prompt எப்போதும் user input-ஐ விட மேலிடத்தில் இருக்க வேண்டும்; அது wiederum வெளிப்புற மூலங்களிலிருந்து வரும் உள்ளடக்கத்தை விட மேலிடத்தில் இருக்க வேண்டும். ஆனால் நடைமுறையில், மனித கருத்துக்கிணக்கத்தின் அடிப்படையில் முதன்மையாகப் பயிற்சியளிக்கப்பட்ட மொழி மாடல்கள், விரோத அழுத்தத்தின் கீழ் இந்த hierarchy-களை நிலைநிறுத்துவதில் எதிர்பார்த்ததைவிட மோசமாக இருந்துள்ளன.

தாக்குதலாளர்கள் இந்த பலவீனத்தை பரவலாகப் பயன்படுத்தியுள்ளனர். Prompt injection தாக்குதல்கள், அதாவது ஒரு வலைப்பக்கத்தில் அல்லது ஆவணத்தில் பதிக்கப்பட்ட தீய உரை AI-யை அதன் system prompt-ஐ புறக்கணித்து புதிய உத்தரவுகளைப் பின்பற்றுமாறு கூறுவது, பல டஜன் நிஜ உலகப் பயன்பாடுகளில் AI முகவர்களை பாதித்துள்ளன. இந்த தாக்குதல்கள் பெரும்பாலும் மிகவும் எளிதானவை; பொதுவாக harmless போலத் தோன்றும் உள்ளடக்கத்தில் ignore all previous instructions போன்ற சொற்றொடர்கள் பதியப்பட்டிருக்கும்.

IH-Challenge, instruction hierarchy-யைப் பின்பற்றும் திறனை தீவிரமாக சோதிக்க சிறப்பாக வடிவமைக்கப்பட்ட training examples-களை உருவாக்கி இதைச் சமாளிக்கிறது. அந்த dataset-இல், குறைந்த நம்பகத்தன்மை கொண்ட மூலங்களில் இருந்து வரும் விரோத உத்தரவுகள், உயர் நம்பகத்தன்மை கொண்ட system prompts-க்கு நேரடியாக முரண்படும் சூழல்கள் அடங்குகின்றன; இதன் மூலம் அந்த கையாளல் முயற்சிகளை அடையாளம் கண்டு எதிர்க்க மாடல் பயிற்சி பெறுகிறது.

Create, edit and star in videos with two Google Vids updates

Google Vids-இல் Gemini Omni மற்றும் தனிப்பட்ட அவதாரங்கள் சேர்க்கப்பட்டன

Google Workspace-இல் AI வீடியோ உருவாக்கத்தை Google விரிவுபடுத்துகிறது; இதில் prompt-அடிப்படையிலான கிளிப் உருவாக்கம், திருத்தம், மேலும் selfie மற்றும் குரல் பதிவில் இருந்து உருவாக்கப்படும் தனிப்பயன் அவதாரங்களும் உள்ளன.

Read article

முன்னேற்றத்தின் மூன்று தூண்கள்

OpenAI, மூன்று தனித்த பரிமாணங்களில் மேம்பாடுகள் இருப்பதாக அறிவிக்கிறது. முதலில், instruction hierarchy adherence: IH-Challenge உடன் பயிற்சியளிக்கப்பட்ட மாடல்கள், முரண்படும் user instructions-ஐ எதிர்கொள்ளும் போது system prompt உத்தரவுகளைப் பின்பற்ற அதிக வாய்ப்புடையவையாக இருக்கின்றன. இரண்டாவது, safety steerability: OpenAI-யின் கொள்கைகளால் நிர்ணயிக்கப்பட்ட வரம்புகளுக்குள், இயக்குநர்கள் மாடல் நடத்தைப் பெருமளவில் நம்பகமாகத் தனிப்பயனாக்க முடிகிறது. மூன்றாவது, prompt injection resistance: direct மற்றும் indirect இருவிதமான injection தாக்குதல்களிலும் மாடல்கள் குறிப்பிடத்தக்க வகையில் குறைந்த பாதிப்புத்தன்மையைக் காட்டுகின்றன.

இந்த ஆய்வு, பயிற்சியில் பயன்படுத்தப்பட்ட குறிப்பிட்ட சூழல்களைத் தாண்டியும் IH-Challenge பயிற்சி பொதுப்படுத்தப்படுவதை கண்டறிகிறது. மாடல்கள் trust levels பற்றிய இன்னும் வலுவான உள் பிரதிநிதித்துவத்தை உருவாக்குகின்றன போலத் தெரிகிறது; பயிற்சியில் பார்க்கப்படாத புதிய attack patterns-களிலும் கற்ற hierarchy-யைப் பயன்படுத்துகின்றன.

AI Agent பயன்பாட்டிற்கான விளைவுகள்

இந்த வேலை முக்கிய தருணத்தில் வருகிறது. AI agents-கள் email, browsers, code execution environments, மற்றும் enterprise software-க்கு அணுகலைப் பெறும் நிலையில், வெற்றிகரமான prompt injection தாக்குதல்களின் விளைவுகள் வெட்கத்திற்குரிய தவறுகளிலிருந்து பேரழிவான விளைவுகளாக உயர்கின்றன. ஒரு தீய வலைப்பக்கம் மூலம் hijack செய்யக்கூடிய agent, sensitive data-ஐ கசியவிடலாம், credentials-ஐ exfiltrate செய்யலாம், அல்லது பரவலாக சேதகரமான செயல்களை மேற்கொள்ளலாம்.

IH-Challenge என்பது பெரிய புதிரின் ஒரு பகுதியை மட்டுமே பிரதிநிதித்துவப்படுத்துகிறது. training மட்டத்தில் உள்ள தொழில்நுட்ப பாதுகாப்புகள், architectural safeguards-களுடன் இணைக்கப்பட வேண்டும்: sandboxed execution environments, உயர்ஆபத்து நடவடிக்கைகளுக்கான confirmation gates, மற்றும் tool permissions-ஐ கவனமாக வரையறுப்பது போன்றவை, பொருத்தமான பாதுகாப்பை வழங்குவதற்காக. ஆனால் மாடலின் உட்பகுதியிலேயே கட்டமைக்கப்பட்ட அடிப்படை பாதுகாப்பாக, இது அடித்தளத் தரத்தை குறிப்பிடத்தக்க அளவில் உயர்த்துகிறது.

இந்த கட்டுரை OpenAI வழங்கிய செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on openai.com

OpenAI-இன் IH-Challenge LLMகளை கையாளுதலுக்கு எதிராக வலுப்படுத்துகிறது

AI மாடல்களை சரியான உத்தரவுகளைப் பின்பற்றக் கற்றுத்தருதல்

Instruction Hierarchy ஏன் கடினமாக இருந்தது

Google Vids-இல் Gemini Omni மற்றும் தனிப்பட்ட அவதாரங்கள் சேர்க்கப்பட்டன

முன்னேற்றத்தின் மூன்று தூண்கள்

AI Agent பயன்பாட்டிற்கான விளைவுகள்

Comments (0)

Keep Reading