OpenAI IH-Challenge LLM-গুলোকে কারসাজি প্রতিরোধে প্রশিক্ষণ দেয়

AI মডেলকে সঠিক নির্দেশ মানতে শেখানো

OpenAI IH-Challenge নামে একটি নতুন প্রশিক্ষণ পদ্ধতি নিয়ে গবেষণা প্রকাশ করেছে, যা বাস্তবে ব্যবহৃত AI সিস্টেমের সবচেয়ে স্থায়ী সমস্যাগুলোর একটি সমাধান করার জন্য তৈরি: ডেভেলপার, অপারেটর এবং যাচাইকৃত ব্যবহারকারীর মতো বিশ্বাসযোগ্য পক্ষের নির্দেশকে, ওয়েব কন্টেন্ট বা টুল আউটপুটের মতো অবিশ্বাস্য চ্যানেল থেকে আসা সম্ভাব্য প্রতিকূল নির্দেশের চেয়ে নির্ভরযোগ্যভাবে অগ্রাধিকার দিতে মডেলকে শেখানো।

এই কাজটি AI safety community যে instruction hierarchy problem বলে, সেটির সমাধান করতে চায়। একটি এজেন্ট হিসেবে কাজ করা বড় ভাষা মডেল একই সঙ্গে একাধিক উৎস থেকে নির্দেশ পেতে পারে: ডেভেলপারের কাছ থেকে একটি system prompt, ব্যবহারকারীর নির্দেশ, এবং ওয়েব বা বাহ্যিক টুল থেকে আনা কন্টেন্ট। এই নির্দেশগুলো যখন পরস্পরের সঙ্গে সাংঘর্ষিক হয়, তখন কোনটি মানতে হবে তা নির্ধারণের জন্য মডেলের একটি নীতিনিষ্ঠ উপায় দরকার।

Instruction Hierarchy ধরে রাখা কেন কঠিন হয়েছে

তত্ত্ব অনুযায়ী সমাধান সহজ: system prompt-কে সবসময় user input-এর ওপর অগ্রাধিকার পেতে হবে, আর user input-কে বাহ্যিক উৎসের কন্টেন্টের ওপর। বাস্তবে, মানব প্রতিক্রিয়ার ভিত্তিতে প্রধানত প্রশিক্ষিত ভাষা মডেলগুলো প্রতিকূল চাপের মধ্যে এই hierarchy বজায় রাখতে আশ্চর্যজনকভাবে দুর্বল প্রমাণিত হয়েছে।

আক্রমণকারীরা এই দুর্বলতাকে ব্যাপকভাবে কাজে লাগিয়েছে। Prompt injection আক্রমণ, যেখানে একটি ওয়েবপেজ বা ডকুমেন্টে লুকানো ক্ষতিকর লেখা AI-কে তার system prompt উপেক্ষা করে নতুন নির্দেশ মানতে বলে, বহু বাস্তব-জগতের ডেপ্লয়মেন্টে AI agent-দের ক্ষতিগ্রস্ত করেছে। এসব আক্রমণ প্রায়ই খুবই সরল, এবং আপাতদৃষ্টিতে নিরীহ কন্টেন্টের মধ্যে ignore all previous instructions-এর মতো বাক্যাংশ ব্যবহার করে।

IH-Challenge এমন training example তৈরি করে এই সমস্যার মোকাবিলা করে, যেগুলো বিশেষভাবে instruction hierarchy মানার সক্ষমতা চাপ পরীক্ষা করার জন্য তৈরি। dataset-এ এমন পরিস্থিতি রয়েছে যেখানে কম-আস্থা উৎস থেকে আসা প্রতিকূল নির্দেশ উচ্চ-আস্থা system prompt-এর সঙ্গে সরাসরি সংঘর্ষে যায়, ফলে মডেলকে এই কারসাজির চেষ্টা শনাক্ত ও প্রতিরোধ করতে শেখানো হয়।

Create, edit and star in videos with two Google Vids updates

Google Vids-এ Gemini Omni এবং ব্যক্তিগত অ্যাভাটার যুক্ত হলো

Google Workspace-এ AI ভিডিও তৈরি আরও বিস্তৃত করছে, যেখানে প্রম্পট-ভিত্তিক ক্লিপ জেনারেশন ও এডিটিং, পাশাপাশি সেলফি ও ভয়েস রেকর্ডিং থেকে তৈরি কাস্টম অ্যাভাটার রয়েছে।

Read article

উন্নতির তিনটি স্তম্ভ

OpenAI তিনটি পৃথক মাত্রায় উন্নতির কথা জানায়। প্রথমটি, instruction hierarchy adherence: IH-Challenge দিয়ে প্রশিক্ষিত মডেলগুলো পরস্পরবিরোধী user instructions-এর মুখোমুখি হলে system prompt নির্দেশ মেনে চলার সম্ভাবনা উল্লেখযোগ্যভাবে বেশি। দ্বিতীয়টি, safety steerability: অপারেটররা OpenAI-র নীতিমালায় নির্ধারিত সীমার মধ্যে মডেলের আচরণ আরও নির্ভরযোগ্যভাবে কাস্টমাইজ করতে পারেন। তৃতীয়টি, prompt injection resistance: direct এবং indirect উভয় ধরনের injection আক্রমণের প্রতিও মডেলগুলো অনেক কম সংবেদনশীলতা দেখায়।

গবেষণায় আরও দেখা যায়, IH-Challenge প্রশিক্ষণ নির্দিষ্ট প্রশিক্ষণ পরিস্থিতির বাইরেও সাধারণীকৃত হয়। মডেলগুলো trust levels-এর আরও শক্তিশালী অভ্যন্তরীণ উপস্থাপন গড়ে তোলে বলে মনে হয়, এবং প্রশিক্ষণে না দেখা নতুন attack pattern-এও শেখা hierarchy প্রয়োগ করে।

AI Agent ডেপ্লয়মেন্টে প্রভাব

এই কাজটি একটি গুরুত্বপূর্ণ সময়ে এসেছে। AI agent-রা email, browser, code execution environment, এবং enterprise software-এ প্রবেশাধিকার পাওয়ার সঙ্গে সঙ্গে, সফল prompt injection আক্রমণের পরিণতি বিব্রতকর থেকে বিপর্যয়কর হয়ে ওঠে। কোনো ক্ষতিকর ওয়েবপেজের মাধ্যমে hijack করা যায় এমন একটি agent সংবেদনশীল data ফাঁস করতে পারে, credentials exfiltrate করতে পারে, অথবা বৃহৎ পরিসরে ধ্বংসাত্মক পদক্ষেপ নিতে পারে।

IH-Challenge বৃহত্তর একটি ধাঁধার কেবল এক অংশ। training স্তরের প্রযুক্তিগত defense-কে architectural safeguard-এর সঙ্গে মিলিয়ে ব্যবহার করতে হবে, যেমন sandboxed execution environment, উচ্চ-ঝুঁকির কাজের জন্য confirmation gate, এবং tool permission সতর্কভাবে সীমাবদ্ধ করা, যাতে অর্থপূর্ণ সুরক্ষা পাওয়া যায়। কিন্তু মডেলের মধ্যেই অন্তর্নির্মিত একটি ভিত্তিমূলক প্রতিরক্ষা হিসেবে, এটি baseline-কে উল্লেখযোগ্যভাবে উঁচুতে তোলে।

এই নিবন্ধটি OpenAI-এর রিপোর্টিং-এর ভিত্তিতে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on openai.com

OpenAI-এর IH-Challenge LLM-গুলোকে কারসাজির বিরুদ্ধে শক্ত করে

AI মডেলকে সঠিক নির্দেশ মানতে শেখানো

Instruction Hierarchy ধরে রাখা কেন কঠিন হয়েছে

Google Vids-এ Gemini Omni এবং ব্যক্তিগত অ্যাভাটার যুক্ত হলো

উন্নতির তিনটি স্তম্ভ

AI Agent ডেপ্লয়মেন্টে প্রভাব

Comments (0)

Keep Reading