AI মডেলকে সঠিক নির্দেশ মানতে শেখানো
OpenAI IH-Challenge নামে একটি নতুন প্রশিক্ষণ পদ্ধতি নিয়ে গবেষণা প্রকাশ করেছে, যা বাস্তবে ব্যবহৃত AI সিস্টেমের সবচেয়ে স্থায়ী সমস্যাগুলোর একটি সমাধান করার জন্য তৈরি: ডেভেলপার, অপারেটর এবং যাচাইকৃত ব্যবহারকারীর মতো বিশ্বাসযোগ্য পক্ষের নির্দেশকে, ওয়েব কন্টেন্ট বা টুল আউটপুটের মতো অবিশ্বাস্য চ্যানেল থেকে আসা সম্ভাব্য প্রতিকূল নির্দেশের চেয়ে নির্ভরযোগ্যভাবে অগ্রাধিকার দিতে মডেলকে শেখানো।
এই কাজটি AI safety community যে instruction hierarchy problem বলে, সেটির সমাধান করতে চায়। একটি এজেন্ট হিসেবে কাজ করা বড় ভাষা মডেল একই সঙ্গে একাধিক উৎস থেকে নির্দেশ পেতে পারে: ডেভেলপারের কাছ থেকে একটি system prompt, ব্যবহারকারীর নির্দেশ, এবং ওয়েব বা বাহ্যিক টুল থেকে আনা কন্টেন্ট। এই নির্দেশগুলো যখন পরস্পরের সঙ্গে সাংঘর্ষিক হয়, তখন কোনটি মানতে হবে তা নির্ধারণের জন্য মডেলের একটি নীতিনিষ্ঠ উপায় দরকার।
Instruction Hierarchy ধরে রাখা কেন কঠিন হয়েছে
তত্ত্ব অনুযায়ী সমাধান সহজ: system prompt-কে সবসময় user input-এর ওপর অগ্রাধিকার পেতে হবে, আর user input-কে বাহ্যিক উৎসের কন্টেন্টের ওপর। বাস্তবে, মানব প্রতিক্রিয়ার ভিত্তিতে প্রধানত প্রশিক্ষিত ভাষা মডেলগুলো প্রতিকূল চাপের মধ্যে এই hierarchy বজায় রাখতে আশ্চর্যজনকভাবে দুর্বল প্রমাণিত হয়েছে।
আক্রমণকারীরা এই দুর্বলতাকে ব্যাপকভাবে কাজে লাগিয়েছে। Prompt injection আক্রমণ, যেখানে একটি ওয়েবপেজ বা ডকুমেন্টে লুকানো ক্ষতিকর লেখা AI-কে তার system prompt উপেক্ষা করে নতুন নির্দেশ মানতে বলে, বহু বাস্তব-জগতের ডেপ্লয়মেন্টে AI agent-দের ক্ষতিগ্রস্ত করেছে। এসব আক্রমণ প্রায়ই খুবই সরল, এবং আপাতদৃষ্টিতে নিরীহ কন্টেন্টের মধ্যে ignore all previous instructions-এর মতো বাক্যাংশ ব্যবহার করে।
IH-Challenge এমন training example তৈরি করে এই সমস্যার মোকাবিলা করে, যেগুলো বিশেষভাবে instruction hierarchy মানার সক্ষমতা চাপ পরীক্ষা করার জন্য তৈরি। dataset-এ এমন পরিস্থিতি রয়েছে যেখানে কম-আস্থা উৎস থেকে আসা প্রতিকূল নির্দেশ উচ্চ-আস্থা system prompt-এর সঙ্গে সরাসরি সংঘর্ষে যায়, ফলে মডেলকে এই কারসাজির চেষ্টা শনাক্ত ও প্রতিরোধ করতে শেখানো হয়।
উন্নতির তিনটি স্তম্ভ
OpenAI তিনটি পৃথক মাত্রায় উন্নতির কথা জানায়। প্রথমটি, instruction hierarchy adherence: IH-Challenge দিয়ে প্রশিক্ষিত মডেলগুলো পরস্পরবিরোধী user instructions-এর মুখোমুখি হলে system prompt নির্দেশ মেনে চলার সম্ভাবনা উল্লেখযোগ্যভাবে বেশি। দ্বিতীয়টি, safety steerability: অপারেটররা OpenAI-র নীতিমালায় নির্ধারিত সীমার মধ্যে মডেলের আচরণ আরও নির্ভরযোগ্যভাবে কাস্টমাইজ করতে পারেন। তৃতীয়টি, prompt injection resistance: direct এবং indirect উভয় ধরনের injection আক্রমণের প্রতিও মডেলগুলো অনেক কম সংবেদনশীলতা দেখায়।
গবেষণায় আরও দেখা যায়, IH-Challenge প্রশিক্ষণ নির্দিষ্ট প্রশিক্ষণ পরিস্থিতির বাইরেও সাধারণীকৃত হয়। মডেলগুলো trust levels-এর আরও শক্তিশালী অভ্যন্তরীণ উপস্থাপন গড়ে তোলে বলে মনে হয়, এবং প্রশিক্ষণে না দেখা নতুন attack pattern-এও শেখা hierarchy প্রয়োগ করে।
AI Agent ডেপ্লয়মেন্টে প্রভাব
এই কাজটি একটি গুরুত্বপূর্ণ সময়ে এসেছে। AI agent-রা email, browser, code execution environment, এবং enterprise software-এ প্রবেশাধিকার পাওয়ার সঙ্গে সঙ্গে, সফল prompt injection আক্রমণের পরিণতি বিব্রতকর থেকে বিপর্যয়কর হয়ে ওঠে। কোনো ক্ষতিকর ওয়েবপেজের মাধ্যমে hijack করা যায় এমন একটি agent সংবেদনশীল data ফাঁস করতে পারে, credentials exfiltrate করতে পারে, অথবা বৃহৎ পরিসরে ধ্বংসাত্মক পদক্ষেপ নিতে পারে।
IH-Challenge বৃহত্তর একটি ধাঁধার কেবল এক অংশ। training স্তরের প্রযুক্তিগত defense-কে architectural safeguard-এর সঙ্গে মিলিয়ে ব্যবহার করতে হবে, যেমন sandboxed execution environment, উচ্চ-ঝুঁকির কাজের জন্য confirmation gate, এবং tool permission সতর্কভাবে সীমাবদ্ধ করা, যাতে অর্থপূর্ণ সুরক্ষা পাওয়া যায়। কিন্তু মডেলের মধ্যেই অন্তর্নির্মিত একটি ভিত্তিমূলক প্রতিরক্ষা হিসেবে, এটি baseline-কে উল্লেখযোগ্যভাবে উঁচুতে তোলে।
এই নিবন্ধটি OpenAI-এর রিপোর্টিং-এর ভিত্তিতে লেখা। মূল নিবন্ধটি পড়ুন.
Originally published on openai.com



