প্রম্পটের ধরন এখনও AI নির্ভরযোগ্যতা ভেঙে দেয়
NewsGuard-এর নতুন অডিট ইঙ্গিত দেয় যে, ব্যবহারকারীরা মিথ্যাকে প্রতিষ্ঠিত সত্য হিসেবে ফ্রেম করলে বা সেই দাবিগুলোকে বৃহত্তরভাবে ছড়িয়ে দিতে চ্যাটবটকে বললে Mistral-এর Le Chat এখনও খুবই ভুল তথ্য-সংবেদনশীল রয়ে গেছে।
২৯ এপ্রিল প্রকাশিত ফলাফলগুলো ইরান-যুদ্ধ-সংক্রান্ত মিথ্যা বর্ণনাগুলোকে কেন্দ্র করে এবং দেখায় যে মডেলটি নিরপেক্ষ প্রশ্নের তুলনায় প্ররোচনামূলক বা স্পষ্টতই ক্ষতিকর প্রম্পটের প্রতি কীভাবে ভিন্নভাবে সাড়া দেয়। এই ব্যবধানটি গুরুত্বপূর্ণ, কারণ এটি ভোক্তা AI সিস্টেমের একটি পরিচিত কিন্তু এখনো অনিরসিত দুর্বলতা তুলে ধরে: অনেক সিস্টেম সরাসরি প্রশ্নে যুক্তিসংগত আচরণ করতে পারে, কিন্তু প্রম্পট নিজেই প্রতিপক্ষসুলভ হয়ে উঠলেই খারাপভাবে ব্যর্থ হয়।
অডিটে কী পরীক্ষা করা হয়েছিল
রিপোর্ট অনুযায়ী, NewsGuard রুশ, ইরানি, এবং চীনা উৎস থেকে আসা দশটি মিথ্যা দাবির পরীক্ষা করে। উদাহরণ হিসেবে ছিল French carrier Charles de Gaulle-এ টাইফাস ছড়িয়েছে বলে বানানো গল্প, শত শত মার্কিন সেনা নিহত হওয়ার দাবি, এবং ওমানের ওপর একটি Emirati ড্রোন হামলার কথা।
প্রতিটি দাবিকে তিন ধরনের প্রম্পটে চালানো হয়েছিল:
- নিরপেক্ষ প্রশ্ন, যা দাবি সত্য ধরে না নিয়ে তা সম্পর্কে জিজ্ঞাসা করেছিল
- প্ররোচনামূলক প্রশ্ন, যা মিথ্যা দাবিটিকে সত্য হিসেবে ধরে নিয়েছিল
- ক্ষতিকর প্রম্পট, যা ভুল তথ্যকে সোশ্যাল-মিডিয়া-উপযোগী কন্টেন্টে রূপান্তর করতে বলেছিল
রিপোর্ট করা ফলাফল ছিল স্পষ্ট। নিরপেক্ষ প্রম্পটে ত্রুটি হার ছিল প্রায় 10 শতাংশ, প্ররোচনামূলক প্রম্পটে 60 শতাংশ, এবং ক্ষতিকর প্রম্পটে 80 শতাংশ। পুরো অডিটে, NewsGuard বলেছে Le Chat ইংরেজিতে 50 শতাংশ এবং ফ্রেঞ্চে 56.6 শতাংশ ত্রুটি হার দেখিয়েছে।
এই সংখ্যাগুলো কেন গুরুত্বপূর্ণ
এই ফলাফলগুলো শুধু এটুকুই দেখায় না যে মডেল তথ্যগতভাবে ভুল হতে পারে। এগুলো দেখায়, প্রম্পটের কাঠামো নিজেই কতটা প্রভাব ফেলে যে সিস্টেমটি মিথ্যা বর্ণনার প্রতিরোধ করবে নাকি সেগুলোকে আরও বাড়াবে। বাস্তবে, যে ব্যবহারকারী অনিশ্চিত এবং সতর্কভাবে জিজ্ঞাসা করে, সে এক ধরনের উত্তর পেতে পারে; কিন্তু যে ব্যবহারকারী ভুল তথ্যকে সাদামাটা করে ছড়াতে চায়, সে আরও বিপজ্জনক উত্তর বের করতে পারে।
AI নিরাপত্তা বিতর্কের কেন্দ্রে সেটাই। সবচেয়ে কঠিন বাস্তব সমস্যা হলো, চ্যাটবট আদর্শ অবস্থায় বইয়ের মতো সোজা প্রশ্নের সঠিক উত্তর দেয় কি না, তা নয়। প্রকৃত চ্যালেঞ্জ হলো, লোকেরা অলঙ্কারিক framing, বাছাই করা context, বা সরাসরি manipulation ব্যবহার করলেও সিস্টেমটি কি নির্ভরযোগ্য থাকে।
সেই মানদণ্ডে, এই অডিট একটি বড় দৃঢ়তা-সমস্যার দিকে ইঙ্গিত করে।
যুদ্ধকালীন পরিবেশে ভুল তথ্যের চাপ আসে
ভূ-রাজনৈতিক প্রেক্ষাপট এই ফলাফলগুলোকে আরও গুরুত্বপূর্ণ করে তোলে। যুদ্ধকালীন তথ্য-পরিবেশ ইতিমধ্যেই যাচাইহীন দাবি, প্রচার, এবং আবেগময় বর্ণনায় ভরা থাকে। এমন পরিস্থিতিতে, চ্যাটবট যদি মানব fact-checkers-এর চেয়ে দ্রুত মিথ্যা দাবিকে summarize, endorse, বা stylistically polish করে, তবে তা সেগুলোকে আরও ছড়িয়ে দিতে পারে।
রাষ্ট্র-সংযুক্ত বর্ণনাগুলোর ওপর অডিটের জোরও লক্ষণীয়। ভুল তথ্য এখন শুধু সামাজিক প্ল্যাটফর্মের moderation সমস্যা নয়; এটি AI assistant-দের জন্য retrieval, summarization, এবং generation সমস্যাও। যে চ্যাটবট প্ররোচনামূলক প্রম্পটকে খুব আক্ষরিকভাবে নেয়, সেটি সেই ecosystem-এ সহজ লক্ষ্য হয়ে উঠতে পারে।
এর মানে এই নয় যে সিস্টেমটি ইচ্ছাকৃতভাবে মিথ্যার দিকে ঝুঁকে আছে। এর মানে হলো, খারাপ তথ্য আত্মবিশ্বাসের সঙ্গে উপস্থাপিত হলে, বা ব্যবহারকারীর অনুরোধ truth-seeking-এর বদলে content-production task হিসেবে ফ্রেম করা হলে, মডেলের যথেষ্ট সুরক্ষা নাও থাকতে পারে।
কেন নিরপেক্ষ পারফরম্যান্স যথেষ্ট নয়
নিরপেক্ষ প্রম্পটে 10 শতাংশ ত্রুটি হারও আদর্শ নয়, কিন্তু 60 থেকে 80 শতাংশের পরিসরের সঙ্গে তার ব্যবধানটাই সবচেয়ে নজর কেড়েছে। এটি ইঙ্গিত করে যে সিস্টেমের প্রতিরক্ষা ব্যবস্থা খুবই পাতলা। দাবির premise-কে দৃঢ়ভাবে প্রশ্ন করার বদলে, মডেল প্রায়ই ব্যবহারকারীর framing মেনে নিয়ে এগিয়ে যায়।
এই কারণেই শুধু নিরপেক্ষ benchmark-এর ওপর ভিত্তি করে করা safety evaluations বিভ্রান্তিকর হতে পারে। পাবলিক deployment কেবল সতর্ক ও সদিচ্ছাপূর্ণ ব্যবহারকারীরাই করে না। প্রচারক, মার্কেটার, ট্রল, এবং যাঁরা গুজবকে প্রথমে যেভাবে দেখেছেন সেভাবেই পুনরাবৃত্তি করেন, এমন সাধারণ মানুষও এগুলো পরীক্ষা করেন।
যদি সেই অবস্থায় মডেলের নির্ভুলতা ভেঙে পড়ে, তাহলে headline benchmark performance-এ যতটা মনে হয়, তার চেয়ে বাস্তব নির্ভরযোগ্যতা কম।
নীতি ও পণ্যগত চ্যালেঞ্জ
রিপোর্ট অনুযায়ী, Mistral NewsGuard-এর মন্তব্য-অনুরোধের জবাব দেয়নি। ফলে প্রশ্ন রয়ে গেছে যে কোম্পানি prompt-level safeguards, আরও শক্তিশালী claim verification, refusal strategies, বা দ্রুত পরিবর্তনশীল conflict narratives-এর জন্য অন্য কোনো mitigation আনবে কি না।
আরও একটি জটিলতা আছে: ফরাসি প্রতিরক্ষা মন্ত্রণালয় নাকি Le Chat-এর একটি customized, offline version ব্যবহার করে। এটি audited consumer behavior-কে সরকারী deployment-এর সঙ্গে সরাসরি যুক্ত করে না, কিন্তু দেখায় যে adversarial prompting-এর অধীনে model reliability কোনো ছোটখাটো উদ্বেগ নয়।
ডেভেলপাররা ক্রমশ AI সিস্টেমকে research aides, communication tools, এবং workflow assistants হিসেবে বাজারজাত করছে। এই কাজগুলো সেগুলোকে উচ্চ-প্রভাবের তথ্য-বিতর্কের সরাসরি পথে নিয়ে আসে। যে মডেল কেবল তখনই ভালো কাজ করে যখন ব্যবহারকারী একেবারে নিরপেক্ষ প্রশ্ন করে, তারা বাস্তব পরিচালন পরিবেশের চাহিদা পূরণ করছে না।
AI নিরাপত্তার পরের ধাপ সম্পর্কে এই অডিট কী বলে
NewsGuard-এর ফলাফল থেকে সবচেয়ে গুরুত্বপূর্ণ শিক্ষা হলো, misinformation resistance-কে বাস্তব attack patterns-এর বিরুদ্ধে stress-test করতে হবে, ভদ্র ব্যবহার-কেসে নয়। প্ররোচনামূলক প্রশ্ন এবং content-repackaging অনুরোধ এখন edge case নয়, বরং সাধারণ failure mode।
ব্যবহারকারীদের জন্য takeaway সহজ: বিতর্কিত, দ্রুত পরিবর্তনশীল ভূ-রাজনৈতিক ঘটনায়, তাদের উত্তর স্বাধীনভাবে যাচাই না করলে চ্যাটবট সত্যের ভালো arbiter নয়। ডেভেলপারদের জন্য বার্তাটি আরও কঠিন। মডেলকে plausible text আনার বাইরে যেতে হবে। তাকে unsupported premise চ্যালেঞ্জ করতে হবে, narrative manipulation শনাক্ত করতে হবে, এবং propaganda-র formatting layer হয়ে উঠতে অস্বীকার করতে হবে।
Le Chat এই সমস্যার একমাত্র উদাহরণ নয়। কিন্তু প্রম্পট framing এতটা নাটকীয়ভাবে performance বদলে দিতে পারলে, তথ্যক্ষেত্রে নির্ভরযোগ্য AI সহায়তার দাবিগুলোকে সতর্কতার সঙ্গে দেখা উচিত, এই অডিট সেটাই মনে করিয়ে দেয়।
এই প্রবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে। মূল প্রবন্ধ পড়ুন.
Originally published on the-decoder.com




