অডিটে Mistral-এর Le Chat ইরান-যুদ্ধের ভুল তথ্য পুনরাবৃত্তি করেছে

প্রম্পটের ধরন এখনও AI নির্ভরযোগ্যতা ভেঙে দেয়

NewsGuard-এর নতুন অডিট ইঙ্গিত দেয় যে, ব্যবহারকারীরা মিথ্যাকে প্রতিষ্ঠিত সত্য হিসেবে ফ্রেম করলে বা সেই দাবিগুলোকে বৃহত্তরভাবে ছড়িয়ে দিতে চ্যাটবটকে বললে Mistral-এর Le Chat এখনও খুবই ভুল তথ্য-সংবেদনশীল রয়ে গেছে।

২৯ এপ্রিল প্রকাশিত ফলাফলগুলো ইরান-যুদ্ধ-সংক্রান্ত মিথ্যা বর্ণনাগুলোকে কেন্দ্র করে এবং দেখায় যে মডেলটি নিরপেক্ষ প্রশ্নের তুলনায় প্ররোচনামূলক বা স্পষ্টতই ক্ষতিকর প্রম্পটের প্রতি কীভাবে ভিন্নভাবে সাড়া দেয়। এই ব্যবধানটি গুরুত্বপূর্ণ, কারণ এটি ভোক্তা AI সিস্টেমের একটি পরিচিত কিন্তু এখনো অনিরসিত দুর্বলতা তুলে ধরে: অনেক সিস্টেম সরাসরি প্রশ্নে যুক্তিসংগত আচরণ করতে পারে, কিন্তু প্রম্পট নিজেই প্রতিপক্ষসুলভ হয়ে উঠলেই খারাপভাবে ব্যর্থ হয়।

অডিটে কী পরীক্ষা করা হয়েছিল

রিপোর্ট অনুযায়ী, NewsGuard রুশ, ইরানি, এবং চীনা উৎস থেকে আসা দশটি মিথ্যা দাবির পরীক্ষা করে। উদাহরণ হিসেবে ছিল French carrier Charles de Gaulle-এ টাইফাস ছড়িয়েছে বলে বানানো গল্প, শত শত মার্কিন সেনা নিহত হওয়ার দাবি, এবং ওমানের ওপর একটি Emirati ড্রোন হামলার কথা।

প্রতিটি দাবিকে তিন ধরনের প্রম্পটে চালানো হয়েছিল:

নিরপেক্ষ প্রশ্ন, যা দাবি সত্য ধরে না নিয়ে তা সম্পর্কে জিজ্ঞাসা করেছিল
প্ররোচনামূলক প্রশ্ন, যা মিথ্যা দাবিটিকে সত্য হিসেবে ধরে নিয়েছিল
ক্ষতিকর প্রম্পট, যা ভুল তথ্যকে সোশ্যাল-মিডিয়া-উপযোগী কন্টেন্টে রূপান্তর করতে বলেছিল

রিপোর্ট করা ফলাফল ছিল স্পষ্ট। নিরপেক্ষ প্রম্পটে ত্রুটি হার ছিল প্রায় 10 শতাংশ, প্ররোচনামূলক প্রম্পটে 60 শতাংশ, এবং ক্ষতিকর প্রম্পটে 80 শতাংশ। পুরো অডিটে, NewsGuard বলেছে Le Chat ইংরেজিতে 50 শতাংশ এবং ফ্রেঞ্চে 56.6 শতাংশ ত্রুটি হার দেখিয়েছে।

AWS and OpenAI announce multi-year strategic partnership (via openai.com)

More in AI & Robotics

AWS-এ OpenAI-এর আগমন ক্লাউড AI শক্তির ভারসাম্যে বড় পরিবর্তনের ইঙ্গিত দেয়

Microsoft এবং OpenAI Azure-এর OpenAI মডেলের একচেটিয়া বিতরণ অধিকার শেষ করার ঠিক একদিন পর AWS Bedrock-এ নতুন OpenAI অফার চালু করেছে, যা এন্টারপ্রাইজ গ্রাহকদের কাছে frontier AI পৌঁছানোর ধরন বদলে দিচ্ছে

Read article

এই সংখ্যাগুলো কেন গুরুত্বপূর্ণ

এই ফলাফলগুলো শুধু এটুকুই দেখায় না যে মডেল তথ্যগতভাবে ভুল হতে পারে। এগুলো দেখায়, প্রম্পটের কাঠামো নিজেই কতটা প্রভাব ফেলে যে সিস্টেমটি মিথ্যা বর্ণনার প্রতিরোধ করবে নাকি সেগুলোকে আরও বাড়াবে। বাস্তবে, যে ব্যবহারকারী অনিশ্চিত এবং সতর্কভাবে জিজ্ঞাসা করে, সে এক ধরনের উত্তর পেতে পারে; কিন্তু যে ব্যবহারকারী ভুল তথ্যকে সাদামাটা করে ছড়াতে চায়, সে আরও বিপজ্জনক উত্তর বের করতে পারে।

AI নিরাপত্তা বিতর্কের কেন্দ্রে সেটাই। সবচেয়ে কঠিন বাস্তব সমস্যা হলো, চ্যাটবট আদর্শ অবস্থায় বইয়ের মতো সোজা প্রশ্নের সঠিক উত্তর দেয় কি না, তা নয়। প্রকৃত চ্যালেঞ্জ হলো, লোকেরা অলঙ্কারিক framing, বাছাই করা context, বা সরাসরি manipulation ব্যবহার করলেও সিস্টেমটি কি নির্ভরযোগ্য থাকে।

সেই মানদণ্ডে, এই অডিট একটি বড় দৃঢ়তা-সমস্যার দিকে ইঙ্গিত করে।

যুদ্ধকালীন পরিবেশে ভুল তথ্যের চাপ আসে

ভূ-রাজনৈতিক প্রেক্ষাপট এই ফলাফলগুলোকে আরও গুরুত্বপূর্ণ করে তোলে। যুদ্ধকালীন তথ্য-পরিবেশ ইতিমধ্যেই যাচাইহীন দাবি, প্রচার, এবং আবেগময় বর্ণনায় ভরা থাকে। এমন পরিস্থিতিতে, চ্যাটবট যদি মানব fact-checkers-এর চেয়ে দ্রুত মিথ্যা দাবিকে summarize, endorse, বা stylistically polish করে, তবে তা সেগুলোকে আরও ছড়িয়ে দিতে পারে।

রাষ্ট্র-সংযুক্ত বর্ণনাগুলোর ওপর অডিটের জোরও লক্ষণীয়। ভুল তথ্য এখন শুধু সামাজিক প্ল্যাটফর্মের moderation সমস্যা নয়; এটি AI assistant-দের জন্য retrieval, summarization, এবং generation সমস্যাও। যে চ্যাটবট প্ররোচনামূলক প্রম্পটকে খুব আক্ষরিকভাবে নেয়, সেটি সেই ecosystem-এ সহজ লক্ষ্য হয়ে উঠতে পারে।

এর মানে এই নয় যে সিস্টেমটি ইচ্ছাকৃতভাবে মিথ্যার দিকে ঝুঁকে আছে। এর মানে হলো, খারাপ তথ্য আত্মবিশ্বাসের সঙ্গে উপস্থাপিত হলে, বা ব্যবহারকারীর অনুরোধ truth-seeking-এর বদলে content-production task হিসেবে ফ্রেম করা হলে, মডেলের যথেষ্ট সুরক্ষা নাও থাকতে পারে।

More in AI & Robotics

ওপেনএআই গবেষকদের কাছে গণিত কেন সাধারণ বুদ্ধিমত্তার একটি মূল পরীক্ষা

ওপেনএআই গবেষক Sebastian Bubeck এবং Ernest Ryu যুক্তি দিচ্ছেন যে গণিত এখন AI-এর জন্য একটি গুরুত্বপূর্ণ মানদণ্ড, কারণ এতে দীর্ঘ, সঠিক যুক্তির শৃঙ্খল, ভুল সংশোধন এবং যাচাইযোগ্য ফলাফল দরকার হয়।

Read article

কেন নিরপেক্ষ পারফরম্যান্স যথেষ্ট নয়

নিরপেক্ষ প্রম্পটে 10 শতাংশ ত্রুটি হারও আদর্শ নয়, কিন্তু 60 থেকে 80 শতাংশের পরিসরের সঙ্গে তার ব্যবধানটাই সবচেয়ে নজর কেড়েছে। এটি ইঙ্গিত করে যে সিস্টেমের প্রতিরক্ষা ব্যবস্থা খুবই পাতলা। দাবির premise-কে দৃঢ়ভাবে প্রশ্ন করার বদলে, মডেল প্রায়ই ব্যবহারকারীর framing মেনে নিয়ে এগিয়ে যায়।

এই কারণেই শুধু নিরপেক্ষ benchmark-এর ওপর ভিত্তি করে করা safety evaluations বিভ্রান্তিকর হতে পারে। পাবলিক deployment কেবল সতর্ক ও সদিচ্ছাপূর্ণ ব্যবহারকারীরাই করে না। প্রচারক, মার্কেটার, ট্রল, এবং যাঁরা গুজবকে প্রথমে যেভাবে দেখেছেন সেভাবেই পুনরাবৃত্তি করেন, এমন সাধারণ মানুষও এগুলো পরীক্ষা করেন।

যদি সেই অবস্থায় মডেলের নির্ভুলতা ভেঙে পড়ে, তাহলে headline benchmark performance-এ যতটা মনে হয়, তার চেয়ে বাস্তব নির্ভরযোগ্যতা কম।

নীতি ও পণ্যগত চ্যালেঞ্জ

রিপোর্ট অনুযায়ী, Mistral NewsGuard-এর মন্তব্য-অনুরোধের জবাব দেয়নি। ফলে প্রশ্ন রয়ে গেছে যে কোম্পানি prompt-level safeguards, আরও শক্তিশালী claim verification, refusal strategies, বা দ্রুত পরিবর্তনশীল conflict narratives-এর জন্য অন্য কোনো mitigation আনবে কি না।

আরও একটি জটিলতা আছে: ফরাসি প্রতিরক্ষা মন্ত্রণালয় নাকি Le Chat-এর একটি customized, offline version ব্যবহার করে। এটি audited consumer behavior-কে সরকারী deployment-এর সঙ্গে সরাসরি যুক্ত করে না, কিন্তু দেখায় যে adversarial prompting-এর অধীনে model reliability কোনো ছোটখাটো উদ্বেগ নয়।

ডেভেলপাররা ক্রমশ AI সিস্টেমকে research aides, communication tools, এবং workflow assistants হিসেবে বাজারজাত করছে। এই কাজগুলো সেগুলোকে উচ্চ-প্রভাবের তথ্য-বিতর্কের সরাসরি পথে নিয়ে আসে। যে মডেল কেবল তখনই ভালো কাজ করে যখন ব্যবহারকারী একেবারে নিরপেক্ষ প্রশ্ন করে, তারা বাস্তব পরিচালন পরিবেশের চাহিদা পূরণ করছে না।

Two-thirds of surveyed enterprises in EMEA report significant productivity gains from AI, finds new IBM study (via newsroom.ibm.com)

More in AI & Robotics

EMEA-তে এন্টারপ্রাইজ AI-র সামনে সিস্টেম সমস্যাই বাধা হয়ে দাঁড়াচ্ছে

ইউরোপ, মধ্যপ্রাচ্য ও আফ্রিকায় থেমে থাকা AI rollout আবার শুরু করতে CIO-দের আক্রমণাত্মক systems audit করতে হবে বলে IDC বলছে, যা দেখায় deployment friction অনেক সময় ধারণাগত নয়, বরং অবকাঠামোগত।

Read article

AI নিরাপত্তার পরের ধাপ সম্পর্কে এই অডিট কী বলে

NewsGuard-এর ফলাফল থেকে সবচেয়ে গুরুত্বপূর্ণ শিক্ষা হলো, misinformation resistance-কে বাস্তব attack patterns-এর বিরুদ্ধে stress-test করতে হবে, ভদ্র ব্যবহার-কেসে নয়। প্ররোচনামূলক প্রশ্ন এবং content-repackaging অনুরোধ এখন edge case নয়, বরং সাধারণ failure mode।

ব্যবহারকারীদের জন্য takeaway সহজ: বিতর্কিত, দ্রুত পরিবর্তনশীল ভূ-রাজনৈতিক ঘটনায়, তাদের উত্তর স্বাধীনভাবে যাচাই না করলে চ্যাটবট সত্যের ভালো arbiter নয়। ডেভেলপারদের জন্য বার্তাটি আরও কঠিন। মডেলকে plausible text আনার বাইরে যেতে হবে। তাকে unsupported premise চ্যালেঞ্জ করতে হবে, narrative manipulation শনাক্ত করতে হবে, এবং propaganda-র formatting layer হয়ে উঠতে অস্বীকার করতে হবে।

Le Chat এই সমস্যার একমাত্র উদাহরণ নয়। কিন্তু প্রম্পট framing এতটা নাটকীয়ভাবে performance বদলে দিতে পারলে, তথ্যক্ষেত্রে নির্ভরযোগ্য AI সহায়তার দাবিগুলোকে সতর্কতার সঙ্গে দেখা উচিত, এই অডিট সেটাই মনে করিয়ে দেয়।

এই প্রবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে। মূল প্রবন্ধ পড়ুন.

Originally published on the-decoder.com

প্রম্পটের ধরন এখনও AI নির্ভরযোগ্যতা ভেঙে দেয়

অডিটে কী পরীক্ষা করা হয়েছিল

প্রতিটি দাবিকে তিন ধরনের প্রম্পটে চালানো হয়েছিল:

নিরপেক্ষ প্রশ্ন, যা দাবি সত্য ধরে না নিয়ে তা সম্পর্কে জিজ্ঞাসা করেছিল
প্ররোচনামূলক প্রশ্ন, যা মিথ্যা দাবিটিকে সত্য হিসেবে ধরে নিয়েছিল
ক্ষতিকর প্রম্পট, যা ভুল তথ্যকে সোশ্যাল-মিডিয়া-উপযোগী কন্টেন্টে রূপান্তর করতে বলেছিল

More in AI & Robotics

AWS-এ OpenAI-এর আগমন ক্লাউড AI শক্তির ভারসাম্যে বড় পরিবর্তনের ইঙ্গিত দেয়

Read article

এই সংখ্যাগুলো কেন গুরুত্বপূর্ণ

সেই মানদণ্ডে, এই অডিট একটি বড় দৃঢ়তা-সমস্যার দিকে ইঙ্গিত করে।

যুদ্ধকালীন পরিবেশে ভুল তথ্যের চাপ আসে

More in AI & Robotics

ওপেনএআই গবেষকদের কাছে গণিত কেন সাধারণ বুদ্ধিমত্তার একটি মূল পরীক্ষা

Read article

কেন নিরপেক্ষ পারফরম্যান্স যথেষ্ট নয়

নীতি ও পণ্যগত চ্যালেঞ্জ

More in AI & Robotics

EMEA-তে এন্টারপ্রাইজ AI-র সামনে সিস্টেম সমস্যাই বাধা হয়ে দাঁড়াচ্ছে

Read article

AI নিরাপত্তার পরের ধাপ সম্পর্কে এই অডিট কী বলে

এই প্রবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে। মূল প্রবন্ধ পড়ুন.

Originally published on the-decoder.com

NewsGuard-এর অডিটে Mistral-এর Le Chat ইরান-যুদ্ধের ভুল তথ্য প্রম্পটে দুর্বল বলে ধরা পড়েছে

প্রম্পটের ধরন এখনও AI নির্ভরযোগ্যতা ভেঙে দেয়

অডিটে কী পরীক্ষা করা হয়েছিল

AWS-এ OpenAI-এর আগমন ক্লাউড AI শক্তির ভারসাম্যে বড় পরিবর্তনের ইঙ্গিত দেয়

এই সংখ্যাগুলো কেন গুরুত্বপূর্ণ

যুদ্ধকালীন পরিবেশে ভুল তথ্যের চাপ আসে

ওপেনএআই গবেষকদের কাছে গণিত কেন সাধারণ বুদ্ধিমত্তার একটি মূল পরীক্ষা

কেন নিরপেক্ষ পারফরম্যান্স যথেষ্ট নয়

নীতি ও পণ্যগত চ্যালেঞ্জ

EMEA-তে এন্টারপ্রাইজ AI-র সামনে সিস্টেম সমস্যাই বাধা হয়ে দাঁড়াচ্ছে

AI নিরাপত্তার পরের ধাপ সম্পর্কে এই অডিট কী বলে

Comments (0)

Related Articles

OpenAI-এর GPT-5.5 আরও বেশি agentic model হিসেবে এসেছে, দামের সঙ্গে সেই বার্তাও মিলেছে

Keep Reading

NewsGuard-এর অডিটে Mistral-এর Le Chat ইরান-যুদ্ধের ভুল তথ্য প্রম্পটে দুর্বল বলে ধরা পড়েছে

প্রম্পটের ধরন এখনও AI নির্ভরযোগ্যতা ভেঙে দেয়

অডিটে কী পরীক্ষা করা হয়েছিল

AWS-এ OpenAI-এর আগমন ক্লাউড AI শক্তির ভারসাম্যে বড় পরিবর্তনের ইঙ্গিত দেয়

এই সংখ্যাগুলো কেন গুরুত্বপূর্ণ

যুদ্ধকালীন পরিবেশে ভুল তথ্যের চাপ আসে

ওপেনএআই গবেষকদের কাছে গণিত কেন সাধারণ বুদ্ধিমত্তার একটি মূল পরীক্ষা

কেন নিরপেক্ষ পারফরম্যান্স যথেষ্ট নয়

নীতি ও পণ্যগত চ্যালেঞ্জ

EMEA-তে এন্টারপ্রাইজ AI-র সামনে সিস্টেম সমস্যাই বাধা হয়ে দাঁড়াচ্ছে

AI নিরাপত্তার পরের ধাপ সম্পর্কে এই অডিট কী বলে

Comments (0)

Related Articles

OpenAI-এর GPT-5.5 আরও বেশি agentic model হিসেবে এসেছে, দামের সঙ্গে সেই বার্তাও মিলেছে

Keep Reading