চিকিৎসাবিষয়ক সাবলীলতা এখনও চিকিৎসাবিষয়ক নির্ভরযোগ্যতাকে ছাড়িয়ে যাচ্ছে
Medical Xpress-এ সংক্ষেপে প্রকাশিত একটি নতুন গবেষণা ইঙ্গিত দেয় যে জনপ্রিয় AI চ্যাটবটগুলো স্বাস্থ্য পরামর্শের নির্ভরযোগ্য উৎস হিসেবে এখনও অনেক দূরে। গবেষকেরা ব্যাপকভাবে ব্যবহৃত পাঁচটি সিস্টেম পরীক্ষা করে ক্যান্সার, টিকা, স্টেম সেল, পুষ্টি, এবং ক্রীড়া পারফরম্যান্স নিয়ে 50টি প্রশ্ন করেন। প্রধান ফলাফল ছিল স্পষ্ট: অর্ধেক উত্তরকে সমস্যাজনক বলা হয়েছে, এবং প্রায় 20% উত্তরকে অত্যন্ত সমস্যাজনক হিসেবে ধরা হয়েছে।
BMJ Open-এ প্রকাশিত এই গবেষণায় ChatGPT, Gemini, Grok, Meta AI, এবং DeepSeek-এর প্রতিক্রিয়া মূল্যায়ন করা হয়। দুইজন বিশেষজ্ঞ স্বাধীনভাবে প্রতিটি উত্তর রেট করেন। যদিও টুলগুলো প্রায়ই পরিশীলিত, কর্তৃত্বপূর্ণ-শোনানো উত্তর দিয়েছে, গবেষকেরা ঘন ঘন তথ্যগত ভুল, অবিশ্বাস্য রেফারেন্স, এবং ঝুঁকিপূর্ণ বা বিভ্রান্তিকর প্রম্পট প্রত্যাখ্যান করতে প্রায় সম্পূর্ণ ব্যর্থতা খুঁজে পেয়েছেন।
মোট 250টি প্রশ্নের মধ্যে মাত্র দুটি সরাসরি প্রত্যাখ্যান করা হয়। এটি গুরুত্বপূর্ণ, কারণ অনেক স্বাস্থ্য-সংক্রান্ত প্রশ্ন নিরপেক্ষ, সুপ্রতিষ্ঠিত তথ্যের জন্য নয়। সেগুলো প্রায়ই উদ্বেগপূর্ণ, open-ended, বা দুর্বল অনুমানের ভিত্তিতে করা হয়। এমন ক্ষেত্রে, premise-কে চ্যালেঞ্জ না করে মসৃণভাবে উত্তর দেওয়া একটি চ্যাটবট, “আমি সাহায্য করতে পারি না” বলার চেয়ে বেশি ক্ষতি করতে পারে।
গবেষকেরা কী পেয়েছেন
সূত্র পাঠ্য অনুযায়ী, পাঁচটির একটিও সিস্টেম নির্ভরযোগ্যভাবে সম্পূর্ণ নির্ভুল reference list তৈরি করতে পারেনি। গবেষণায় মডেলগুলোর মধ্যে মোটামুটি একই রকম পারফরম্যান্সও পাওয়া গেছে, যা ইঙ্গিত করে সমস্যাটি একক প্ল্যাটফর্মের নয়, বরং কাঠামোগত। এই তুলনায় Grok সবচেয়ে খারাপ করেছে, এর 58% উত্তরকে সমস্যাজনক হিসেবে চিহ্নিত করা হয়েছে; এরপর ChatGPT 52% এবং Meta AI 50%।
বিষয়ভেদে পারফরম্যান্স বদলেছে। টিকা এবং ক্যান্সারে সবচেয়ে ভালো ফল পাওয়া গেছে, যা লেখাটি সেখানে থাকা বৃহৎ এবং তুলনামূলকভাবে গঠিত গবেষণা-ভিত্তিকে কারণ হিসেবে উল্লেখ করে। তবু সেখানেও চ্যাটবটগুলো প্রায় এক-চতুর্থাংশ সময় সমস্যাজনক উত্তর দিয়েছে। পুষ্টি এবং ক্রীড়া পারফরম্যান্স আরও উদ্বেগজনক ছিল, সম্ভবত কারণ এসব বিষয়ে পরস্পরবিরোধী দাবি, দুর্বল প্রমাণ, এবং নিম্নমানের অনলাইন কনটেন্ট খুব বেশি।
প্রম্পটগুলো open-ended হলে ফারাক দ্রুত বেড়ে যায়। গবেষণায় দেখা গেছে, 32% open-ended উত্তরকে অত্যন্ত সমস্যাজনক হিসেবে রেট করা হয়েছে, যেখানে closed questions-এর ক্ষেত্রে তা 7%। এই পার্থক্যটি পরীক্ষাগারের বাইরে বিশেষভাবে গুরুত্বপূর্ণ, কারণ বাস্তব রোগীরা সাধারণত multiple-choice আকারে প্রশ্ন করেন না। তাঁরা এমন বিস্তৃত প্রশ্ন করেন যেমন কোন supplements সবচেয়ে ভালো, কোন চিকিৎসা দ্রুত কাজ করে, বা কোনো ক্লিনিকের দাবি বিশ্বাসযোগ্য কি না।
আত্মবিশ্বাস কেন ঝুঁকির অংশ
সবচেয়ে চোখে পড়ার বিষয় শুধু ভুল হওয়া নয়। বিষয়টি হলো, ভুলগুলো persuasive language-এ মোড়ানো থাকতে পারে। লেখার উদাহরণটি হলো এক কাল্পনিক ক্যান্সার রোগী, যিনি AI সিস্টেমকে alternative clinics সম্পর্কে জিজ্ঞাসা করছেন। উদ্বেগ কেবল অসমর্থিত চিকিৎসাগত দাবিতে নয়, fake বা broken citations এবং প্রশ্নের framing-কে চ্যালেঞ্জ করার কোনো জবাব না থাকাতেও।
স্বাস্থ্যসেবার প্রেক্ষিতে এই সংমিশ্রণ বিপজ্জনক। উত্তর footnoted এবং পেশাদারভাবে লেখা হলে ব্যবহারকারীরা style-কে substance ভেবে ভুল করতে পারেন। একটি চ্যাটবট organized ও neutral শোনায় বলে random forum post-এর তুলনায় নিরাপদ মনে হতে পারে। গবেষণাটি বলছে, এই appearance বিভ্রান্তিকর হতে পারে।
স্বাস্থ্য তথ্যের জন্য শুধু recall নয়, judgment-ও দরকার: খারাপ premises চিনতে পারা, প্রমাণের মান আলাদা করা, এবং জরুরি ক্ষেত্রে যোগ্য চিকিৎসকের কাছে escalat করা। একটি মডেল যদি শুধু plausible next words অনুমান করে, তবে সেটি দক্ষ মনে হতে পারে, যদিও তা প্রকৃতপক্ষে এসব করছে না।
রোগী এবং প্ল্যাটফর্মের জন্য এর মানে কী
এই ফলাফল consumer AI systems-কে নির্ভরযোগ্য first-line medical authorities হিসেবে না দেখার পক্ষে যুক্তিকে শক্তিশালী করে। এগুলো প্রশ্নের খসড়া তৈরি, পরিভাষা ব্যাখ্যা, বা সাধারণ ধারণা বুঝতে সাহায্য করতে পারে, কিন্তু সেই সুবিধা clinical oversight-এর প্রয়োজনকে দূর করে না। oncology, টিকা, বা অপ্রমাণিত therapies-এর মতো সংবেদনশীল ক্ষেত্রে, আংশিক ভুল উত্তরও সিদ্ধান্তকে ভুল দিকে ঠেলে দিতে পারে।
ফলাফলগুলো AI কোম্পানিগুলোর জন্য product-design প্রশ্নও তুলছে। যদি 250 প্রশ্নের মধ্যে মাত্র দুটি প্রত্যাখ্যান করা হয়, তবে refusal thresholds স্বাস্থ্য ব্যবহারের জন্য খুবই সংকীর্ণ হতে পারে। আরও লক্ষ্যভিত্তিক safeguards-এ ক্ষতিকর premises শনাক্ত করা, uncertainty নিয়ে ভালো calibration, এবং এমন reference systems অন্তর্ভুক্ত থাকতে পারে যেগুলো যেখানে সমর্থন নেই সেখানে সমর্থনের ইঙ্গিত দেয় না।
সমানভাবে গুরুত্বপূর্ণ, model builders-দেরও ভাবতে হতে পারে systems কীভাবে open-ended health prompts সামলাবে। নিরাপদ উত্তর সবসময় সরাসরি উত্তর নয়। কিছু ক্ষেত্রে, সঠিক পদক্ষেপ হলো প্রশ্নটিকে চ্যালেঞ্জ করা, পরিসর সীমিত করা, বা polished response-এর বদলে clinician consultation পরামর্শ দেওয়া।
বড় শিক্ষা
এই গবেষণা দেখায় না যে স্বাস্থ্য তথ্যে AI-এর কোনো ভূমিকা নেই। এটি দেখায় যে বর্তমান general-purpose চ্যাটবটগুলো এখনও খুব ঘন ঘন এমনভাবে ব্যর্থ হয়, যা ব্যবহারকারীদের পক্ষে শনাক্ত করা কঠিন। পরীক্ষিত সিস্টেমগুলো প্রতিটি প্রশ্নের উত্তর fluent prose-এ দিতে পেরেছিল, কিন্তু fluency বিশ্বাসযোগ্যতার সমান নয়।
এটাই রোগী ও ডেভেলপারদের জন্য মূল শিক্ষা। মানুষ increasingly ডাক্তারের সঙ্গে কথা বলার আগে AI-এর কাছে যায়, বিশেষ করে যখন তারা ভীত বা অধৈর্য হয়। যদি কোনো সিস্টেম যেখানে সতর্কতা দরকার সেখানে আত্মবিশ্বাসের সঙ্গে উত্তর দেয়, তবে ব্যবহারকারী অনেক পরে ঝুঁকিটি বুঝতে পারে। চিকিৎসায় এটি একটি গুরুতর failure mode।
যতক্ষণ না accuracy, citation integrity, এবং refusal behavior উল্লেখযোগ্যভাবে উন্নত হচ্ছে, AI চ্যাটবটগুলোকে নির্ভরযোগ্য medical guides-এর বদলে drafting এবং orientation tools হিসেবে দেখা ভালো। BMJ Open-এর ফলাফল ইঙ্গিত দেয় যে শিল্পের এখনও একটি বড় safety gap বন্ধ করা বাকি।
- গবেষকেরা পাঁচটি প্রধান AI চ্যাটবটকে 50টি করে স্বাস্থ্য প্রশ্নে পরীক্ষা করেছেন।
- সব উত্তরের অর্ধেক সমস্যাজনক ছিল, এবং প্রায় পাঁচটির মধ্যে একটিকে অত্যন্ত সমস্যাজনক ধরা হয়েছে।
- open-ended স্বাস্থ্য প্রশ্ন closed questions-এর তুলনায় অনেক খারাপ ফল দিয়েছে।
- কোনো চ্যাটবটই নির্ভুল reference list নির্ভরযোগ্যভাবে তৈরি করতে পারেনি।
এই নিবন্ধটি Medical Xpress-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধ পড়ুন.
Originally published on medicalxpress.com



