চিকিৎসাবিষয়ক সাবলীলতা এখনও চিকিৎসাবিষয়ক নির্ভরযোগ্যতাকে ছাড়িয়ে যাচ্ছে
Medical Xpress-এ সংক্ষেপে প্রকাশিত একটি নতুন গবেষণা ইঙ্গিত দেয় যে জনপ্রিয় AI চ্যাটবটগুলো স্বাস্থ্য পরামর্শের নির্ভরযোগ্য উৎস হিসেবে এখনও অনেক দূরে। গবেষকেরা ব্যাপকভাবে ব্যবহৃত পাঁচটি সিস্টেম পরীক্ষা করে ক্যান্সার, টিকা, স্টেম সেল, পুষ্টি, এবং ক্রীড়া পারফরম্যান্স নিয়ে 50টি প্রশ্ন করেন। প্রধান ফলাফল ছিল স্পষ্ট: অর্ধেক উত্তরকে সমস্যাজনক বলা হয়েছে, এবং প্রায় 20% উত্তরকে অত্যন্ত সমস্যাজনক হিসেবে ধরা হয়েছে।
BMJ Open-এ প্রকাশিত এই গবেষণায় ChatGPT, Gemini, Grok, Meta AI, এবং DeepSeek-এর প্রতিক্রিয়া মূল্যায়ন করা হয়। দুইজন বিশেষজ্ঞ স্বাধীনভাবে প্রতিটি উত্তর রেট করেন। যদিও টুলগুলো প্রায়ই পরিশীলিত, কর্তৃত্বপূর্ণ-শোনানো উত্তর দিয়েছে, গবেষকেরা ঘন ঘন তথ্যগত ভুল, অবিশ্বাস্য রেফারেন্স, এবং ঝুঁকিপূর্ণ বা বিভ্রান্তিকর প্রম্পট প্রত্যাখ্যান করতে প্রায় সম্পূর্ণ ব্যর্থতা খুঁজে পেয়েছেন।
মোট 250টি প্রশ্নের মধ্যে মাত্র দুটি সরাসরি প্রত্যাখ্যান করা হয়। এটি গুরুত্বপূর্ণ, কারণ অনেক স্বাস্থ্য-সংক্রান্ত প্রশ্ন নিরপেক্ষ, সুপ্রতিষ্ঠিত তথ্যের জন্য নয়। সেগুলো প্রায়ই উদ্বেগপূর্ণ, open-ended, বা দুর্বল অনুমানের ভিত্তিতে করা হয়। এমন ক্ষেত্রে, premise-কে চ্যালেঞ্জ না করে মসৃণভাবে উত্তর দেওয়া একটি চ্যাটবট, “আমি সাহায্য করতে পারি না” বলার চেয়ে বেশি ক্ষতি করতে পারে।
গবেষকেরা কী পেয়েছেন
সূত্র পাঠ্য অনুযায়ী, পাঁচটির একটিও সিস্টেম নির্ভরযোগ্যভাবে সম্পূর্ণ নির্ভুল reference list তৈরি করতে পারেনি। গবেষণায় মডেলগুলোর মধ্যে মোটামুটি একই রকম পারফরম্যান্সও পাওয়া গেছে, যা ইঙ্গিত করে সমস্যাটি একক প্ল্যাটফর্মের নয়, বরং কাঠামোগত। এই তুলনায় Grok সবচেয়ে খারাপ করেছে, এর 58% উত্তরকে সমস্যাজনক হিসেবে চিহ্নিত করা হয়েছে; এরপর ChatGPT 52% এবং Meta AI 50%।
বিষয়ভেদে পারফরম্যান্স বদলেছে। টিকা এবং ক্যান্সারে সবচেয়ে ভালো ফল পাওয়া গেছে, যা লেখাটি সেখানে থাকা বৃহৎ এবং তুলনামূলকভাবে গঠিত গবেষণা-ভিত্তিকে কারণ হিসেবে উল্লেখ করে। তবু সেখানেও চ্যাটবটগুলো প্রায় এক-চতুর্থাংশ সময় সমস্যাজনক উত্তর দিয়েছে। পুষ্টি এবং ক্রীড়া পারফরম্যান্স আরও উদ্বেগজনক ছিল, সম্ভবত কারণ এসব বিষয়ে পরস্পরবিরোধী দাবি, দুর্বল প্রমাণ, এবং নিম্নমানের অনলাইন কনটেন্ট খুব বেশি।
প্রম্পটগুলো open-ended হলে ফারাক দ্রুত বেড়ে যায়। গবেষণায় দেখা গেছে, 32% open-ended উত্তরকে অত্যন্ত সমস্যাজনক হিসেবে রেট করা হয়েছে, যেখানে closed questions-এর ক্ষেত্রে তা 7%। এই পার্থক্যটি পরীক্ষাগারের বাইরে বিশেষভাবে গুরুত্বপূর্ণ, কারণ বাস্তব রোগীরা সাধারণত multiple-choice আকারে প্রশ্ন করেন না। তাঁরা এমন বিস্তৃত প্রশ্ন করেন যেমন কোন supplements সবচেয়ে ভালো, কোন চিকিৎসা দ্রুত কাজ করে, বা কোনো ক্লিনিকের দাবি বিশ্বাসযোগ্য কি না।



