নতুন চ্যাটবট গবেষণায় AI স্বাস্থ্য উত্তরের অর্ধেকই সমস্যাজনক

চিকিৎসাবিষয়ক সাবলীলতা এখনও চিকিৎসাবিষয়ক নির্ভরযোগ্যতাকে ছাড়িয়ে যাচ্ছে

Medical Xpress-এ সংক্ষেপে প্রকাশিত একটি নতুন গবেষণা ইঙ্গিত দেয় যে জনপ্রিয় AI চ্যাটবটগুলো স্বাস্থ্য পরামর্শের নির্ভরযোগ্য উৎস হিসেবে এখনও অনেক দূরে। গবেষকেরা ব্যাপকভাবে ব্যবহৃত পাঁচটি সিস্টেম পরীক্ষা করে ক্যান্সার, টিকা, স্টেম সেল, পুষ্টি, এবং ক্রীড়া পারফরম্যান্স নিয়ে 50টি প্রশ্ন করেন। প্রধান ফলাফল ছিল স্পষ্ট: অর্ধেক উত্তরকে সমস্যাজনক বলা হয়েছে, এবং প্রায় 20% উত্তরকে অত্যন্ত সমস্যাজনক হিসেবে ধরা হয়েছে।

BMJ Open-এ প্রকাশিত এই গবেষণায় ChatGPT, Gemini, Grok, Meta AI, এবং DeepSeek-এর প্রতিক্রিয়া মূল্যায়ন করা হয়। দুইজন বিশেষজ্ঞ স্বাধীনভাবে প্রতিটি উত্তর রেট করেন। যদিও টুলগুলো প্রায়ই পরিশীলিত, কর্তৃত্বপূর্ণ-শোনানো উত্তর দিয়েছে, গবেষকেরা ঘন ঘন তথ্যগত ভুল, অবিশ্বাস্য রেফারেন্স, এবং ঝুঁকিপূর্ণ বা বিভ্রান্তিকর প্রম্পট প্রত্যাখ্যান করতে প্রায় সম্পূর্ণ ব্যর্থতা খুঁজে পেয়েছেন।

মোট 250টি প্রশ্নের মধ্যে মাত্র দুটি সরাসরি প্রত্যাখ্যান করা হয়। এটি গুরুত্বপূর্ণ, কারণ অনেক স্বাস্থ্য-সংক্রান্ত প্রশ্ন নিরপেক্ষ, সুপ্রতিষ্ঠিত তথ্যের জন্য নয়। সেগুলো প্রায়ই উদ্বেগপূর্ণ, open-ended, বা দুর্বল অনুমানের ভিত্তিতে করা হয়। এমন ক্ষেত্রে, premise-কে চ্যালেঞ্জ না করে মসৃণভাবে উত্তর দেওয়া একটি চ্যাটবট, “আমি সাহায্য করতে পারি না” বলার চেয়ে বেশি ক্ষতি করতে পারে।

গবেষকেরা কী পেয়েছেন

সূত্র পাঠ্য অনুযায়ী, পাঁচটির একটিও সিস্টেম নির্ভরযোগ্যভাবে সম্পূর্ণ নির্ভুল reference list তৈরি করতে পারেনি। গবেষণায় মডেলগুলোর মধ্যে মোটামুটি একই রকম পারফরম্যান্সও পাওয়া গেছে, যা ইঙ্গিত করে সমস্যাটি একক প্ল্যাটফর্মের নয়, বরং কাঠামোগত। এই তুলনায় Grok সবচেয়ে খারাপ করেছে, এর 58% উত্তরকে সমস্যাজনক হিসেবে চিহ্নিত করা হয়েছে; এরপর ChatGPT 52% এবং Meta AI 50%।

বিষয়ভেদে পারফরম্যান্স বদলেছে। টিকা এবং ক্যান্সারে সবচেয়ে ভালো ফল পাওয়া গেছে, যা লেখাটি সেখানে থাকা বৃহৎ এবং তুলনামূলকভাবে গঠিত গবেষণা-ভিত্তিকে কারণ হিসেবে উল্লেখ করে। তবু সেখানেও চ্যাটবটগুলো প্রায় এক-চতুর্থাংশ সময় সমস্যাজনক উত্তর দিয়েছে। পুষ্টি এবং ক্রীড়া পারফরম্যান্স আরও উদ্বেগজনক ছিল, সম্ভবত কারণ এসব বিষয়ে পরস্পরবিরোধী দাবি, দুর্বল প্রমাণ, এবং নিম্নমানের অনলাইন কনটেন্ট খুব বেশি।

প্রম্পটগুলো open-ended হলে ফারাক দ্রুত বেড়ে যায়। গবেষণায় দেখা গেছে, 32% open-ended উত্তরকে অত্যন্ত সমস্যাজনক হিসেবে রেট করা হয়েছে, যেখানে closed questions-এর ক্ষেত্রে তা 7%। এই পার্থক্যটি পরীক্ষাগারের বাইরে বিশেষভাবে গুরুত্বপূর্ণ, কারণ বাস্তব রোগীরা সাধারণত multiple-choice আকারে প্রশ্ন করেন না। তাঁরা এমন বিস্তৃত প্রশ্ন করেন যেমন কোন supplements সবচেয়ে ভালো, কোন চিকিৎসা দ্রুত কাজ করে, বা কোনো ক্লিনিকের দাবি বিশ্বাসযোগ্য কি না।

New data may cast doubt on competitiveness of Boehringer’s obesity drug

নতুন肥胖 ওষুধের ডেটা Boehringer-এর অবস্থান নিয়ে প্রশ্ন তুলেছে

Boehringer Ingelheim-এর肥胖 ওষুধ সম্পর্কে নতুন ডেটা মিশ্র প্রোফাইল দেখাচ্ছে, যেখানে লিভার-ফ্যাট কমানোর সম্ভাবনা থাকলেও মোট ওজন কমানোর ক্ষেত্রে ফল ততটা চমকপ্রদ নয়.

Read article

আত্মবিশ্বাস কেন ঝুঁকির অংশ

সবচেয়ে চোখে পড়ার বিষয় শুধু ভুল হওয়া নয়। বিষয়টি হলো, ভুলগুলো persuasive language-এ মোড়ানো থাকতে পারে। লেখার উদাহরণটি হলো এক কাল্পনিক ক্যান্সার রোগী, যিনি AI সিস্টেমকে alternative clinics সম্পর্কে জিজ্ঞাসা করছেন। উদ্বেগ কেবল অসমর্থিত চিকিৎসাগত দাবিতে নয়, fake বা broken citations এবং প্রশ্নের framing-কে চ্যালেঞ্জ করার কোনো জবাব না থাকাতেও।

স্বাস্থ্যসেবার প্রেক্ষিতে এই সংমিশ্রণ বিপজ্জনক। উত্তর footnoted এবং পেশাদারভাবে লেখা হলে ব্যবহারকারীরা style-কে substance ভেবে ভুল করতে পারেন। একটি চ্যাটবট organized ও neutral শোনায় বলে random forum post-এর তুলনায় নিরাপদ মনে হতে পারে। গবেষণাটি বলছে, এই appearance বিভ্রান্তিকর হতে পারে।

স্বাস্থ্য তথ্যের জন্য শুধু recall নয়, judgment-ও দরকার: খারাপ premises চিনতে পারা, প্রমাণের মান আলাদা করা, এবং জরুরি ক্ষেত্রে যোগ্য চিকিৎসকের কাছে escalat করা। একটি মডেল যদি শুধু plausible next words অনুমান করে, তবে সেটি দক্ষ মনে হতে পারে, যদিও তা প্রকৃতপক্ষে এসব করছে না।

রোগী এবং প্ল্যাটফর্মের জন্য এর মানে কী

এই ফলাফল consumer AI systems-কে নির্ভরযোগ্য first-line medical authorities হিসেবে না দেখার পক্ষে যুক্তিকে শক্তিশালী করে। এগুলো প্রশ্নের খসড়া তৈরি, পরিভাষা ব্যাখ্যা, বা সাধারণ ধারণা বুঝতে সাহায্য করতে পারে, কিন্তু সেই সুবিধা clinical oversight-এর প্রয়োজনকে দূর করে না। oncology, টিকা, বা অপ্রমাণিত therapies-এর মতো সংবেদনশীল ক্ষেত্রে, আংশিক ভুল উত্তরও সিদ্ধান্তকে ভুল দিকে ঠেলে দিতে পারে।

ফলাফলগুলো AI কোম্পানিগুলোর জন্য product-design প্রশ্নও তুলছে। যদি 250 প্রশ্নের মধ্যে মাত্র দুটি প্রত্যাখ্যান করা হয়, তবে refusal thresholds স্বাস্থ্য ব্যবহারের জন্য খুবই সংকীর্ণ হতে পারে। আরও লক্ষ্যভিত্তিক safeguards-এ ক্ষতিকর premises শনাক্ত করা, uncertainty নিয়ে ভালো calibration, এবং এমন reference systems অন্তর্ভুক্ত থাকতে পারে যেগুলো যেখানে সমর্থন নেই সেখানে সমর্থনের ইঙ্গিত দেয় না।

সমানভাবে গুরুত্বপূর্ণ, model builders-দেরও ভাবতে হতে পারে systems কীভাবে open-ended health prompts সামলাবে। নিরাপদ উত্তর সবসময় সরাসরি উত্তর নয়। কিছু ক্ষেত্রে, সঠিক পদক্ষেপ হলো প্রশ্নটিকে চ্যালেঞ্জ করা, পরিসর সীমিত করা, বা polished response-এর বদলে clinician consultation পরামর্শ দেওয়া।

Engineered stem cells reverse new-onset type 1 diabetes in mice

ইঞ্জিনিয়ার করা স্টেম সেল নতুন শুরু হওয়া টাইপ 1 ডায়াবেটিস ইঁদুরে উল্টে দিয়েছে

MUSC-এর গবেষকেরা জানিয়েছেন, পরিবর্তিত মেসেনকাইমাল স্টেম সেল রোগপ্রতিরোধ নিয়ন্ত্রণ ও প্রদাহবিরোধী সুরক্ষা একত্র করে ইঁদুরের মডেলে নতুন শুরু হওয়া টাইপ 1 ডায়াবেটিস উল্টে দিয়েছে।

Read article

বড় শিক্ষা

এই গবেষণা দেখায় না যে স্বাস্থ্য তথ্যে AI-এর কোনো ভূমিকা নেই। এটি দেখায় যে বর্তমান general-purpose চ্যাটবটগুলো এখনও খুব ঘন ঘন এমনভাবে ব্যর্থ হয়, যা ব্যবহারকারীদের পক্ষে শনাক্ত করা কঠিন। পরীক্ষিত সিস্টেমগুলো প্রতিটি প্রশ্নের উত্তর fluent prose-এ দিতে পেরেছিল, কিন্তু fluency বিশ্বাসযোগ্যতার সমান নয়।

এটাই রোগী ও ডেভেলপারদের জন্য মূল শিক্ষা। মানুষ increasingly ডাক্তারের সঙ্গে কথা বলার আগে AI-এর কাছে যায়, বিশেষ করে যখন তারা ভীত বা অধৈর্য হয়। যদি কোনো সিস্টেম যেখানে সতর্কতা দরকার সেখানে আত্মবিশ্বাসের সঙ্গে উত্তর দেয়, তবে ব্যবহারকারী অনেক পরে ঝুঁকিটি বুঝতে পারে। চিকিৎসায় এটি একটি গুরুতর failure mode।

যতক্ষণ না accuracy, citation integrity, এবং refusal behavior উল্লেখযোগ্যভাবে উন্নত হচ্ছে, AI চ্যাটবটগুলোকে নির্ভরযোগ্য medical guides-এর বদলে drafting এবং orientation tools হিসেবে দেখা ভালো। BMJ Open-এর ফলাফল ইঙ্গিত দেয় যে শিল্পের এখনও একটি বড় safety gap বন্ধ করা বাকি।

গবেষকেরা পাঁচটি প্রধান AI চ্যাটবটকে 50টি করে স্বাস্থ্য প্রশ্নে পরীক্ষা করেছেন।
সব উত্তরের অর্ধেক সমস্যাজনক ছিল, এবং প্রায় পাঁচটির মধ্যে একটিকে অত্যন্ত সমস্যাজনক ধরা হয়েছে।
open-ended স্বাস্থ্য প্রশ্ন closed questions-এর তুলনায় অনেক খারাপ ফল দিয়েছে।
কোনো চ্যাটবটই নির্ভুল reference list নির্ভরযোগ্যভাবে তৈরি করতে পারেনি।

এই নিবন্ধটি Medical Xpress-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধ পড়ুন.

Originally published on medicalxpress.com

AI চ্যাটবট এখনও বিপজ্জনক স্বাস্থ্য উত্তর দিচ্ছে উদ্বেগজনক আত্মবিশ্বাসে, গবেষণায় দেখা গেছে

চিকিৎসাবিষয়ক সাবলীলতা এখনও চিকিৎসাবিষয়ক নির্ভরযোগ্যতাকে ছাড়িয়ে যাচ্ছে

গবেষকেরা কী পেয়েছেন

নতুন肥胖 ওষুধের ডেটা Boehringer-এর অবস্থান নিয়ে প্রশ্ন তুলেছে

আত্মবিশ্বাস কেন ঝুঁকির অংশ

রোগী এবং প্ল্যাটফর্মের জন্য এর মানে কী

ইঞ্জিনিয়ার করা স্টেম সেল নতুন শুরু হওয়া টাইপ 1 ডায়াবেটিস ইঁদুরে উল্টে দিয়েছে

বড় শিক্ষা

Comments (0)

Related Articles

আমিশ স্বাস্থ্য বিতর্ক ক্রমবর্ধমান জনস্বাস্থ্য চ্যালেঞ্জকে সামনে এনেছে

Pfizer-এর মাসিক obesity drug-এর পক্ষে যুক্তি এখনও টিকে আছে

Keep Reading