AI কে ক্লিনিক্যাল পরীক্ষায় রাখা

Nature Medicine-তে প্রকাশিত একটি গবেষণা OpenAI এর ChatGPT কে চিকিৎসা ট্রায়েজ সুপারিশ প্রদানের ক্ষমতার একটি কাঠামোবদ্ধ মূল্যায়নের বিষয় করেছে — জরুরি যত্নে অত্যন্ত গুরুত্বপূর্ণ প্রথম পদক্ষেপ যেখানে রোগীদের তাদের অবস্থার জরুরিতা দ্বারা বিভক্ত করা হয়। গবেষণা এই পর্যন্ত বৃহত্তম ভাষা মডেলগুলি ক্লিনিকাল সেটিংসে নির্ভরযোগ্যভাবে কাজ করতে পারে কিনা সে সম্পর্কে সবচেয়ে পদ্ধতিগতভাবে কঠোর মূল্যায়নগুলির একটি প্রতিনিধিত্ব করে যেখানে ত্রুটিগুলির জীবন-মৃত্যু ফলাফল হতে পারে।

ট্রায়েজ AI সিস্টেমগুলির জন্য একটি বিশেষভাবে চ্যালেঞ্জিং পরীক্ষা কারণ এটির জন্য একাধিক তথ্য স্ট্রিম সংহত করার প্রয়োজন — রিপোর্ট করা লক্ষণ, রোগীর ইতিহাস, জীবনীয় চিহ্ন এবং প্রসঙ্গীয় ইঙ্গিত — একটি রোগীর কত জরুরিভাবে যত্নের প্রয়োজন তা সম্পর্কে দ্রুত সিদ্ধান্ত নিতে। উভয় দিকেও ভুল হওয়া গুরুতর ঝুঁকি বহন করে: একটি গুরুতর রোগীর অনুত্তীর্ণ-ট্রায়েজ ব্যবস্থার বিলম্ব এবং প্রতিরোধযোগ্য মৃত্যুর দিকে পরিচালিত করতে পারে, যখন একটি স্থিতিশীল রোগীর অত্যধিক-ট্রায়েজ দুষ্প্রাপ্য জরুরি সংস্থান নষ্ট করে।

অধ্যয়ন নকশা এবং পদ্ধতি

গবেষকরা মানিত ক্লিনিকাল ভিগনেট ব্যবহার করে একটি কাঠামোবদ্ধ পরীক্ষা ডিজাইন করেছেন — রোগীর উপস্থাপনার বিস্তারিত লিখিত বর্ণনা যা চিকিৎসা শিক্ষা এবং বোর্ড পরীক্ষায় সাধারণভাবে ব্যবহৃত হয়। প্রতিটি ভিগনেটে রোগীর উপস্থাপনার অভিযোগ, প্রাসঙ্গিক চিকিৎসা ইতিহাস, জীবনীয় চিহ্ন এবং শারীরিক পরীক্ষার ফলাফল সম্পর্কে তথ্য অন্তর্ভুক্ত ছিল।

ChatGPT কে প্রতিটি কেসকে পাঁচটি মানিত ট্রায়েজ বিভাগের মধ্যে একটিতে নির্ধারণ করতে বলা হয়েছিল, তাৎক্ষণিক হস্তক্ষেপের প্রয়োজন জীবন-হুমকি জরুরি অবস্থা থেকে শুরু করে এমন অ-জরুরি অবস্থা যা দিনের বেলা যত্নের জন্য নিরাপদে অপেক্ষা করতে পারে। AI এর সুপারিশগুলি তখন অভিজ্ঞ জরুরি মেডিসিন চিকিৎসকদের দ্বারা করা সম্মতি ট্রায়েজ নিয়োগের বিপরীতে তুলনা করা হয়েছিল।

অধ্যয়নটি বেশ কয়েকটি ভেরিয়েবল নিয়ন্ত্রণ করেছে যা AI চিকিৎসা কর্মক্ষমতার পূর্ববর্তী মূল্যায়নগুলিকে জটিল করেছে। প্রম্পট ইঞ্জিনিয়ারিং প্রশ্নগুলি কীভাবে মডেলের কাছে জিজ্ঞাসা করা হয় তাতে ভিন্নতা দূর করার জন্য মানিত করা হয়েছিল। একাধিক চালনা পরিচালিত হয়েছিল ধারাবাহিকতা মূল্যায়ন করতে এবং গবেষকরা শুধুমাত্র চূড়ান্ত ট্রায়েজ নিয়োগের নির্ভুলতা বিশ্লেষণ করেননি বরং মডেল দ্বারা প্রদত্ত যুক্তিও করেছিলেন।

মূল অনুসন্ধান

অধ্যয়নটি অনুসন্ধান করেছে যে ChatGPT বিভিন্ন স্তরের তীব্রতা জুড়ে মিশ্র ফলাফল সঙ্গে সম্পাদিত। সবচেয়ে গুরুতর কেসগুলির জন্য — রোগী হৃৎপিণ্ডের গতি বন্ধ, প্রধান ট্রমা বা গুরুতর শ্বাসযন্ত্রের সংকটের মতো স্পষ্ট জীবন-হুমকির জরুরি অবস্থার সাথে উপস্থাপিত হয় — মডেলটি সাধারণত ভালভাবে সম্পাদিত হয়েছে, বেশিরভাগ কেসে অবিলম্বে হস্তক্ষেপের প্রয়োজনীয়তা সঠিকভাবে চিহ্নিত করেছে।

তবে কর্মক্ষমতা মধ্য ট্রায়েজ বিভাগে হ্রাস পেয়েছে, যেখানে জরুরি এবং আধা-জরুরি কেসগুলির মধ্যে পার্থক্যের জন্য আরও সূক্ষ্ম ক্লিনিকাল রায়ের প্রয়োজন। এগুলি সেই কেসগুলি যেখানে ট্রায়েজ ত্রুটিগুলি অভিজ্ঞ ক্লিনিশিয়ানদের মধ্যেও সবচেয়ে বেশি সাধারণ এবং যেখানে ভুল শ্রেণীকরণের পরিণতি সবচেয়ে ক্লিনিক্যালি উল্লেখযোগ্য।

মডেলটি একই কেসগুলির পুনরাবৃত্ত মূল্যায়ন জুড়ে অসামঞ্জস্য প্রদর্শন করেছে। যখন অনুরূপ ক্লিনিকাল ভিগনেট একাধিকবার উপস্থাপন করা হয়েছিল, ChatGPT কখনও কখনও ভিন্ন ট্রায়েজ বিভাগ নির্ধারণ করেছে, একটি অনুসন্ধান যা বাস্তব-বিশ্ব সেটিংসে LLM-ভিত্তিক ক্লিনিকাল সরঞ্জামের নির্ভরযোগ্যতা সম্পর্কে উদ্বেগ বাড়ায় যেখানে ধারাবাহিকতা অপরিহার্য।

  • ChatGPT স্পষ্টভাবে গুরুতর কেসগুলিতে সেরা পারফর্ম করেছে কিন্তু সূক্ষ্ম মধ্য-তীব্রতা ট্রায়েজ সিদ্ধান্তগুলির সাথে সংগ্রাম করেছে
  • মডেলটি অনুরূপ কেসগুলির সাথে উপস্থাপিত হলে অসামঞ্জস্য দেখিয়েছে
  • যুক্তির গুণমান উল্লেখযোগ্যভাবে পরিবর্তিত হয়েছে, কিছু মূল্যায়ন শব্দ ক্লিনিকাল যুক্তি প্রদর্শন করে এবং অন্যরা স্পষ্ট কল্পনা প্রতিফলিত করে
  • অধ্যয়নটি মানিত ভিগনেট এবং নিয়ন্ত্রিত প্রম্পটিং ব্যবহার করে কঠোর মূল্যায়ন নিশ্চিত করে

স্বাস্থ্যসেবা AI এর জন্য প্রভাব

ফলাফলগুলি স্বাস্থ্যসেবা কর্মপ্রবাহে AI সংহত করার ক্রমবর্ধমান আন্দোলনের জন্য উল্লেখযোগ্য প্রভাব রয়েছে। চিকিৎসা AI এর প্রবক্তারা যুক্তি দেন যে বৃহত্তম ভাষা মডেলগুলি জরুরি চিকিৎসক এবং ট্রায়েজ নার্সের গুরুতর ঘাটতি প্রশমন করতে সাহায্য করতে পারে, বিশেষ করে কম-সম্পদ স্বাস্থ্যসেবা সেটিংস এবং উন্নয়নশীল দেশগুলিতে যেখানে প্রশিক্ষিত চিকিৎসা পেশাদারদের অ্যাক্সেস সীমিত।

অধ্যয়নটি পরামর্শ দেয় যে যখন ChatGPT একটি সম্পূরক সরঞ্জাম হিসাবে উপকারী হতে পারে — ক্লিনিশিয়ানদের পার্থক্য রোগ নির্ণয় চিন্তা করতে বা সম্ভবত উপেক্ষা করা বিবেচনাগুলি পতাকা করতে সহায়তা করে — এটি এখনও একটি স্বায়ত্তশাসিত ট্রায়েজ সিস্টেম হিসাবে কাজ করার জন্য যথেষ্ট নির্ভরযোগ্য নয়। পুনরাবৃত্ত মূল্যায়নের অসামঞ্জস্য বিশেষভাবে উদ্বেগজনক, কারণ ক্লিনিকাল সিদ্ধান্ত সহায়তা সরঞ্জামগুলিকে একই ইনপুট দেওয়া একই সুপারিশ তৈরি করতে হবে।

গবেষকরা উল্লেখ করেন যে তাদের ফলাফলগুলি পরীক্ষা করা ChatGPT এর সংস্করণে বিশেষভাবে প্রযোজ্য এবং যে মডেল ক্ষমতা দ্রুত বিকশিত হচ্ছে। উন্নত যুক্তি ক্ষমতা এবং চিকিৎসা সূক্ষ্ম-সুর সহ নতুন মডেলগুলি উল্লেখযোগ্যভাবে ভাল পারফর্ম করতে পারে। তবে তারা সতর্ক করেন যে বিস্তৃত বৈধতা ছাড়াই ক্লিনিকাল ট্রায়েজে কোনও AI সিস্টেম স্থাপনের বিরুদ্ধে সতর্ক করেন বাস্তব-বিশ্ব রোগীর ফলাফলের বিরুদ্ধে, শুধু মানিত পরীক্ষার কেস নয়।

নিয়ন্ত্রক প্রশ্ন

অধ্যয়নটি নিয়ন্ত্রকদের সামনে চ্যালেঞ্জটিও হাইলাইট করে কারণ AI সরঞ্জামগুলি ক্লিনিক্যাল অনুশীলনে ক্রমবর্ধমান পথ খুঁজছে। অনেক দেশে, চিকিৎসা সিদ্ধান্ত সহায়তা সফ্টওয়্যার একটি চিকিৎসা ডিভাইস হিসাবে নিয়ন্ত্রক অনুমোদন সাপেক্ষে। তবে, AI মডেল আপডেটগুলির দ্রুত গতি — প্রতি কয়েক মাসে নতুন সংস্করণ মুক্তি পেয়ে — একটি নিয়ন্ত্রক চ্যালেঞ্জ তৈরি করে, কারণ প্রতিটি আপডেট সম্ভাব্যভাবে সিস্টেমের ক্লিনিকাল কর্মক্ষমতা পরিবর্তন করতে পারে।

মার্কিন খাদ্য ও ওষুধ প্রশাসন AI-ভিত্তিক চিকিৎসা ডিভাইস নিয়ন্ত্রক একটি কাঠামো বিকাশ করছে, যার মধ্যে রয়েছে ক্রমাগত শিক্ষা সিস্টেমের জন্য বিধান যা সময়ের সাথে বিকশিত হয়। তবে, কাঠামোটি এখনও একটি কাজ চলছে এবং AI উন্নয়নের গতি এবং নিয়ন্ত্রক অভিযোজনের গতির মধ্যে ব্যবধান অবিরত বাড়ছে।

সামনের দিকে তাকিয়ে

Nature Medicine অধ্যয়ন ক্রমবর্ধমান প্রমাণের একটি সংস্থা অবদান রাখে যা পরামর্শ দেয় যে বৃহত্তম ভাষা মডেলগুলি চিকিৎসা অ্যাপ্লিকেশনে প্রকৃত প্রতিশ্রুতি দেখায় কিন্তু স্বায়ত্তশাসিত ক্লিনিকাল স্থাপনার জন্য এখনও প্রস্তুত নয়। সামনের পথ সম্ভবত সাবধানে ডিজাইন করা মানব-AI সহযোগিতা সিস্টেম জড়িত যেখানে মডেলের সুপারিশগুলি সর্বদা মানব পর্যালোচনার সাপেক্ষে, ক্রমাগত ক্লিনিকাল ফলাফলের নিরীক্ষার সাথে মিলিত যাতে নিশ্চিত করা যায় যে AI সহায়তা আসলে রোগীর যত্নের উন্নতি করছে নতুন ঝুঁকি প্রবর্তন করার চেয়ে।

জরুরি বিভাগের জন্য ইতিমধ্যে ভিড় এবং কর্মী ঘাটতির সাথে সংগ্রাম করছে, এমনকি একটি অসম্পূর্ণ AI সরঞ্জাম যা কিছু মিস করা গুরুতর কেসগুলি ধরে জীবন বাঁচাতে পারে। তবে এমন একটি সরঞ্জাম দায়িত্বশীলভাবে স্থাপনের জন্য এই অধ্যয়ন দ্বারা অনুসরণ করা ধরনের কঠোর, কাঠামোবদ্ধ মূল্যায়ন প্রয়োজন — কেবল চেরি-বাছাই করা উদাহরণগুলির চিত্তাকর্ষক কর্মক্ষমতার প্রদর্শন নয়।

এই নিবন্ধটি Nature Medicine দ্বারা রিপোর্টিং এর উপর ভিত্তি করে। আসল নিবন্ধ পড়ুন