ঝুঁকি সবচেয়ে বেশি ছিল যখন, AI-এর সেরা প্রদর্শন তখনই দেখা গেল
এই সপ্তাহে
Science
-এ প্রকাশিত হার্ভার্ড-নেতৃত্বাধীন একটি গবেষণা চিকিৎসায় কৃত্রিম বুদ্ধিমত্তা কীভাবে ব্যবহার করা যেতে পারে, সেই বিতর্কে একটি গুরুত্বপূর্ণ তথ্য যোগ করেছে। প্রবন্ধটির সবচেয়ে নিবিড়ভাবে পর্যবেক্ষিত পরীক্ষাগুলোর একটিতে, গবেষকেরা Beth Israel Deaconess Medical Center-এর বাস্তব জরুরি কক্ষের রোগীদের ক্ষেত্রে OpenAI মডেলগুলোর নির্ণয়কে দুইজন অভ্যন্তরীণ চিকিৎসা বিভাগের উপস্থিত চিকিৎসকের নির্ণয়ের সঙ্গে তুলনা করেন। গবেষণা অনুযায়ী, OpenAI-এর o1 মডেল প্রতিটি নির্ণয়-পর্যায়ে মানব চিকিৎসকদের সমান বা তাদের চেয়ে ভালো ফল করেছে, এবং সবচেয়ে স্পষ্ট সুবিধা দেখা গেছে প্রাথমিক ER ট্রায়াজে।এটি গুরুত্বপূর্ণ, কারণ ট্রায়াজ এমন এক জায়গা যেখানে চিকিৎসকদের কাছে সবচেয়ে কম তথ্য এবং সবচেয়ে কম সময় থাকে। গবেষণায় বলা হয়েছে, পার্থক্যগুলো বিশেষভাবে স্পষ্ট ছিল সেই প্রথম সংযোগবিন্দুতে, যখন চিকিৎসক ও হাসপাতালগুলো পূর্ণাঙ্গ পরীক্ষা-নিরীক্ষা উপলব্ধ হওয়ার আগে রোগীর অবস্থার সবচেয়ে সম্ভাব্য কারণ শনাক্ত করার চেষ্টা করছিল। সেই প্রাথমিক পর্যায়ে, গবেষকেরা জানিয়েছেন, o1 67% ক্ষেত্রে সঠিক বা খুব কাছাকাছি নির্ণয় দিয়েছে, যেখানে একজন উপস্থিত চিকিৎসকের ক্ষেত্রে তা ছিল 55% এবং অন্যজনের ক্ষেত্রে 50%।
তুলনাটি কীভাবে নকশা করা হয়েছিল
গবেষণা দলটির নেতৃত্ব দেন হার্ভার্ড মেডিকেল স্কুল এবং বেথ ইসরায়েল ডিকনেসের চিকিৎসক ও কম্পিউটার বিজ্ঞানীরা। উৎস উপাদানে আলোচিত জরুরি কক্ষের পরীক্ষায়, দলটি Beth Israel ER-এ আসা 76 জন রোগীর ওপর নজর দেয়। দুটি OpenAI মডেল, o1 এবং 4o, থেকে তৈরি নির্ণয়কে দুইজন অভ্যন্তরীণ চিকিৎসা বিভাগের উপস্থিত চিকিৎসকের নির্ণয়ের সঙ্গে তুলনা করা হয়।
এরপর সেই ফলাফলগুলো এমন দুইজন অন্য উপস্থিত চিকিৎসক পর্যালোচনা করেন, যাঁরা জানতেন না কোন নির্ণয় মানুষ দিয়েছে আর কোনটি AI সিস্টেমের। এই ব্লাইন্ডিং গুরুত্বপূর্ণ, কারণ এতে পর্যালোচকেরা প্রত্যাশার ভিত্তিতে নাকি গুণগত মানের ভিত্তিতে একটি উৎসকে অন্যটির চেয়ে বেশি গুরুত্ব দেবেন, সেই ঝুঁকি কমে।
গবেষকেরা আরও জোর দিয়ে বলেন যে, মডেলগুলোর কাছে তথ্য দেওয়ার আগে রোগীর ডেটা প্রি-প্রসেস করা হয়নি। বরং, AI সিস্টেমগুলো একই তথ্য পেয়েছে, যা প্রতিটি নির্ণয়ের সময় ইলেকট্রনিক মেডিকেল রেকর্ডে উপলব্ধ ছিল। এই বিষয়টি AI চিকিৎসা গবেষণার একটি পুনরাবৃত্ত সমালোচনার সরাসরি জবাব: মডেলগুলো কেবল তখনই চমকপ্রদ দেখাতে পারে, যখন তাদের পরিষ্কার, সরলীকৃত বা অস্বাভাবিকভাবে সম্পূর্ণ ইনপুট দেওয়া হয়। এখানে গবেষণা দলের দাবি হলো, মডেলগুলোকে বাস্তবে উপলব্ধ একই রকম অসম্পূর্ণ, খসড়া ক্লিনিক্যাল চিত্রে পরীক্ষা করা হয়েছে।







