دراسة هارفارد تقول إن نموذج OpenAI تفوق على الأطباء في التشخيص المبكر بقسم الطوارئ

أقوى أداء للذكاء الاصطناعي جاء عندما كانت المخاطر في أعلى مستوياتها

أضافت دراسة بقيادة هارفارد نُشرت هذا الأسبوع في Science نقطة بيانات مهمة إلى النقاش حول كيفية استخدام الذكاء الاصطناعي في الطب. وفي أحد أكثر التجارب التي لاقت متابعة في الورقة، قارن الباحثون بين تشخيصات نماذج OpenAI وتلك التي قدّمها طبيبان استشاريان في الطب الباطني عبر حالات حقيقية في قسم الطوارئ بمركز Beth Israel Deaconess الطبي. ووفقًا للدراسة، أدى نموذج o1 من OpenAI أداءً مساوياً أو أفضل من الأطباء البشر عند كل نقطة تشخيصية، وكانت أفضليةه الأوضح عند الفرز الأولي في الطوارئ.

وتكمن أهمية ذلك في أن الفرز هو المرحلة التي يمتلك فيها الأطباء أقل قدر من المعلومات وأقل وقت متاح. وذكرت الدراسة أن الفروق كانت أكثر وضوحًا عند أول نقطة تماس، حين يحاول الأطباء والمستشفيات تحديد السبب الأكثر احتمالًا لحالة المريض قبل توفر الفحوصات الأوسع. وفي تلك المرحلة المبكرة، أفاد الباحثون أن o1 قدم التشخيص الصحيح أو القريب جدًا في 67% من الحالات، مقارنة بـ55% لأحد الأطباء الاستشاريين و50% للآخر.

كيف صُممت المقارنة

قاد فريق البحث أطباء وعلماء حاسوب من كلية الطب بجامعة هارفارد وBeth Israel Deaconess. وفي تجربة الطوارئ التي أبرزتها المادة المصدر، ركز الفريق على 76 مريضًا دخلوا قسم الطوارئ في Beth Israel. وتمت مقارنة التشخيصات التي ولّدها نموذجان من OpenAI، هما o1 و4o، بتشخيصات قدمها طبيبان استشاريان في الطب الباطني.

ثم راجع هذه المخرجات طبيبان استشاريان آخران لم يعرفا أي التشخيصات جاءت من البشر وأيها جاءت من أنظمة الذكاء الاصطناعي. ويُعد هذا التعمية مهمًا لأنه يقلل خطر أن يفضّل المراجعون مصدرًا على آخر بناءً على التوقعات لا الجودة.

وأكد الباحثون أيضًا أنهم لم يجروا أي معالجة مسبقة لبيانات المرضى قبل تقديمها إلى النماذج. بل تلقت أنظمة الذكاء الاصطناعي نفس المعلومات المتاحة في السجل الطبي الإلكتروني وقت إصدار كل تشخيص. وهذه النقطة ترد مباشرة على أحد الانتقادات المتكررة في أبحاث الذكاء الاصطناعي الطبي: أن النماذج قد تبدو مبهرة فقط عندما تُغذّى بمدخلات نظيفة أو مبسطة أو مكتملة على نحو غير معتاد. وهنا، يقول فريق البحث إن النماذج اختُبرت على الصورة السريرية نفسها الخام وغير المكتملة المتاحة في الممارسة الفعلية.

الاتحاد الأوروبي يفرض على Google غرامة قدرها 890 مليون يورو بموجب DMA

غرّمت المفوضية الأوروبية Alphabet بسبب انتهاكين لقانون الأسواق الرقمية مرتبطين بـ Google Search وPlay Store، وأمرت بتغييرات خلال 60 يومًا.

Read article

ما الذي تعنيه النتائج وما الذي لا تعنيه

النتيجة الرئيسية لافتة، لكن ينبغي تفسيرها بحذر. فالمادة المصدر تصف دراسة لأداء التشخيص، لا اختبارًا لاستبدال الأطباء. فاقتراح تشخيص أدق في الفرز لا يعني إدارة رعاية المريض بشكل مستقل، أو التواصل بشأن المخاطر، أو طلب العلاج، أو تحمّل المسؤولية عن النتائج. تعتمد طب الطوارئ على كل تلك الوظائف، كما يشير تقرير TechCrunch صراحة إلى أن الدراسة لم تدّع أن الأطباء أصبحوا جاهزين للاستبدال.

ومع ذلك، تعزز الدراسة الحجة القائلة إن نماذج اللغة الكبيرة قد تصبح أدوات دعم قرار شديدة الفائدة في الرعاية الحادة، خاصة في اللحظات التي تكون فيها المعلومات قليلة والضغط الزمني شديدًا. فإذا استطاع نموذج تضييق نطاق التشخيص مبكرًا، فقد يسرّع التصعيد أو الفحوصات أو إشراك الاختصاصيين. وقد يعمل أيضًا كطبقة فحص إضافية ضد الاحتمالات التي قد يغفلها الأطباء أثناء العمل تحت عبء معرفي كبير.

وقال أحد المؤلفين الرئيسيين للدراسة، Arjun Manrai من كلية الطب بجامعة هارفارد، في البيان الصحفي للجامعة إن الفريق اختبر الذكاء الاصطناعي مقابل مجموعة واسعة من المعايير ووجد أنه تفوق على كل من النماذج السابقة وخطوط الأساس الطبية المستخدمة في الورقة. وفي حدود النص المصدر المتاح، فهذه أوضح صياغة لتفسير الباحثين أنفسهم: ليس فقط أن الذكاء الاصطناعي كان منافسًا، بل إن أحد النماذج وضع معيارًا داخليًا جديدًا في هذا التصميم البحثي.

لماذا يُعد الفرز ساحة المعركة الحاسمة

يُعد الفرز بيئة كاشفة على نحو غير معتاد لأنظمة الذكاء الاصطناعي لأنه يضغط حالة عدم اليقين. فغالبًا ما يكون لدى الطبيب ملاحظة قصيرة، ومجموعة أولية من الأعراض، وحاجة إلى تحديد ما لا يجوز تفويته. وهذا أيضًا نمط المعلومات الذي صُممت نماذج اللغة الكبيرة للتعامل معه: نصوص مجزأة، وسياق جزئي، والحاجة إلى ترتيب الاحتمالات بسرعة.

وتشير نتيجة الدراسة إلى أن هذا قد يكون استخدامًا مواتيًا بشكل خاص للنماذج المتقدمة. فكلما كانت السجلات أقل اكتمالًا، ازدادت قيمة النظام إذا تمكن من تحديد أكثر التفسيرات احتمالًا أو أكثرها خطورة بصورة متسقة. وحقيقة أن الفجوة كانت الأكبر عند أول نقطة تماس توحي بأن دعم الذكاء الاصطناعي قد يكون أكثر فائدة عند مقدمة الرعاية لا بعد توفر السجلات الكاملة والصور والفحوص المخبرية فقط.

لكن ذلك لا يلغي الحاجة إلى الحذر. فالنشر السريري سيظل يثير أسئلة حول التحقق عبر مستشفيات مختلفة، وإشراف الأطباء، ودمج سير العمل، وما الذي يحدث عندما تكون توصيات النموذج خاطئة أو ناقصة أو مفرطة الثقة. هذه القضايا لا تُحل بدراسة واحدة، حتى لو كانت بارزة.

ما الخطوة التالية

تكمن الأهمية الفورية للورقة في أنها تمنح المستشفيات والجهات التنظيمية وقادة الأنظمة الصحية دليلًا أقوى على أن نماذج اللغة المتقدمة تستحق تقييمًا جادًا في البيئات السريرية. والطريق الأقرب في المدى القريب ليس التشخيص المستقل، بل الاستخدام الخاضع للإشراف داخل فرق الرعاية القائمة.

إذا أكدت دراسات لاحقة أداءً مشابهًا عبر فئات أوسع من المرضى والمؤسسات، فقد تبدأ المستشفيات في التعامل مع دعم الفرز بالذكاء الاصطناعي ليس بوصفه تجربة جديدة، بل كطبقة عملية من الدعم التشخيصي. وسيكون لذلك آثار على التوظيف، والتدريب الطبي، وأطر المسؤولية، وتصميم برمجيات السجل الإلكتروني.

حتى الآن، تبرز هذه الدراسة لأنها تنقل النقاش من الوعد الافتراضي إلى المقارنة المقيسة في حالات طوارئ حقيقية. وفي الطب، تمثل هذه عتبة مهمة. لم يعد السؤال ما إذا كان الذكاء الاصطناعي قادرًا على إنتاج لغة سريرية تبدو معقولة، بل ما إذا كانت الأنظمة الصحية مستعدة لاستخدام أدوات قد تتعرف، في بعض الحالات، على التشخيص الصحيح قبل الأطباء ذوي الخبرة.

هذه المقالة مبنية على تغطية TechCrunch. اقرأ المقال الأصلي.

Originally published on techcrunch.com

دراسة بقيادة هارفارد تجد أن أحد نماذج OpenAI تفوق على الأطباء في التشخيص المبكر بقسم الطوارئ