أقوى أداء للذكاء الاصطناعي جاء عندما كانت المخاطر في أعلى مستوياتها

أضافت دراسة بقيادة هارفارد نُشرت هذا الأسبوع في

Science

نقطة بيانات مهمة إلى النقاش حول كيفية استخدام الذكاء الاصطناعي في الطب. وفي أحد أكثر التجارب التي لاقت متابعة في الورقة، قارن الباحثون بين تشخيصات نماذج OpenAI وتلك التي قدّمها طبيبان استشاريان في الطب الباطني عبر حالات حقيقية في قسم الطوارئ بمركز Beth Israel Deaconess الطبي. ووفقًا للدراسة، أدى نموذج o1 من OpenAI أداءً مساوياً أو أفضل من الأطباء البشر عند كل نقطة تشخيصية، وكانت أفضليةه الأوضح عند الفرز الأولي في الطوارئ.

وتكمن أهمية ذلك في أن الفرز هو المرحلة التي يمتلك فيها الأطباء أقل قدر من المعلومات وأقل وقت متاح. وذكرت الدراسة أن الفروق كانت أكثر وضوحًا عند أول نقطة تماس، حين يحاول الأطباء والمستشفيات تحديد السبب الأكثر احتمالًا لحالة المريض قبل توفر الفحوصات الأوسع. وفي تلك المرحلة المبكرة، أفاد الباحثون أن o1 قدم التشخيص الصحيح أو القريب جدًا في 67% من الحالات، مقارنة بـ55% لأحد الأطباء الاستشاريين و50% للآخر.

كيف صُممت المقارنة

قاد فريق البحث أطباء وعلماء حاسوب من كلية الطب بجامعة هارفارد وBeth Israel Deaconess. وفي تجربة الطوارئ التي أبرزتها المادة المصدر، ركز الفريق على 76 مريضًا دخلوا قسم الطوارئ في Beth Israel. وتمت مقارنة التشخيصات التي ولّدها نموذجان من OpenAI، هما o1 و4o، بتشخيصات قدمها طبيبان استشاريان في الطب الباطني.

ثم راجع هذه المخرجات طبيبان استشاريان آخران لم يعرفا أي التشخيصات جاءت من البشر وأيها جاءت من أنظمة الذكاء الاصطناعي. ويُعد هذا التعمية مهمًا لأنه يقلل خطر أن يفضّل المراجعون مصدرًا على آخر بناءً على التوقعات لا الجودة.

وأكد الباحثون أيضًا أنهم لم يجروا أي معالجة مسبقة لبيانات المرضى قبل تقديمها إلى النماذج. بل تلقت أنظمة الذكاء الاصطناعي نفس المعلومات المتاحة في السجل الطبي الإلكتروني وقت إصدار كل تشخيص. وهذه النقطة ترد مباشرة على أحد الانتقادات المتكررة في أبحاث الذكاء الاصطناعي الطبي: أن النماذج قد تبدو مبهرة فقط عندما تُغذّى بمدخلات نظيفة أو مبسطة أو مكتملة على نحو غير معتاد. وهنا، يقول فريق البحث إن النماذج اختُبرت على الصورة السريرية نفسها الخام وغير المكتملة المتاحة في الممارسة الفعلية.