تحذير جديد للذكاء الاصطناعي الطبي

تُدرَّب أنظمة الذكاء الاصطناعي بشكل متزايد على قراءة صور الثدي الشعاعية، والرنين المغناطيسي، والخزعات، وغيرها من الصور الطبية، وغالبًا ما يُقدَّم ذلك بوصفه وسيلة لتخفيف أعباء العمل وتحسين سرعة التشخيص. لكن الباحثين يحذرون من أن بعض هذه الأنظمة قد تفشل بطريقة مثيرة للقلق على نحو خاص: إذ يمكنها إنتاج تفسيرات تبدو مقنعة لصور لم تُعرض عليها فعليًا.

تُوصف هذه الظاهرة بأنها “سراب” للذكاء الاصطناعي. وفي التقرير الأصلي من Live Science، يقول الباحثون إن النماذج الحديثة قادرة على توليد أوصاف مقنعة لمواد بصرية لم تُزوَّد بها. هذا النوع من السلوك يثير قلقًا أشد من الخطأ العادي. فالخطأ التقليدي سيئ بما يكفي في الطب، لكن تفسيرًا يبدو مُفتعَلًا ومغلفًا بلغة واثقة قد يكون أسوأ لأنه قد يبدو موثوقًا في نظر البشر المفترض أن يشرفوا عليه.

يأتي هذا التحذير في وقت ما يزال فيه الحماس للذكاء الاصطناعي الطبي قويًا. وقد اقترح بعض المحللين أن هذه الأنظمة قد تستبدل في نهاية المطاف أجزاء كبيرة من تفسير الصور لدى البشر. إن القلق الناشئ حول السرابات لا يثبت أن هذا المصير مستحيل، لكنه يتحدى الفكرة القائلة إن مكاسب القدرة الخام تتحول تلقائيًا إلى نشر سريري آمن.

لماذا يختلف السراب عن التشخيص الفائت

غالبًا ما تُقيَّم نماذج التصوير الطبي وفق مقاييس مألوفة مثل الحساسية والنوعية أو الدقة على مجموعات بيانات معيارية. لكن السرابات تشير إلى فئة مختلفة من المخاطر. فالمشكلة لا تقتصر على ما إذا كان النموذج يصنّف الفحص بشكل صحيح، بل على ما إذا كان النموذج متجذرًا فعلًا في المدخل الذي يتلقاه.

إذا كان النظام قادرًا على وصف البنى المرضية أو التفاصيل أو الآفات غير الموجودة في الصورة المقدمة بثقة، فإن الطبيب يتعامل مع أداة قد تبدو وكأنها تستنتج من الأدلة بينما هي في جزء منها تختلق أساسها الدليلي. وفي الذكاء الاصطناعي الاستهلاكي قد يُسمى هذا النمط “هلاوس”. أما في الطب، حيث يستخدم التقرير الأصلي مصطلح السراب، فالدلالة أشد لأن الناتج المُفتعَل قد يؤثر في الفحص، أو التشخيص، أو الاختبارات اللاحقة، أو قرارات العلاج.

ويكتسب هذا أهمية خاصة في الحالات الحدّية، حيث يلجأ الأطباء إلى دعم الذكاء الاصطناعي تحديدًا لأن الصورة غامضة أو لأن عبء العمل مرتفع. وقد يكون من الأصعب اكتشاف نظام يحقق أداءً جيدًا في المتوسط لكنه ينتج أحيانًا تفسيرات غير مسندة عندما يكون المستخدمون أكثر ميلاً إلى الثقة بالأتمتة.

الوعد السريري يصطدم بمتطلبات الموثوقية

من السهل فهم جاذبية الذكاء الاصطناعي في التصوير الطبي. فأنظمة الرعاية الصحية تواجه نقصًا في الأخصائيين، وتراكمًا في برامج الفحص، وتزايدًا في أحجام الصور الطبية. وأداة يمكنها رصد الشذوذ، أو فرز الصور، أو دعم التشخيص تملك جاذبية تشغيلية واضحة. وهذا أحد الأسباب التي جعلت هذه الأنظمة تحظى باهتمام مستمر من المستشفيات والشركات الناشئة والمستثمرين.

لكن الطب يفرض معيارًا أشد صرامة من كثير من مجالات الذكاء الاصطناعي الأخرى. فالنموذج لا يكفي أن يكون مفيدًا. بل يجب أن يكون مرتبطًا على نحو موثوق ببيانات المريض أمامه، وقابلًا للتفسير بدرجة كافية تتيح مراجعته، ويمكن التنبؤ بسلوكه بما يكفي لنشره دون إدخال أنماط فشل خفية. ويشير سلوك السراب إلى أن الأنظمة الحالية قد لا تزال تنتهك هذا الحد بطرق لا تلتقطها التقييمات القياسية بالكامل.

والقلق هنا ليس افتراضيًا بمعناه المجرد. فإذا كان الباحثون يحذرون الآن من أن النماذج يمكن أن تختلق أوصاف الصور، فلابد للمطورين والجهات التنظيمية والمتبنين سريريًا من التساؤل عما إذا كانت ممارسات التحقق الحالية تختبر الشيء الصحيح. قد يحقق نموذج نتائج قوية على المعايير القياسية، ومع ذلك يظل سلوكه خطيرًا إذا انفصل منطقه الظاهري عن الصورة الفعلية في لحظات حاسمة.

ماذا يعني ذلك للتبني

أوضح ما يستفاد من ذلك هو الحذر. فقد تحتاج المؤسسات الصحية التي تفكر في استخدام الذكاء الاصطناعي لتحليل الصور إلى تعزيز الإشراف والاختبار تحت الضغط والمراجعة البشرية، بدلًا من اعتبار ادعاءات الأداء دليلًا كافيًا على الجاهزية. وقد يلزم تقييم الأنظمة ليس فقط على أساس الجودة التشخيصية، بل أيضًا على أساس وفائها للمدخل: هل تستجيب فعلًا للفحص المقدم، أم أنها تملأ الفجوات جزئيًا بأنماط تعلمتها تبدو فقط وكأنها تفسير متجذر؟

وقد يؤثر التحذير أيضًا في تصميم المنتجات. فقد يحتاج المطورون إلى بناء حواجز أقوى تُبقي النماذج أقرب إلى السمات القابلة للملاحظة، أو إقران الأنظمة التوليدية ببنى أضيق مصممة لمهام سريرية محددة. وفي بعض السياقات، قد يكون نموذج أقل مرونة لكنه أكثر ثباتًا في الارتباط بالصورة أكثر أمانًا من نموذج أكثر تعبيرًا لكنه يختلق التفاصيل أحيانًا.

وبالنسبة للجهات التنظيمية، تشير القضية إلى توتر مألوف في حوكمة الذكاء الاصطناعي. فمسارات الموافقة المبنية على الأداء الإجمالي قد تفوّت سلوكيات نادرة لكنها مؤثرة. وفي الطب، تكتسب أنماط الفشل النادرة أهمية كبيرة لأنها قد تؤثر مباشرة في نتائج المرضى. لذلك لا يعتمد مبرر التوسع في النشر فقط على عدد المرات التي يصيب فيها النظام، بل أيضًا على طريقة خطئه.

الدرس الأوسع

لطالما استندت فكرة أن الذكاء الاصطناعي قد يتفوق على المتخصصين البشر في تفسير الصور إلى أكثر من مجرد التعرف على الأنماط. إنها تعتمد على الثقة. ويحتاج الأطباء إلى الاطمئنان إلى أنه عندما يشير النظام إلى سمة مشبوهة، فإنه يستجيب للصورة لا ينتج وهمًا مصقولًا بالكفاءة.

إن ظهور تحذيرات السراب لا يعني أن الذكاء الاصطناعي للتصوير الطبي يجب أن يُهجر. لكنه يعني أن المجال قد يكون دخل مرحلة أكثر اتزانًا، تصبح فيها الموثوقية، والارتكاز على البيانات، وقابلية المراجعة مهمة بقدر أهمية مكاسب الدقة التي تتصدر العناوين. وسيكون ذلك تصحيحًا صحيًا. فالأدوات السريرية لا تكتسب الشرعية لأنها تبدو ذكية، بل لأنها تكون صحيحة للأسباب الصحيحة وبقدر من الاتساق يكفي لدعم الرعاية.

إذا كان للذكاء الاصطناعي الطبي أن ينتقل من وعد تجريبي إلى بنية تحتية روتينية، فعليه أن يجتاز هذا المعيار. ويذكّرنا سلوك السراب بأنه في الرعاية الصحية، لا يعني المخرج المقنع بالضرورة دليلًا موثوقًا.

تعتمد هذه المقالة على تغطية Live Science. اقرأ المقال الأصلي.

Originally published on livescience.com