الطلاقة الطبية لا تزال تتقدم على الموثوقية الطبية
تشير دراسة جديدة لخصها موقع Medical Xpress إلى أن روبوتات الدردشة الشائعة المعتمدة على الذكاء الاصطناعي لا تزال بعيدة عن أن تكون مصادر موثوقة للنصح الصحي. اختبر الباحثون خمسة أنظمة واسعة الاستخدام، وطرحوا عليها 50 سؤالًا في مجالات السرطان، واللقاحات، والخلايا الجذعية، والتغذية، والأداء الرياضي. وكانت النتيجة الرئيسية واضحة: اعتُبر نصف الإجابات إشكاليًا، ونحو 20% اعتُبرت شديدة الإشكالية.
قيّمت الدراسة المنشورة في BMJ Open إجابات ChatGPT وGemini وGrok وMeta AI وDeepSeek. وقام خبيران بتقييم كل إجابة بشكل مستقل. ورغم أن الأدوات غالبًا ما أنتجت ردودًا مصقولة تبدو ذات طابع سلطوي، فقد وجد الباحثون مشكلات واقعية متكررة، ومراجع غير موثوقة، وفشلًا شبه كامل في رفض المطالبات غير الآمنة أو المضللة.
تم رفض سؤالين فقط من أصل 250 سؤالًا إجمالًا. وهذا مهم لأن الكثير من أسئلة الصحة ليست مجرد طلبات محايدة لحقائق راسخة؛ فهي غالبًا مشبعة بالقلق، أو مفتوحة الصياغة، أو مبنية على افتراضات ضعيفة. وفي تلك الحالات، قد يكون الروبوت الذي يرد بسلاسة من دون التشكيك في الفرضية أكثر ضررًا من روبوت يقول ببساطة إنه لا يستطيع المساعدة.
ما الذي وجده الباحثون
بحسب النص الأصلي، لم ينجح أي من الأنظمة الخمسة في توليد قوائم مراجع دقيقة بالكامل بصورة موثوقة. كما وجدت الدراسة أداءً متقاربًا نسبيًا بين النماذج، ما يشير إلى أن المشكلة بنيوية وليست مقصورة على منصة واحدة. وكان Grok الأسوأ في هذه المقارنة، إذ وُصفت 58% من إجاباتِه بأنها إشكالية، يليه ChatGPT بنسبة 52% ثم Meta AI بنسبة 50%.
تباين الأداء بحسب الموضوع. حققت اللقاحات والسرطان أفضل النتائج، وهو ما يعزوه المقال إلى القاعدة البحثية الكبيرة والمنظمة نسبيًا المتاحة في هذين المجالين. ومع ذلك، أنتجت روبوتات الدردشة إجابات إشكالية في نحو ربع الحالات. وكانت التغذية والأداء الرياضي أكثر إثارة للقلق، على الأرجح لأن هذه الموضوعات مكتظة بادعاءات متعارضة وأدلة ضعيفة ومحتوى منخفض الجودة على الإنترنت.
وتسعّدت الفجوة بشكل حاد عندما أصبحت المطالبات مفتوحة النهاية. وجدت الدراسة أن 32% من الإجابات المفتوحة اعتُبرت شديدة الإشكالية، مقارنة بـ7% فقط للأسئلة المغلقة. وهذا الفرق مهم خصوصًا خارج المختبر، لأن المرضى الحقيقيين لا يطرحون أسئلتهم عادة بصيغة اختيار من متعدد. إنهم يسألون أسئلة عامة مثل: ما أفضل المكملات، ما العلاج الأسرع، أو هل تبدو ادعاءات عيادة ما معقولة.
لماذا تُعد الثقة جزءًا من الخطر
المشكلة الأبرز ليست مجرد وقوع أخطاء، بل أن هذه الأخطاء يمكن تغليفها بلغة مقنعة. ويورد المقال مثالًا افتراضيًا لمريض سرطان يسأل نظام ذكاء اصطناعي عن عيادات بديلة. فالخطر لا يقتصر على الادعاءات الطبية غير المدعومة، بل يشمل أيضًا المراجع المزيفة أو المعطوبة، وغياب أي اعتراض على صياغة السؤال نفسها.
هذا المزيج خطير في السياقات الصحية. فقد يخلط المستخدم بين الأسلوب والمضمون، خصوصًا عندما تبدو الإجابة موثقة بهوامش وذات صياغة احترافية. قد يبدو روبوت الدردشة أكثر أمانًا من منشور عشوائي في منتدى لأنه يتحدث بنبرة منظمة ومحايدة. وتشير الدراسة إلى أن هذا المظهر قد يكون مضللًا.
تتطلب المعلومات الصحية ليس فقط التذكر، بل الحكم: التعرف على الفرضيات الخاطئة، والتمييز بين جودة الأدلة، وتصعيد الحالات العاجلة إلى أطباء مؤهلين. والنموذج الذي لا يفعل أكثر من توقع الكلمات التالية المحتملة قد يبدو كفؤًا من دون أن يؤدي هذه المهام فعلًا.
ماذا يعني ذلك للمرضى والمنصات
تعزز النتائج الفكرة القائلة إن أنظمة الذكاء الاصطناعي الاستهلاكية لا ينبغي اعتبارها سلطات طبية موثوقة من الدرجة الأولى. قد تكون مفيدة في صياغة الأسئلة، أو شرح المصطلحات، أو مساعدة المستخدمين على فهم المفاهيم العامة، لكن هذه الفوائد لا تلغي الحاجة إلى الإشراف السريري. وفي المجالات الحساسة مثل الأورام واللقاحات أو العلاجات غير المثبتة، قد يظل الجواب الخاطئ جزئيًا قادرًا على توجيه القرارات في الاتجاه الخطأ.
كما تثير النتائج أسئلة تتعلق بتصميم المنتج لدى شركات الذكاء الاصطناعي. فإذا كان السؤالان المرفوضان فقط من أصل 250، فقد تكون عتبات الرفض ضيقة جدًا للاستخدام الصحي. وقد تشمل الحماية الأكثر استهدافًا رصدًا أقوى للفرضيات الضارة، وضبطًا أفضل لمستوى عدم اليقين، وأنظمة مراجع لا توحي بالموافقة حيث لا توجد موافقة.
وبالقدر نفسه من الأهمية، قد يحتاج مطورو النماذج إلى إعادة التفكير في كيفية تعامل الأنظمة مع المطالبات الصحية المفتوحة. فالإجابة الآمنة ليست دائمًا إجابة مباشرة. وفي بعض الحالات، يكون التصرف الصحيح هو التشكيك في السؤال، أو تضييق النطاق، أو نصح المستخدم باستشارة طبيب بدلًا من توليد رد مصقول.
الدرس الأوسع
لا تُظهر هذه الدراسة أن للذكاء الاصطناعي أي دور في المعلومات الصحية. بل تُظهر أن روبوتات الدردشة العامة الحالية ما زالت تفشل كثيرًا بطرق يصعب على المستخدمين اكتشافها. فالأنظمة المختبرة استطاعت الإجابة عن كل سؤال بنثر سلس، لكن الطلاقة اللغوية لم تكن بديلًا عن الموثوقية.
وهذا هو الدرس الأساسي للمرضى والمطورين معًا. فالأشخاص يتجهون بشكل متزايد إلى الذكاء الاصطناعي قبل التحدث إلى الطبيب، خاصة عندما يكونون خائفين أو متعجلين. وإذا رد النظام بيقين في موضع يتطلب الحذر، فقد لا يدرك المستخدم الخطر إلا بعد وقت طويل. وفي الطب، هذا نمط فشل خطير.
وإلى أن تتحسن الدقة ونزاهة الاستشهادات وسلوك الرفض بشكل ملموس، فمن الأفضل فهم روبوتات الدردشة بالذكاء الاصطناعي بوصفها أدوات للصياغة والتوجيه أكثر من كونها أدلة طبية موثوقة. وتشير نتائج BMJ Open إلى أن القطاع لا يزال أمامه فجوة أمان كبيرة لسدها.
- اختبر الباحثون خمسة روبوتات دردشة رئيسية باستخدام 50 سؤالًا صحيًا لكل منها.
- نصف جميع الإجابات كان إشكاليًا، ونحو واحد من كل خمسة كان شديد الإشكالية.
- أدت المطالبات الصحية المفتوحة إلى أسوأ مشكلات السلامة.
- لم ينتج أي من روبوتات الدردشة قوائم مراجع دقيقة بالكامل بشكل موثوق.
هذه المقالة تستند إلى تغطية Medical Xpress. اقرأ المقال الأصلي.
Originally published on medicalxpress.com

