AI'yi Klinik Teste Tabi Tutmak

Nature Medicine'de yayınlanan bir çalışma, OpenAI'nin ChatGPT'sini tıbbi ön tarama önerileri verme yeteneğinin yapılandırılmış bir değerlendirmesine tabi tutmuştur — hastaların durumlarının aciliyetine göre sınıflandırıldığı acil tıpta kritik ilk adım. Araştırma, büyük dil modellerinin hataların hayati sonuçlar doğurabileceği klinik ortamlarda güvenilir bir şekilde performans gösterip gösteremeyeceğine ilişkin bugüne kadarki en metodolojik açıdan titiz değerlendirmelerinden birini temsil etmektedir.

Ön tarama, AI sistemleri için özellikle zorlu bir testtir çünkü birden fazla bilgi akışını — bildirilen semptomları, hasta geçmişini, vital bulguları ve bağlamsal ipuçlarını — entegre ederek hastanın ne kadar acil bakıma ihtiyacı olduğu konusunda hızlı kararlar vermesi gerekir. Her iki yönde hata vermek ciddi riskler taşır: kritik bir hastanın yetersiz taranması tedavide gecikmeye ve önlenebilir ölüme yol açabilirken, stabil bir hastanın aşırı taranması kıt acil kaynakları boşa harcayabilir.

Çalışma Tasarımı ve Metodoloji

Araştırmacılar, tıbbi eğitim ve uzman sınavlarında yaygın olarak kullanılan standardize klinik vinyetler — hastalık sunumlarının detaylı yazılı açıklamaları — kullanarak yapılandırılmış bir test tasarlamışlardır. Her vinyet hastanın başlıca şikayetini, ilgili tıbbi geçmişini, vital bulguları ve fizik muayene bulgularını içermiştir.

ChatGPT'den her olayı beş standart ön tarama kategorisinden birine atanması istenmiştir; anında müdahale gerektiren hayati tehdit oluşturan acil durumlardan rutin bakım için güvenli bir şekilde bekleyebilecek acil olmayan durumlara kadar değişen kategorilerdir. AI'nin önerileri, acil tıp konusunda deneyimli hekimlerin oluşturduğu uzlaşma ön tarama atamalarıyla karşılaştırılmıştır.

Çalışma, AI tıbbi performansının önceki değerlendirmelerini karmaşık hale getiren birkaç değişkeni kontrol etmiştir. Hızlı mühendisliği soruların modele nasıl sorulacağındaki farklılığı ortadan kaldırmak için standartlaştırılmıştır. Tutarlılığı değerlendirmek için birden fazla çalıştırma yapılmıştır ve araştırmacılar ön tarama atamasının doğruluğunu değil aynı zamanda model tarafından sağlanan akıl yürütmeyi de analiz etmiştir.

Ana Bulgular

Çalışma, ChatGPT'nin farklı aciliyet seviyeleri arasında karışık sonuçlar verdiğini bulmuştur. Kalp durması, ciddi travma veya ciddi solunum sıkıntısı gibi açık hayati tehdit oluşturan durumlarda — en kritik vakalar — model genel olarak iyi performans göstermiş, çoğu durumda hemen müdahale ihtiyacını doğru şekilde tanımlamıştır.

Ancak, acil ve yarı-acil durumlar arasındaki ayrımın daha incelikli klinik yargı gerektirdiği ortadaki ön tarama kategorilerinde performans kötüleşmiştir. Bunlar tam olarak ön tarama hatalarının deneyimli klinisyenler arasında bile en sık görüldüğü ve yanlış sınıflandırmanın klinik sonuçlarının en ciddi olduğu durumlardır.

Model ayrıca aynı vakaların tekrar değerlendirilmesinde tutarsızlık göstermiştir. Aynı klinik vinyetler birden fazla kez sunulduğunda, ChatGPT bazen farklı ön tarama kategorileri atamıştır; bu bulgu, gerçek dünya ortamlarında tutarlılığın temel olduğu LLM tabanlı klinik araçların güvenilirliği hakkında endişeler ortaya koymaktadır.

  • ChatGPT açıkça kritik durumlarda en iyi performansı gösterdi ancak incelikli orta-aciliyet ön tarama kararlarında zorluk çekti
  • Model aynı vakalara birden fazla kez sunulduğunda tutarsızlık gösterdi
  • Akıl yürütme kalitesi önemli ölçüde değişti; bazı değerlendirmeler sağlam klinik mantık gösterirken diğerleri görünüş itibariyle kurgulamayı yansıttı
  • Çalışma titiz değerlendirme sağlamak için standartlaştırılmış vinyetler ve kontrollü hızlı mühendisliğini kullandı

Sağlık Hizmetleri AI'si İçin Çıkarımlar

Bulgular, AI'yi sağlık hizmetleri iş akışlarına entegre etme hareketinin büyümesi için önemli çıkarımlar taşımaktadır. Tıbbi AI savunucuları, büyük dil modellerinin acil hekimleri ve ön tarama hemşirelerinin ciddi açığını hafifletmeye yardımcı olabileceğini — özellikle eğitimli tıbbi profesyonellere erişimin sınırlı olduğu yetersiz kaynaklara sahip sağlık hizmetleri ortamlarında ve gelişmekte olan ülkelerde — savunmaktadırlar.

Çalışma, ChatGPT'nin tamamlayıcı bir araç olarak — klinisyenlerin ayırıcı tanılarında düşünmelerine yardımcı olması veya potansiyel olarak gözden kaçan hususları uyarması — yararlı olabileceğini ancak henüz otonom bir ön tarama sistemi olarak hizmet verecek kadar güvenilir olmadığını göstermektedir. Tekrar edilen değerlendirmelerdeki tutarsızlık özellikle endişe verici çünkü klinik karar destek araçlarının aynı girdilerin verilmesi durumunda aynı öneriyi üretmesi gerekir.

Araştırmacılar, bulgularının test edilen ChatGPT sürümüne özellikle uygulandığını ve model yeteneklerinin hızlı bir şekilde geliştiğini belirtmektedir. Geliştirilmiş akıl yürütme yetenekleri ve tıbbi ince ayarı olan daha yeni modeller önemli ölçüde daha iyi performans gösterebilir. Ancak, herhangi bir AI sistemini standardize test durumlarına karşı değil gerçek dünya hasta sonuçlarına karşı kapsamlı doğrulama olmaksızın klinik ön tarama konusunda kullanmaya karşı uyarırlar.

Düzenleme Sorusu

Çalışma ayrıca, AI araçları giderek klinik uygulamada yer aldıkça düzenlemeci karşı karşıya kaldığı zorlukları vurgulamaktadır. Birçok ülkede, tıbbi karar destek yazılımı bir tıbbi cihaz olarak düzenleme onayına tabidir. Ancak, AI model güncellemelerinin hızlı temposu — her birkaç ayda yeni sürümler yayınlanması — her güncellemenin sistemin klinik performansını potansiyel olarak değiştirebileceği gibi düzenleme zorlukları yaratmaktadır.

ABD Gıda ve İlaç İdaresi, AI tabanlı tıbbi cihazları düzenleme çerçevesi — zaman içinde gelişen sistemleri öğrenme konusunda hükümler içeren — geliştirmektedir. Ancak çerçeve hala işleme aşamasındadır ve AI geliştirme hızı ile düzenleme uyarlanması hızı arasındaki boşluk açılmaya devam etmektedir.

İleri Bakış

Nature Medicine çalışması, büyük dil modellerinin tıbbi uygulamalarda gerçek bir potansiyel göstermekte ancak henüz otonom klinik kullanıma hazır olmadığını gösteren artan bir kanıt bedenine katkıda bulunmaktadır. İleri doğru yol, muhtemelen model önerilerinin her zaman insan gözden geçirmesine tabi tutulduğu dikkatli bir şekilde tasarlanmış insan-AI işbirliği sistemlerini — AI yardımının aslında hastalık bakımını iyileştirdiğinden ve yeni riskler getirmediğinden emin olmak için klinik sonuçların devam eden izlenmesi ile birlikte — içermektedir.

Zaten kalabalıklık ve personel eksikliği ile mücadele eden acil tıp bölümleri için, kaçırılan bazı kritik vakaları yakalayan kusurlu bir AI aracı bile hayat kurtarabilir. Ancak böyle bir aracı sorumlu bir şekilde kullanmak, bu çalışma tarafından örnek verilen — sadece seçilmiş örneklerle etkileyici performans gösterileri değil — titiz, yapılandırılmış değerlendirme türünü gerektirir.

Bu makale Nature Medicine'nin raporlamasına dayalıdır. Orijinal makaleyi okuyun.