Nghiên Cứu Kiểm Tra Độ Chính Xác Triage Y Tế Của ChatGPT

Đưa AI Vào Kiểm Tra Lâm Sàng

Một nghiên cứu được công bố trên Nature Medicine đã kiểm tra ChatGPT của OpenAI thông qua một đánh giá có cấu trúc về khả năng đưa ra các khuyến cáo triage y tế — bước đầu tiên quan trọng trong chăm sóc khẩn cấp nơi bệnh nhân được sắp xếp theo mức độ khẩn cấp của tình trạng của họ. Nghiên cứu này đại diện cho một trong những đánh giá nghiêm ngặt về phương pháp nhất cho đến nay liệu các mô hình ngôn ngữ lớn có thể hoạt động đáng tin cậy trong các thiết lập lâm sàng nơi lỗi có thể có hậu quả sinh tử hay không.

Triage là một bài kiểm tra đặc biệt khó khăn cho các hệ thống AI vì nó yêu cầu tích hợp nhiều luồng thông tin — các triệu chứng được báo cáo, tiền sử bệnh nhân, các dấu hiệu sinh tồn và các dấu hiệu ngữ cảnh — để đưa ra những quyết định nhanh chóng về mức độ khẩn cấp của bệnh nhân cần chăm sóc. Sai lầm ở bất kỳ hướng nào cũng mang những rủi ro nghiêm trọng: triage không đủ đối với một bệnh nhân tới hạn có thể dẫn đến chậm trễ điều trị và tử vong có thể phòng ngừa được, trong khi triage quá mức đối với một bệnh nhân ổn định lãng phí những tài nguyên khẩn cấp khan hiếm.

Thiết Kế Nghiên Cứu và Phương Pháp

Các nhà nghiên cứu đã thiết kế một bài kiểm tra có cấu trúc bằng cách sử dụng các tình huống lâm sàng được tiêu chuẩn hóa — những mô tả chi tiết về cách trình bày của bệnh nhân được sử dụng phổ biến trong giáo dục y tế và các kỳ thi chứng chỉ. Mỗi tình huống bao gồm thông tin về các khiếu nại hiện tại của bệnh nhân, tiền sử y tế có liên quan, các dấu hiệu sinh tồn và những phát hiện từ khám lâm sàng.

ChatGPT được yêu cầu xếp loại mỗi trường hợp vào một trong năm danh mục triage tiêu chuẩn, từ các trường hợp khẩn cấp đe dọa tính mạng ngay lập tức yêu cầu can thiệp tức thời cho đến những điều kiện không cấp bách có thể chờ đợi một cách an toàn để chăm sóc thường quy. Các khuyến cáo của AI được so sánh với các bài tập triage được thống nhất do các bác sĩ y tế khẩn cấp có kinh nghiệm thực hiện.

Nghiên cứu đã kiểm soát một số biến đã làm phức tạp các đánh giá trước đây về hiệu suất AI y tế. Prompt engineering đã được tiêu chuẩn hóa để loại bỏ sự biến thiên trong cách các câu hỏi được đưa ra cho mô hình. Nhiều lần chạy đã được thực hiện để đánh giá tính nhất quán, và các nhà nghiên cứu đã phân tích không chỉ độ chính xác của bài tập triage cuối cùng mà còn cả lý do được cung cấp bởi mô hình.

Những Phát Hiện Chính

Nghiên cứu phát hiện ra rằng ChatGPT hoạt động với kết quả hỗn hợp trên các mức độ cấp bách khác nhau. Đối với các trường hợp quan trọng nhất — những bệnh nhân xuất hiện với các trường hợp khẩn cấp rõ ràng đe dọa tính mạng như ngừng tim, chấn thương lớn hoặc khó thở nặng — mô hình nói chung hoạt động tốt, xác định chính xác nhu cầu can thiệp ngay lập tức trong hầu hết các trường hợp.

Tuy nhiên, hiệu suất giảm sút trong các danh mục triage giữa, nơi phân biệt giữa các trường hợp khẩn cấp và bán khẩn cấp đòi hỏi phán đoán lâm sàng tinh tế hơn. Đây chính xác là những trường hợp mà lỗi triage rất phổ biến thậm chí ngay cả giữa các bác sĩ lâm sàng có kinh nghiệm, và nơi những hậu quả của phân loại sai có ý nghĩa lâm sàng quan trọng nhất.

Mô hình cũng thể hiện sự không nhất quán trong các đánh giá lặp lại của các trường hợp tương tự. Khi được trình bày với các tình huống lâm sàng giống hệt nhau nhiều lần, ChatGPT đôi khi gán các danh mục triage khác nhau, một phát hiện làm dấy lên những lo ngại về độ tin cậy của các công cụ lâm sàng dựa trên LLM trong các thiết lập thế giới thực nơi tính nhất quán là rất cần thiết.

ChatGPT hoạt động tốt nhất trên các trường hợp rõ ràng tới hạn nhưng gặp khó khăn với các quyết định triage cấp độ giữa tinh tế
Mô hình thể hiện sự không nhất quán khi được trình bày với các trường hợp giống hệt nhau nhiều lần
Chất lượng lý luận thay đổi đáng kể, với một số đánh giá thể hiện logic lâm sàng vững chắc và những cái khác phản ánh sự confabulation rõ ràng
Nghiên cứu sử dụng các tình huống được tiêu chuẩn hóa và gợi ý được kiểm soát để đảm bảo đánh giá nghiêm ngặt

Hàm Ý Cho AI Chăm Sóc Sức Khỏe

Những phát hiện này có những hàm ý quan trọng cho phong trào ngày càng lớn để tích hợp AI vào các quy trình làm việc chăm sóc sức khỏe. Những người ủng hộ AI y tế lập luận rằng các mô hình ngôn ngữ lớn có thể giúp giảm nhẹ sự thiếu hụt nghiêm trọng của các bác sĩ khẩn cấp và y tá triage, đặc biệt là trong các thiết lập chăm sóc sức khỏe không đủ tài nguyên và các nước đang phát triển nơi quyền truy cập vào các chuyên gia y tế được đào tạo bị hạn chế.

Nghiên cứu cho thấy rằng mặc dù ChatGPT có thể hữu ích như một công cụ bổ sung — giúp các bác sĩ lâm sàng suy nghĩ thông qua các chẩn đoán khác biệt hoặc gắn cờ những cân nhắc có thể bị bỏ qua — nhưng nó vẫn chưa đáng tin cậy để phục vụ như một hệ thống triage tự động. Sự không nhất quán trong các đánh giá lặp lại đặc biệt đáng lo ngại, vì các công cụ hỗ trợ quyết định lâm sàng cần tạo ra cùng một khuyến cáo cho các đầu vào giống nhau.

Các nhà nghiên cứu lưu ý rằng những phát hiện của họ áp dụng cụ thể cho phiên bản ChatGPT được thử nghiệm và các khả năng mô hình đang phát triển nhanh chóng. Các mô hình mới với khả năng lý luận được tăng cường và fine-tuning về y tế có thể hoạt động tốt hơn đáng kể. Tuy nhiên, họ cảnh báo chống lại việc triển khai bất kỳ hệ thống AI nào trong triage lâm sàng mà không có xác thực rộng rãi chống lại các kết quả bệnh nhân trong thế giới thực, không chỉ các trường hợp kiểm tra được tiêu chuẩn hóa.

Câu Hỏi Về Quy Định

Nghiên cứu cũng nhấn mạnh thách thức mà các cơ quan quản lý phải đối mặt khi các công cụ AI ngày càng tìm đến trong thực hành lâm sàng. Ở nhiều nước, phần mềm hỗ trợ quyết định y tế phải có sự phê duyệt theo quy định như một thiết bị y tế. Tuy nhiên, tốc độ nhanh chóng của các bản cập nhật mô hình AI — với các phiên bản mới được phát hành mỗi vài tháng — tạo ra một thách thức về quy định, vì mỗi lần cập nhật có thể thay đổi hiệu suất lâm sàng của hệ thống.

Cơ quan Quản lý Thực phẩm và Dược phẩm của Hoa Kỳ đã phát triển một khuôn khổ để điều chỉnh các thiết bị y tế dựa trên AI, bao gồm các quy định cho các hệ thống học tập liên tục phát triển theo thời gian. Nhưng khuôn khổ vẫn còn là một công việc đang được tiến hành, và khoảng cách giữa tốc độ phát triển AI và tốc độ thích ứng theo quy định tiếp tục mở rộng.

Hướng Phía Trước

Nghiên cứu Nature Medicine góp phần vào một cơ thể đủ bằng chứng cho thấy rằng các mô hình ngôn ngữ lớn thể hiện những lời hứa thực sự trong các ứng dụng y tế nhưng chưa sẵn sàng cho việc triển khai lâm sàng tự trị. Con đường phía trước có thể liên quan đến các hệ thống hợp tác giữa con người và AI được thiết kế cẩn thận nơi các khuyến cáo của mô hình luôn phải chịu sự xem xét của con người, kết hợp với giám sát liên tục các kết quả lâm sàng để đảm bảo rằng hỗ trợ AI thực sự cải thiện chăm sóc bệnh nhân chứ không phải giới thiệu những rủi ro mới.

Đối với các phòng khẩn cấp đã đấu tranh với sự quá tải và thiếu nhân sự, thậm chí một công cụ AI không hoàn hảo có thể bắt được một số trường hợp quan trọng bị bỏ lỡ có thể cứu sống. Nhưng triển khai công cụ như vậy một cách có trách nhiệm đòi hỏi loại đánh giá nghiêm ngặt, có cấu trúc được minh họa bởi nghiên cứu này — không chỉ là những cuộc trình diễn hiệu suất ấn tượng trên các ví dụ được chọn một cách tùy ý.

Bài viết này dựa trên báo cáo của Nature Medicine. Đọc bài viết gốc.