மருத்துவ வாக்குத்திறன் இன்னும் மருத்துவ நம்பகத்தன்மையை மிஞ்சுகிறது
Medical Xpress மூலம் சுருக்கப்பட்ட ஒரு புதிய ஆய்வு, பிரபல AI சாட்போட்டுகள் ஆரோக்கிய ஆலோசனையின் நம்பகமான ஆதாரங்களாக இன்னும் வெகுதூரத்தில் உள்ளன என்பதை காட்டுகிறது. ஆராய்ச்சியாளர்கள் பரவலாக பயன்படுத்தப்படும் ஐந்து அமைப்புகளை சோதித்து, புற்றுநோய், தடுப்பூசிகள், ஸ்டெம் செல்கள், ஊட்டச்சத்து, மற்றும் விளையாட்டு செயல்திறன் பற்றிய 50 கேள்விகளை முன்வைத்தனர். முக்கிய முடிவு நேரடியானது: பதில்களில் பாதி சிக்கலானவை என்று மதிப்பிடப்பட்டன, மற்றும் சுமார் 20% மிகச் சிக்கலானவை என கருதப்பட்டன.
BMJ Open-ல் வெளியிடப்பட்ட இந்த ஆய்வு ChatGPT, Gemini, Grok, Meta AI, மற்றும் DeepSeek ஆகியவற்றின் பதில்களை மதிப்பீடு செய்தது. இரண்டு நிபுணர்கள் ஒவ்வொரு பதிலையும் தனித்தனியாக மதிப்பிட்டனர். கருவிகள் பெரும்பாலும் பரிசுத்தமான, அதிகாரப்பூர்வமாகத் தோன்றும் பதில்களை வழங்கினாலும், ஆராய்ச்சியாளர்கள் அடிக்கடி உண்மைத் தவறுகள், நம்பகமற்ற ஆதாரக் குறிப்புகள், மற்றும் அபாயகரமான அல்லது தவறாக வழிநடத்தும் கேள்விகளை மறுக்கத் தவறியது ஆகியவற்றைக் கண்டறிந்தனர்.
மொத்த 250 கேள்விகளில் இரண்டு மட்டுமே நேரடியாக மறுக்கப்பட்டன. இது முக்கியமானது, ஏனெனில் பல ஆரோக்கியக் கேள்விகள் நிலையான உண்மைகளை கேட்கும் நடுநிலையான கோரிக்கைகள் அல்ல. அவை பெரும்பாலும் பதற்றத்துடன், திறந்த-ended ஆக, அல்லது பலவீனமான முன்கணிப்புகளின் மீது அமைக்கப்பட்டவையாக இருக்கும். அத்தகைய சந்தர்ப்பங்களில், premise-ஐ சவால் செய்யாமல் மென்மையாக பதிலளிக்கும் ஒரு சாட்போட், “நான் உதவ முடியாது” என்று நேரடியாகச் சொல்வதைக் காட்டிலும் அதிக சேதத்தை ஏற்படுத்தலாம்.
ஆராய்ச்சியாளர்கள் என்ன கண்டறிந்தனர்
மூல உரையின் படி, ஐந்து அமைப்புகளில் எதுவும் முழுமையாகச் சரியான reference list-களை நம்பகமாக உருவாக்கவில்லை. இந்த ஆய்வு மாதிரிகளுக்கு இடையில் ஒப்பீட்டளவில் ஒரே மாதிரியான செயல்திறனையும் கண்டது, இது பிரச்சினை ஒரு platform-க்கு மட்டும் அல்ல, கட்டமைப்புக்கே உரியது என்பதைக் காட்டுகிறது. இந்த ஒப்பீட்டில் Grok மிகவும் மோசமாக செயல்பட்டது; அதன் 58% பதில்கள் சிக்கலானவை என குறிக்கப்பட்டன. அதனைத் தொடர்ந்து ChatGPT 52% மற்றும் Meta AI 50% ஆகியவை இருந்தன.
தலைப்பைப் பொறுத்து செயல்திறன் மாறியது. தடுப்பூசிகள் மற்றும் புற்றுநோய் சிறந்த முடிவுகளைத் தந்தன; அந்த துறைகளில் கிடைக்கும் பெரிய மற்றும் ஒப்பீட்டளவில் கட்டமைக்கப்பட்ட ஆய்வு அடித்தளத்தை இதற்குக் காரணமாக கட்டுரை குறிப்பிடுகிறது. அங்கே கூட, சாட்போட்டுகள் சுமார் நான்கில் ஒரு பகுதி நேரம் சிக்கலான பதில்களைத் தந்தன. ஊட்டச்சத்து மற்றும் விளையாட்டு செயல்திறன் அதிகமாக கவலைக்கிடமானதாக இருந்தன, ஏனெனில் அவற்றில் முரணான கோரிக்கைகள், பலவீனமான சான்றுகள், மற்றும் குறைந்த தரமான ஆன்லைன் உள்ளடக்கம் நிறைந்துள்ளன.
கேள்விகள் திறந்த-ended ஆனபோது இடைவெளி வேகமாக அதிகரித்தது. திறந்த-ended பதில்களில் 32% மிகச் சிக்கலானவை என மதிப்பிடப்பட்டன, ஆனால் closed questions-க்கு அது 7% மட்டுமே. உண்மையான நோயாளிகள் பொதுவாக multiple-choice வடிவில் கேள்விகளை கேட்கவில்லை என்பதால், இந்த வேறுபாடு ஆய்வகத்துக்கு வெளியே மிகவும் முக்கியமானது. அவர்கள் “எந்த supplements சிறந்தது?”, “எந்த சிகிச்சை வேகமாக வேலை செய்கிறது?”, அல்லது “ஒரு clinic-இன் claims நம்பத்தகுந்ததாக இருக்கிறதா?” போன்ற பரந்த கேள்விகளை கேட்கிறார்கள்.
நம்பிக்கை ஏன் ஆபத்தின் ஒரு பகுதி
மிகவும் கவனிக்கத்தக்க பிரச்சினை தவறுகள் நிகழ்வதுதான் மட்டும் அல்ல. அந்த தவறுகள் persuasive மொழியில் மூடப்படலாம் என்பதுதான். கட்டுரையில் எடுத்துக்காட்டு, alternative clinics பற்றி ஒரு AI system-ஐக் கேட்கும் ஒரு கற்பனைக் cancer patient. கவலை ஆதரிக்கப்படாத மருத்துவக் கோரிக்கைகள் மட்டுமல்ல, போலி அல்லது உடைந்த citations மற்றும் கேள்வியின் framing-ஐச் சவால் செய்யும் எந்த பதிலுமின்மை என்பதும்கூட.
ஆரோக்கிய சூழல்களில் இந்த சேர்க்கை ஆபத்தானது. பதில் footnoted ஆகவும் தொழில்முறை தோற்றமுடனும் இருந்தால், பயனர்கள் style-ஐ substance என தவறாக எடுத்துக்கொள்ளலாம். ஒரு சாட்போட் சீரமைக்கப்பட்டும் நடுநிலையானும் ஒலிப்பதால், அது ஒரு random forum post-ஐவிட பாதுகாப்பானதாகத் தோன்றலாம். இந்த தோற்றம் தவறாக வழிநடத்தக்கூடும் என்பதை ஆய்வு சுட்டிக்காட்டுகிறது.
ஆரோக்கியத் தகவலுக்கு நினைவாற்றல் மட்டுமல்ல, தீர்ப்பும் தேவை: மோசமான முன்கணிப்புகளை அறிதல், சான்றின் தரத்தை வேறுபடுத்தல், மற்றும் அவசரமான வழக்குகளை தகுதியான மருத்துவர்களிடம் உயர்த்தி அனுப்புதல். ஒரு model சாத்தியமான அடுத்த சொற்களை மட்டும் கணிக்கிறதானால், அது திறமைசாலி போல ஒலிக்கலாம்; ஆனால் உண்மையில் இவற்றைச் செய்யாமல் இருக்கலாம்.
நோயாளிகளுக்கும் platform-களுக்கும் இதன் பொருள்
இந்த கண்டுபிடிப்புகள் consumer AI systems-ஐ நம்பகமான முதல் வரிசை மருத்துவ அதிகாரிகளாகக் கருதக் கூடாது என்பதைக் வலுப்படுத்துகின்றன. கேள்விகளை draft செய்ய, terminology-ஐ விளக்க, அல்லது பொதுவான கருத்துகளை navigate செய்ய உதவியாக இருக்கலாம்; ஆனால் அந்த பயன்கள் மருத்துவ மேற்பார்வை தேவையை நீக்குவதில்லை. oncology, தடுப்பூசிகள், அல்லது நிரூபிக்கப்படாத therapies போன்ற உணர்வுப்பூர்வ துறைகளில், ஓரளவு மட்டுமே தவறான பதிலும் முடிவுகளைத் தவறான திசைக்கு இட்டுச் செல்லலாம்.
இந்த முடிவுகள் AI நிறுவனங்களுக்கான product-design கேள்விகளையும் எழுப்புகின்றன. 250 கேள்விகளில் இரண்டு மட்டுமே மறுக்கப்பட்டிருந்தால், refusal thresholds ஆரோக்கிய பயன்பாட்டிற்கு மிகக் குறுகியதாக இருக்கலாம். இன்னும் குறிவைத்த பாதுகாப்புகளில் பாதிப்பை ஏற்படுத்தும் முன்கணிப்புகளை வலுவாகக் கண்டறிதல், uncertainty-ஐச் சுற்றிய சிறந்த calibration, மற்றும் ஆதாரம் இல்லாத இடங்களில் ஆதரவு இருப்பதாகக் காட்டாத reference systems ஆகியவை அடங்கலாம்.
அதே அளவு முக்கியமாக, model builders open-ended health prompts-ஐ systems எவ்வாறு கையாள வேண்டும் என்பதை மீண்டும் சிந்திக்க வேண்டியிருக்கும். பாதுகாப்பான பதில் எப்போதும் நேரடியான பதிலாக இருக்காது. சில சந்தர்ப்பங்களில், சரியான நடை கேள்வியைச் சவால் செய்தல், வரம்பை குறைத்தல், அல்லது polished response உருவாக்குவதற்குப் பதிலாக மருத்துவர் ஆலோசனையை பரிந்துரைத்தல் ஆகும்.
விசாலமான பாடம்
இந்த ஆய்வு ஆரோக்கியத் தகவலில் AI-க்கு எந்தப் பங்கும் இல்லை என்பதைக் காட்டவில்லை. தற்போதைய பொது-நோக்க சாட்போட்டுகள் இன்னும் பயனர்கள் கண்டறிவதற்கு கடினமான வழிகளில் அடிக்கடி தோல்வியடைகின்றன என்பதைக் காட்டுகிறது. சோதிக்கப்பட்ட அமைப்புகள் ஒவ்வொரு கேள்விக்கும் fluent prose-ல் பதிலளிக்க முடிந்தது, ஆனால் fluency என்பது trustworthiness-க்கு மாற்றாக இல்லை.
இது நோயாளிகளுக்கும் உருவாக்குநர்களுக்கும், இருவருக்கும், முக்கியப் பாடம். மக்கள் மருத்துவருடன் பேசுவதற்கு முன், குறிப்பாக பயமாகவோ அவசரமாகவோ இருக்கும் போது, AI-யை increasingly நாடுகிறார்கள். ஒரு system caution தேவைப்படும் இடத்தில் certainty-யுடன் பதிலளித்தால், பயனர் ஆபத்தை பின்னர்தான் உணரலாம். மருத்துவத்தில், இது ஒரு தீவிரமான failure mode.
accuracy, citation integrity, மற்றும் refusal behavior ஆகியவை கணிசமாக மேம்படும் வரை, AI சாட்போட்டுகளை நம்பகமான medical guides-ஐ விட drafting மற்றும் orientation tools-ஆகப் புரிந்துகொள்வது நல்லது. BMJ Open முடிவுகள், தொழில்நுட்பத் துறைக்கு இன்னும் சரிசெய்ய வேண்டிய ஒரு பெரிய பாதுகாப்பு இடைவெளி இருப்பதாகக் காட்டுகின்றன.
- ஆராய்ச்சியாளர்கள் ஐந்து முக்கிய சாட்போட்டுகளுக்கு தலா 50 ஆரோக்கியக் கேள்விகளைச் சோதித்தனர்.
- மொத்த பதில்களில் பாதி சிக்கலானவையாகவும், கிட்டத்தட்ட ஐந்தில் ஒன்று மிகச் சிக்கலானவையாகவும் இருந்தன.
- திறந்த-ended ஆரோக்கியக் கேள்விகள், closed questions-ஐ விட மிக மோசமான முடிவுகளைத் தந்தன.
- எந்த சாட்போட்டும் முழுமையாகச் சரியான reference list-களை நம்பகமாக உருவாக்கவில்லை.
இந்த கட்டுரை Medical Xpress செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.
Originally published on medicalxpress.com




