மருத்துவ வாக்குத்திறன் இன்னும் மருத்துவ நம்பகத்தன்மையை மிஞ்சுகிறது

Medical Xpress மூலம் சுருக்கப்பட்ட ஒரு புதிய ஆய்வு, பிரபல AI சாட்போட்டுகள் ஆரோக்கிய ஆலோசனையின் நம்பகமான ஆதாரங்களாக இன்னும் வெகுதூரத்தில் உள்ளன என்பதை காட்டுகிறது. ஆராய்ச்சியாளர்கள் பரவலாக பயன்படுத்தப்படும் ஐந்து அமைப்புகளை சோதித்து, புற்றுநோய், தடுப்பூசிகள், ஸ்டெம் செல்கள், ஊட்டச்சத்து, மற்றும் விளையாட்டு செயல்திறன் பற்றிய 50 கேள்விகளை முன்வைத்தனர். முக்கிய முடிவு நேரடியானது: பதில்களில் பாதி சிக்கலானவை என்று மதிப்பிடப்பட்டன, மற்றும் சுமார் 20% மிகச் சிக்கலானவை என கருதப்பட்டன.

BMJ Open-ல் வெளியிடப்பட்ட இந்த ஆய்வு ChatGPT, Gemini, Grok, Meta AI, மற்றும் DeepSeek ஆகியவற்றின் பதில்களை மதிப்பீடு செய்தது. இரண்டு நிபுணர்கள் ஒவ்வொரு பதிலையும் தனித்தனியாக மதிப்பிட்டனர். கருவிகள் பெரும்பாலும் பரிசுத்தமான, அதிகாரப்பூர்வமாகத் தோன்றும் பதில்களை வழங்கினாலும், ஆராய்ச்சியாளர்கள் அடிக்கடி உண்மைத் தவறுகள், நம்பகமற்ற ஆதாரக் குறிப்புகள், மற்றும் அபாயகரமான அல்லது தவறாக வழிநடத்தும் கேள்விகளை மறுக்கத் தவறியது ஆகியவற்றைக் கண்டறிந்தனர்.

மொத்த 250 கேள்விகளில் இரண்டு மட்டுமே நேரடியாக மறுக்கப்பட்டன. இது முக்கியமானது, ஏனெனில் பல ஆரோக்கியக் கேள்விகள் நிலையான உண்மைகளை கேட்கும் நடுநிலையான கோரிக்கைகள் அல்ல. அவை பெரும்பாலும் பதற்றத்துடன், திறந்த-ended ஆக, அல்லது பலவீனமான முன்கணிப்புகளின் மீது அமைக்கப்பட்டவையாக இருக்கும். அத்தகைய சந்தர்ப்பங்களில், premise-ஐ சவால் செய்யாமல் மென்மையாக பதிலளிக்கும் ஒரு சாட்போட், “நான் உதவ முடியாது” என்று நேரடியாகச் சொல்வதைக் காட்டிலும் அதிக சேதத்தை ஏற்படுத்தலாம்.

ஆராய்ச்சியாளர்கள் என்ன கண்டறிந்தனர்

மூல உரையின் படி, ஐந்து அமைப்புகளில் எதுவும் முழுமையாகச் சரியான reference list-களை நம்பகமாக உருவாக்கவில்லை. இந்த ஆய்வு மாதிரிகளுக்கு இடையில் ஒப்பீட்டளவில் ஒரே மாதிரியான செயல்திறனையும் கண்டது, இது பிரச்சினை ஒரு platform-க்கு மட்டும் அல்ல, கட்டமைப்புக்கே உரியது என்பதைக் காட்டுகிறது. இந்த ஒப்பீட்டில் Grok மிகவும் மோசமாக செயல்பட்டது; அதன் 58% பதில்கள் சிக்கலானவை என குறிக்கப்பட்டன. அதனைத் தொடர்ந்து ChatGPT 52% மற்றும் Meta AI 50% ஆகியவை இருந்தன.

தலைப்பைப் பொறுத்து செயல்திறன் மாறியது. தடுப்பூசிகள் மற்றும் புற்றுநோய் சிறந்த முடிவுகளைத் தந்தன; அந்த துறைகளில் கிடைக்கும் பெரிய மற்றும் ஒப்பீட்டளவில் கட்டமைக்கப்பட்ட ஆய்வு அடித்தளத்தை இதற்குக் காரணமாக கட்டுரை குறிப்பிடுகிறது. அங்கே கூட, சாட்போட்டுகள் சுமார் நான்கில் ஒரு பகுதி நேரம் சிக்கலான பதில்களைத் தந்தன. ஊட்டச்சத்து மற்றும் விளையாட்டு செயல்திறன் அதிகமாக கவலைக்கிடமானதாக இருந்தன, ஏனெனில் அவற்றில் முரணான கோரிக்கைகள், பலவீனமான சான்றுகள், மற்றும் குறைந்த தரமான ஆன்லைன் உள்ளடக்கம் நிறைந்துள்ளன.

கேள்விகள் திறந்த-ended ஆனபோது இடைவெளி வேகமாக அதிகரித்தது. திறந்த-ended பதில்களில் 32% மிகச் சிக்கலானவை என மதிப்பிடப்பட்டன, ஆனால் closed questions-க்கு அது 7% மட்டுமே. உண்மையான நோயாளிகள் பொதுவாக multiple-choice வடிவில் கேள்விகளை கேட்கவில்லை என்பதால், இந்த வேறுபாடு ஆய்வகத்துக்கு வெளியே மிகவும் முக்கியமானது. அவர்கள் “எந்த supplements சிறந்தது?”, “எந்த சிகிச்சை வேகமாக வேலை செய்கிறது?”, அல்லது “ஒரு clinic-இன் claims நம்பத்தகுந்ததாக இருக்கிறதா?” போன்ற பரந்த கேள்விகளை கேட்கிறார்கள்.