புதிய சாட்போட் ஆய்வில் AI ஆரோக்கிய பதில்களில் பாதி சிக்கலானவை

மருத்துவ வாக்குத்திறன் இன்னும் மருத்துவ நம்பகத்தன்மையை மிஞ்சுகிறது

Medical Xpress மூலம் சுருக்கப்பட்ட ஒரு புதிய ஆய்வு, பிரபல AI சாட்போட்டுகள் ஆரோக்கிய ஆலோசனையின் நம்பகமான ஆதாரங்களாக இன்னும் வெகுதூரத்தில் உள்ளன என்பதை காட்டுகிறது. ஆராய்ச்சியாளர்கள் பரவலாக பயன்படுத்தப்படும் ஐந்து அமைப்புகளை சோதித்து, புற்றுநோய், தடுப்பூசிகள், ஸ்டெம் செல்கள், ஊட்டச்சத்து, மற்றும் விளையாட்டு செயல்திறன் பற்றிய 50 கேள்விகளை முன்வைத்தனர். முக்கிய முடிவு நேரடியானது: பதில்களில் பாதி சிக்கலானவை என்று மதிப்பிடப்பட்டன, மற்றும் சுமார் 20% மிகச் சிக்கலானவை என கருதப்பட்டன.

BMJ Open-ல் வெளியிடப்பட்ட இந்த ஆய்வு ChatGPT, Gemini, Grok, Meta AI, மற்றும் DeepSeek ஆகியவற்றின் பதில்களை மதிப்பீடு செய்தது. இரண்டு நிபுணர்கள் ஒவ்வொரு பதிலையும் தனித்தனியாக மதிப்பிட்டனர். கருவிகள் பெரும்பாலும் பரிசுத்தமான, அதிகாரப்பூர்வமாகத் தோன்றும் பதில்களை வழங்கினாலும், ஆராய்ச்சியாளர்கள் அடிக்கடி உண்மைத் தவறுகள், நம்பகமற்ற ஆதாரக் குறிப்புகள், மற்றும் அபாயகரமான அல்லது தவறாக வழிநடத்தும் கேள்விகளை மறுக்கத் தவறியது ஆகியவற்றைக் கண்டறிந்தனர்.

மொத்த 250 கேள்விகளில் இரண்டு மட்டுமே நேரடியாக மறுக்கப்பட்டன. இது முக்கியமானது, ஏனெனில் பல ஆரோக்கியக் கேள்விகள் நிலையான உண்மைகளை கேட்கும் நடுநிலையான கோரிக்கைகள் அல்ல. அவை பெரும்பாலும் பதற்றத்துடன், திறந்த-ended ஆக, அல்லது பலவீனமான முன்கணிப்புகளின் மீது அமைக்கப்பட்டவையாக இருக்கும். அத்தகைய சந்தர்ப்பங்களில், premise-ஐ சவால் செய்யாமல் மென்மையாக பதிலளிக்கும் ஒரு சாட்போட், “நான் உதவ முடியாது” என்று நேரடியாகச் சொல்வதைக் காட்டிலும் அதிக சேதத்தை ஏற்படுத்தலாம்.

ஆராய்ச்சியாளர்கள் என்ன கண்டறிந்தனர்

மூல உரையின் படி, ஐந்து அமைப்புகளில் எதுவும் முழுமையாகச் சரியான reference list-களை நம்பகமாக உருவாக்கவில்லை. இந்த ஆய்வு மாதிரிகளுக்கு இடையில் ஒப்பீட்டளவில் ஒரே மாதிரியான செயல்திறனையும் கண்டது, இது பிரச்சினை ஒரு platform-க்கு மட்டும் அல்ல, கட்டமைப்புக்கே உரியது என்பதைக் காட்டுகிறது. இந்த ஒப்பீட்டில் Grok மிகவும் மோசமாக செயல்பட்டது; அதன் 58% பதில்கள் சிக்கலானவை என குறிக்கப்பட்டன. அதனைத் தொடர்ந்து ChatGPT 52% மற்றும் Meta AI 50% ஆகியவை இருந்தன.

தலைப்பைப் பொறுத்து செயல்திறன் மாறியது. தடுப்பூசிகள் மற்றும் புற்றுநோய் சிறந்த முடிவுகளைத் தந்தன; அந்த துறைகளில் கிடைக்கும் பெரிய மற்றும் ஒப்பீட்டளவில் கட்டமைக்கப்பட்ட ஆய்வு அடித்தளத்தை இதற்குக் காரணமாக கட்டுரை குறிப்பிடுகிறது. அங்கே கூட, சாட்போட்டுகள் சுமார் நான்கில் ஒரு பகுதி நேரம் சிக்கலான பதில்களைத் தந்தன. ஊட்டச்சத்து மற்றும் விளையாட்டு செயல்திறன் அதிகமாக கவலைக்கிடமானதாக இருந்தன, ஏனெனில் அவற்றில் முரணான கோரிக்கைகள், பலவீனமான சான்றுகள், மற்றும் குறைந்த தரமான ஆன்லைன் உள்ளடக்கம் நிறைந்துள்ளன.

கேள்விகள் திறந்த-ended ஆனபோது இடைவெளி வேகமாக அதிகரித்தது. திறந்த-ended பதில்களில் 32% மிகச் சிக்கலானவை என மதிப்பிடப்பட்டன, ஆனால் closed questions-க்கு அது 7% மட்டுமே. உண்மையான நோயாளிகள் பொதுவாக multiple-choice வடிவில் கேள்விகளை கேட்கவில்லை என்பதால், இந்த வேறுபாடு ஆய்வகத்துக்கு வெளியே மிகவும் முக்கியமானது. அவர்கள் “எந்த supplements சிறந்தது?”, “எந்த சிகிச்சை வேகமாக வேலை செய்கிறது?”, அல்லது “ஒரு clinic-இன் claims நம்பத்தகுந்ததாக இருக்கிறதா?” போன்ற பரந்த கேள்விகளை கேட்கிறார்கள்.

New data may cast doubt on competitiveness of Boehringer’s obesity drug

புதிய肥胖 மருந்து தரவு Boehringer-இன் நிலைப்பாட்டை பற்றிய கேள்விகளை எழுப்புகிறது

Boehringer Ingelheim-இன்肥胖 மருந்து குறித்த புதிய தரவு கலவையான சுயவிவரத்தை காட்டுகிறது; கல்லீரல் கொழுப்பு குறைப்பு நம்பிக்கை அளிப்பதாயினும், மொத்த எடை இழப்பில் அது குறைவாகப் பிரமிக்கிறது.

Read article

நம்பிக்கை ஏன் ஆபத்தின் ஒரு பகுதி

மிகவும் கவனிக்கத்தக்க பிரச்சினை தவறுகள் நிகழ்வதுதான் மட்டும் அல்ல. அந்த தவறுகள் persuasive மொழியில் மூடப்படலாம் என்பதுதான். கட்டுரையில் எடுத்துக்காட்டு, alternative clinics பற்றி ஒரு AI system-ஐக் கேட்கும் ஒரு கற்பனைக் cancer patient. கவலை ஆதரிக்கப்படாத மருத்துவக் கோரிக்கைகள் மட்டுமல்ல, போலி அல்லது உடைந்த citations மற்றும் கேள்வியின் framing-ஐச் சவால் செய்யும் எந்த பதிலுமின்மை என்பதும்கூட.

ஆரோக்கிய சூழல்களில் இந்த சேர்க்கை ஆபத்தானது. பதில் footnoted ஆகவும் தொழில்முறை தோற்றமுடனும் இருந்தால், பயனர்கள் style-ஐ substance என தவறாக எடுத்துக்கொள்ளலாம். ஒரு சாட்போட் சீரமைக்கப்பட்டும் நடுநிலையானும் ஒலிப்பதால், அது ஒரு random forum post-ஐவிட பாதுகாப்பானதாகத் தோன்றலாம். இந்த தோற்றம் தவறாக வழிநடத்தக்கூடும் என்பதை ஆய்வு சுட்டிக்காட்டுகிறது.

ஆரோக்கியத் தகவலுக்கு நினைவாற்றல் மட்டுமல்ல, தீர்ப்பும் தேவை: மோசமான முன்கணிப்புகளை அறிதல், சான்றின் தரத்தை வேறுபடுத்தல், மற்றும் அவசரமான வழக்குகளை தகுதியான மருத்துவர்களிடம் உயர்த்தி அனுப்புதல். ஒரு model சாத்தியமான அடுத்த சொற்களை மட்டும் கணிக்கிறதானால், அது திறமைசாலி போல ஒலிக்கலாம்; ஆனால் உண்மையில் இவற்றைச் செய்யாமல் இருக்கலாம்.

நோயாளிகளுக்கும் platform-களுக்கும் இதன் பொருள்

இந்த கண்டுபிடிப்புகள் consumer AI systems-ஐ நம்பகமான முதல் வரிசை மருத்துவ அதிகாரிகளாகக் கருதக் கூடாது என்பதைக் வலுப்படுத்துகின்றன. கேள்விகளை draft செய்ய, terminology-ஐ விளக்க, அல்லது பொதுவான கருத்துகளை navigate செய்ய உதவியாக இருக்கலாம்; ஆனால் அந்த பயன்கள் மருத்துவ மேற்பார்வை தேவையை நீக்குவதில்லை. oncology, தடுப்பூசிகள், அல்லது நிரூபிக்கப்படாத therapies போன்ற உணர்வுப்பூர்வ துறைகளில், ஓரளவு மட்டுமே தவறான பதிலும் முடிவுகளைத் தவறான திசைக்கு இட்டுச் செல்லலாம்.

இந்த முடிவுகள் AI நிறுவனங்களுக்கான product-design கேள்விகளையும் எழுப்புகின்றன. 250 கேள்விகளில் இரண்டு மட்டுமே மறுக்கப்பட்டிருந்தால், refusal thresholds ஆரோக்கிய பயன்பாட்டிற்கு மிகக் குறுகியதாக இருக்கலாம். இன்னும் குறிவைத்த பாதுகாப்புகளில் பாதிப்பை ஏற்படுத்தும் முன்கணிப்புகளை வலுவாகக் கண்டறிதல், uncertainty-ஐச் சுற்றிய சிறந்த calibration, மற்றும் ஆதாரம் இல்லாத இடங்களில் ஆதரவு இருப்பதாகக் காட்டாத reference systems ஆகியவை அடங்கலாம்.

அதே அளவு முக்கியமாக, model builders open-ended health prompts-ஐ systems எவ்வாறு கையாள வேண்டும் என்பதை மீண்டும் சிந்திக்க வேண்டியிருக்கும். பாதுகாப்பான பதில் எப்போதும் நேரடியான பதிலாக இருக்காது. சில சந்தர்ப்பங்களில், சரியான நடை கேள்வியைச் சவால் செய்தல், வரம்பை குறைத்தல், அல்லது polished response உருவாக்குவதற்குப் பதிலாக மருத்துவர் ஆலோசனையை பரிந்துரைத்தல் ஆகும்.

Engineered stem cells reverse new-onset type 1 diabetes in mice

பொறியியல் செய்யப்பட்ட ஸ்டெம் செல்கள் புதிதாகத் தோன்றிய டைப் 1 நீரிழிவை எலிகளில் மாற்றின

MUSC ஆய்வாளர்கள், மாற்றியமைக்கப்பட்ட மெசென்கைமல் ஸ்டெம் செல்கள் எதிர்ப்பு-ஒழுங்குமுறையும் அழற்சி-எதிர்ப்பு பாதுகாப்பையும் இணைத்து, எலி மாதிரியில் புதிதாகத் தோன்றிய டைப் 1 நீரிழிவை மாற்றியதாக அறிக்கையிட்டுள்ளனர்.

Read article

விசாலமான பாடம்

இந்த ஆய்வு ஆரோக்கியத் தகவலில் AI-க்கு எந்தப் பங்கும் இல்லை என்பதைக் காட்டவில்லை. தற்போதைய பொது-நோக்க சாட்போட்டுகள் இன்னும் பயனர்கள் கண்டறிவதற்கு கடினமான வழிகளில் அடிக்கடி தோல்வியடைகின்றன என்பதைக் காட்டுகிறது. சோதிக்கப்பட்ட அமைப்புகள் ஒவ்வொரு கேள்விக்கும் fluent prose-ல் பதிலளிக்க முடிந்தது, ஆனால் fluency என்பது trustworthiness-க்கு மாற்றாக இல்லை.

இது நோயாளிகளுக்கும் உருவாக்குநர்களுக்கும், இருவருக்கும், முக்கியப் பாடம். மக்கள் மருத்துவருடன் பேசுவதற்கு முன், குறிப்பாக பயமாகவோ அவசரமாகவோ இருக்கும் போது, AI-யை increasingly நாடுகிறார்கள். ஒரு system caution தேவைப்படும் இடத்தில் certainty-யுடன் பதிலளித்தால், பயனர் ஆபத்தை பின்னர்தான் உணரலாம். மருத்துவத்தில், இது ஒரு தீவிரமான failure mode.

accuracy, citation integrity, மற்றும் refusal behavior ஆகியவை கணிசமாக மேம்படும் வரை, AI சாட்போட்டுகளை நம்பகமான medical guides-ஐ விட drafting மற்றும் orientation tools-ஆகப் புரிந்துகொள்வது நல்லது. BMJ Open முடிவுகள், தொழில்நுட்பத் துறைக்கு இன்னும் சரிசெய்ய வேண்டிய ஒரு பெரிய பாதுகாப்பு இடைவெளி இருப்பதாகக் காட்டுகின்றன.

ஆராய்ச்சியாளர்கள் ஐந்து முக்கிய சாட்போட்டுகளுக்கு தலா 50 ஆரோக்கியக் கேள்விகளைச் சோதித்தனர்.
மொத்த பதில்களில் பாதி சிக்கலானவையாகவும், கிட்டத்தட்ட ஐந்தில் ஒன்று மிகச் சிக்கலானவையாகவும் இருந்தன.
திறந்த-ended ஆரோக்கியக் கேள்விகள், closed questions-ஐ விட மிக மோசமான முடிவுகளைத் தந்தன.
எந்த சாட்போட்டும் முழுமையாகச் சரியான reference list-களை நம்பகமாக உருவாக்கவில்லை.

இந்த கட்டுரை Medical Xpress செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on medicalxpress.com

AI சாட்போட்டுகள் இன்னும் ஆபத்தான ஆரோக்கிய பதில்களை கவலைக்கிடமான நம்பிக்கையுடன் தருகின்றன, ஆய்வு கண்டறிந்தது

மருத்துவ வாக்குத்திறன் இன்னும் மருத்துவ நம்பகத்தன்மையை மிஞ்சுகிறது

ஆராய்ச்சியாளர்கள் என்ன கண்டறிந்தனர்

புதிய肥胖 மருந்து தரவு Boehringer-இன் நிலைப்பாட்டை பற்றிய கேள்விகளை எழுப்புகிறது

நம்பிக்கை ஏன் ஆபத்தின் ஒரு பகுதி

நோயாளிகளுக்கும் platform-களுக்கும் இதன் பொருள்

பொறியியல் செய்யப்பட்ட ஸ்டெம் செல்கள் புதிதாகத் தோன்றிய டைப் 1 நீரிழிவை எலிகளில் மாற்றின

விசாலமான பாடம்

Comments (0)

Related Articles

அமிஷ் சுகாதார விவாதம் அதிகரிக்கும் பொது சுகாதார சவாலை வெளிச்சமிட்டுக் காட்டுகிறது

Pfizer-இன் மாதாந்திர obesity drug தனது வழக்கை தொடர்ந்து தக்கவைத்துக்கொள்கிறது

நீடித்த ஹெபடைட்டிஸ் D-க்கு முதல் ஒப்புதல் பெற்ற சிகிச்சையை FDA அனுமதித்தது

Keep Reading