వైద్య ప్రావీణ్యం ఇంకా వైద్య నమ్మకత్వాన్ని మించిపోతోంది

Medical Xpress సంక్షిప్తంగా తెలిపిన కొత్త అధ్యయనం, ప్రజాదరణ పొందిన AI చాట్‌బాట్‌లు ఆరోగ్య సలహా కోసం నమ్మదగిన వనరులుగా ఉండటానికి ఇంకా చాలా దూరంలో ఉన్నాయని సూచిస్తోంది. పరిశోధకులు విస్తృతంగా ఉపయోగించే ఐదు వ్యవస్థలను పరీక్షించి, క్యాన్సర్, టీకాలు, స్టెమ్ సెల్స్, పోషణ, మరియు క్రీడా పనితీరు మీద 50 ప్రశ్నలు అడిగారు. ప్రధాన ఫలితం స్పష్టం: సమాధానాల్లో సగం సమస్యాత్మకంగా రేటింగ్ చేయబడగా, దాదాపు 20% అత్యంత సమస్యాత్మకంగా పరిగణించబడ్డాయి.

BMJ Openలో ప్రచురితమైన ఈ అధ్యయనం ChatGPT, Gemini, Grok, Meta AI, మరియు DeepSeek ప్రతిస్పందనలను మూల్యాంకనం చేసింది. ఇద్దరు నిపుణులు ప్రతి సమాధానాన్ని స్వతంత్రంగా రేటింగ్ చేశారు. సాధనాలు తరచుగా మెరుగైన, అధికారికంగా అనిపించే సమాధానాలను ఇచ్చినా, పరిశోధకులు తరచూ వాస్తవపరమైన పొరపాట్లు, నమ్మలేని సూచనలు, మరియు ప్రమాదకరమైన లేదా తప్పుదారి పట్టించే ప్రాంప్ట్‌లను తిరస్కరించడంలో దాదాపు పూర్తిస్థాయి వైఫల్యాన్ని గుర్తించారు.

మొత్తం 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే నేరుగా తిరస్కరించబడ్డాయి. ఇది ముఖ్యం, ఎందుకంటే అనేక ఆరోగ్య ప్రశ్నలు తటస్థంగా, బాగా స్థిరపడిన వాస్తవాలను అడిగే ప్రశ్నలు కావు. అవి తరచూ ఆందోళనతో, open-ended గా, లేదా బలహీనమైన ఊహలపై ఆధారపడినవిగా ఉంటాయి. అటువంటి సందర్భాల్లో, premise‌ను ప్రశ్నించకుండా సాఫీగా స్పందించే చాట్‌బాట్, తాను సహాయం చేయలేనని చెప్పే దానికంటే ఎక్కువ హాని చేయవచ్చు.

పరిశోధకులు ఏమి కనుగొన్నారు

మూల పాఠ్యం ప్రకారం, ఐదు వ్యవస్థలలో ఏదీ పూర్తిగా ఖచ్చితమైన reference lists‌ను నమ్మదగిన రీతిలో రూపొందించలేదు. ఈ అధ్యయనం మోడళ్ల మధ్య సమానమైన పనితీరును కూడా గుర్తించింది, ఇది సమస్య ఒకే platform‌కే పరిమితం కాకుండా నిర్మాణాత్మకమని సూచిస్తుంది. ఈ పోలికలో Grok అత్యంత బలహీనంగా పనిచేసింది, 58% ప్రతిస్పందనలను సమస్యాత్మకంగా గుర్తించారు; తరువాత ChatGPT 52% మరియు Meta AI 50% ఉన్నాయి.

విషయాన్ని బట్టి పనితీరు మారింది. టీకాలు మరియు క్యాన్సర్ అత్యుత్తమ ఫలితాలను ఇచ్చాయి, దీనికి ఆ రంగాల్లో ఉన్న పెద్ద మరియు కొంతవరకు నిర్మితమైన పరిశోధనా ఆధారం కారణమని వ్యాసం చెబుతోంది. అయినప్పటికీ, అక్కడ కూడా చాట్‌బాట్‌లు దాదాపు నాలుగో వంతు సమయాల్లో సమస్యాత్మక సమాధానాలను ఇచ్చాయి. పోషణ మరియు క్రీడా పనితీరు మరింత ఆందోళనకరంగా నిలిచాయి, ఎందుకంటే ఆ విషయాల్లో విరుద్ధమైన దావాలు, బలహీనమైన సాక్ష్యాలు, మరియు తక్కువ నాణ్యత గల ఆన్‌లైన్ కంటెంట్ అధికంగా ఉంటుంది.

ప్రాంప్ట్‌లు open-ended‌గా మారినప్పుడు అంతరం వేగంగా పెరిగింది. అధ్యయనంలో 32% open-ended సమాధానాలను అత్యంత సమస్యాత్మకంగా రేటింగ్ చేశారు, closed questions‌కు అది 7% మాత్రమే. నిజ జీవిత రోగులు సాధారణంగా multiple-choice రూపంలో ప్రశ్నలు అడగరని కారణంగా, ఈ తేడా ప్రయోగశాల వెలుపల ప్రత్యేకంగా ముఖ్యమైనది. వారు ఏ supplements ఉత్తమం, ఏ చికిత్స వేగంగా పని చేస్తుంది, లేదా ఏదైనా క్లినిక్ దావాలు నమ్మదగినవిగా ఉన్నాయా వంటి విస్తృత ప్రశ్నలు అడుగుతారు.