వైద్య ప్రావీణ్యం ఇంకా వైద్య నమ్మకత్వాన్ని మించిపోతోంది
Medical Xpress సంక్షిప్తంగా తెలిపిన కొత్త అధ్యయనం, ప్రజాదరణ పొందిన AI చాట్బాట్లు ఆరోగ్య సలహా కోసం నమ్మదగిన వనరులుగా ఉండటానికి ఇంకా చాలా దూరంలో ఉన్నాయని సూచిస్తోంది. పరిశోధకులు విస్తృతంగా ఉపయోగించే ఐదు వ్యవస్థలను పరీక్షించి, క్యాన్సర్, టీకాలు, స్టెమ్ సెల్స్, పోషణ, మరియు క్రీడా పనితీరు మీద 50 ప్రశ్నలు అడిగారు. ప్రధాన ఫలితం స్పష్టం: సమాధానాల్లో సగం సమస్యాత్మకంగా రేటింగ్ చేయబడగా, దాదాపు 20% అత్యంత సమస్యాత్మకంగా పరిగణించబడ్డాయి.
BMJ Openలో ప్రచురితమైన ఈ అధ్యయనం ChatGPT, Gemini, Grok, Meta AI, మరియు DeepSeek ప్రతిస్పందనలను మూల్యాంకనం చేసింది. ఇద్దరు నిపుణులు ప్రతి సమాధానాన్ని స్వతంత్రంగా రేటింగ్ చేశారు. సాధనాలు తరచుగా మెరుగైన, అధికారికంగా అనిపించే సమాధానాలను ఇచ్చినా, పరిశోధకులు తరచూ వాస్తవపరమైన పొరపాట్లు, నమ్మలేని సూచనలు, మరియు ప్రమాదకరమైన లేదా తప్పుదారి పట్టించే ప్రాంప్ట్లను తిరస్కరించడంలో దాదాపు పూర్తిస్థాయి వైఫల్యాన్ని గుర్తించారు.
మొత్తం 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే నేరుగా తిరస్కరించబడ్డాయి. ఇది ముఖ్యం, ఎందుకంటే అనేక ఆరోగ్య ప్రశ్నలు తటస్థంగా, బాగా స్థిరపడిన వాస్తవాలను అడిగే ప్రశ్నలు కావు. అవి తరచూ ఆందోళనతో, open-ended గా, లేదా బలహీనమైన ఊహలపై ఆధారపడినవిగా ఉంటాయి. అటువంటి సందర్భాల్లో, premiseను ప్రశ్నించకుండా సాఫీగా స్పందించే చాట్బాట్, తాను సహాయం చేయలేనని చెప్పే దానికంటే ఎక్కువ హాని చేయవచ్చు.
పరిశోధకులు ఏమి కనుగొన్నారు
మూల పాఠ్యం ప్రకారం, ఐదు వ్యవస్థలలో ఏదీ పూర్తిగా ఖచ్చితమైన reference listsను నమ్మదగిన రీతిలో రూపొందించలేదు. ఈ అధ్యయనం మోడళ్ల మధ్య సమానమైన పనితీరును కూడా గుర్తించింది, ఇది సమస్య ఒకే platformకే పరిమితం కాకుండా నిర్మాణాత్మకమని సూచిస్తుంది. ఈ పోలికలో Grok అత్యంత బలహీనంగా పనిచేసింది, 58% ప్రతిస్పందనలను సమస్యాత్మకంగా గుర్తించారు; తరువాత ChatGPT 52% మరియు Meta AI 50% ఉన్నాయి.
విషయాన్ని బట్టి పనితీరు మారింది. టీకాలు మరియు క్యాన్సర్ అత్యుత్తమ ఫలితాలను ఇచ్చాయి, దీనికి ఆ రంగాల్లో ఉన్న పెద్ద మరియు కొంతవరకు నిర్మితమైన పరిశోధనా ఆధారం కారణమని వ్యాసం చెబుతోంది. అయినప్పటికీ, అక్కడ కూడా చాట్బాట్లు దాదాపు నాలుగో వంతు సమయాల్లో సమస్యాత్మక సమాధానాలను ఇచ్చాయి. పోషణ మరియు క్రీడా పనితీరు మరింత ఆందోళనకరంగా నిలిచాయి, ఎందుకంటే ఆ విషయాల్లో విరుద్ధమైన దావాలు, బలహీనమైన సాక్ష్యాలు, మరియు తక్కువ నాణ్యత గల ఆన్లైన్ కంటెంట్ అధికంగా ఉంటుంది.
ప్రాంప్ట్లు open-endedగా మారినప్పుడు అంతరం వేగంగా పెరిగింది. అధ్యయనంలో 32% open-ended సమాధానాలను అత్యంత సమస్యాత్మకంగా రేటింగ్ చేశారు, closed questionsకు అది 7% మాత్రమే. నిజ జీవిత రోగులు సాధారణంగా multiple-choice రూపంలో ప్రశ్నలు అడగరని కారణంగా, ఈ తేడా ప్రయోగశాల వెలుపల ప్రత్యేకంగా ముఖ్యమైనది. వారు ఏ supplements ఉత్తమం, ఏ చికిత్స వేగంగా పని చేస్తుంది, లేదా ఏదైనా క్లినిక్ దావాలు నమ్మదగినవిగా ఉన్నాయా వంటి విస్తృత ప్రశ్నలు అడుగుతారు.
ఆత్మవిశ్వాసం ఎందుకు ప్రమాదంలో భాగం
అత్యంత గమనించదగిన సమస్య తప్పులు రావడమే కాదు. ఆ తప్పులు persuasive languageలో చుట్టబడవచ్చు అన్నదే అసలు విషయం. వ్యాసంలోని ఉదాహరణ, alternative clinics గురించి AI వ్యవస్థను అడిగే ఊహాత్మక క్యాన్సర్ రోగి. ఆందోళన కేవలం అసమర్థిత వైద్య దావాలకే పరిమితం కాదు, fake లేదా broken citations మరియు ప్రశ్న framingను ఎదిరించే ఏ రకమైన ప్రతిస్పందన లేకపోవడం కూడా ఇందులో భాగం.
ఆరోగ్య సందర్భాల్లో ఈ కలయిక ప్రమాదకరం. సమాధానం footnotedగా, వృత్తిపరంగా కనిపిస్తే వినియోగదారులు styleను substanceగా పొరబడవచ్చు. ఒక చాట్బాట్ సజావుగా, నిష్పక్షపాతంగా వినిపించడం వల్ల random forum post కంటే సురక్షితంగా అనిపించవచ్చు. ఈ రూపం తప్పుదారి పట్టించవచ్చని అధ్యయనం సూచిస్తోంది.
ఆరోగ్య సమాచారానికి కేవలం recall కాదు, judgment కూడా అవసరం: చెడు premisesను గుర్తించడం, సాక్ష్యాల నాణ్యతను వేరు చేయడం, మరియు అత్యవసర కేసులను అర్హత కలిగిన వైద్యుల వద్దకు escalat చేయడం. ఒక మోడల్ కేవలం plausible next wordsను అంచనా వేస్తే, నిజంగా అలా చేయకపోయినా అది సమర్థంగా అనిపించవచ్చు.
రోగులు మరియు platformsకు దీని అర్థం
ఈ ఫలితాలు consumer AI systemsను నమ్మదగిన first-line medical authoritiesగా పరిగణించకూడదనే వాదనను బలపరుస్తున్నాయి. ఇవి ప్రశ్నలను ముసాయిదా చేయడం, పదజాలాన్ని వివరించడం, లేదా సాధారణ భావనల ద్వారా వినియోగదారులను నడిపించడంలో ఉపయోగపడవచ్చు, కానీ ఆ ప్రయోజనాలు clinical oversight అవసరాన్ని తొలగించవు. oncology, టీకాలు, లేదా నిరూపించని therapies వంటి సున్నితమైన రంగాల్లో, కొంతమేర తప్పైన సమాధానం కూడా నిర్ణయాలను తప్పు దిశలోకి నడిపించవచ్చు.
ఫలితాలు AI కంపెనీలకు product-design ప్రశ్నల్ని కూడా లేవనెత్తుతున్నాయి. 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే తిరస్కరించబడ్డట్లయితే, refusal thresholds ఆరోగ్య వినియోగానికి చాలా సంకుచితంగా ఉండొచ్చు. మరింత లక్ష్యిత safeguardsలో హానికర premisesను బలంగా గుర్తించడం, uncertainty చుట్టూ మెరుగైన calibration, మరియు ఆధారం లేనప్పుడు మద్దతు ఉన్నట్లు సూచించని reference systems ఉండవచ్చు.
అంతే ముఖ్యంగా, model builders open-ended health promptsను వ్యవస్థలు ఎలా నిర్వహించాలో మళ్లీ ఆలోచించాలి. సురక్షిత సమాధానం ఎప్పుడూ నేరుగా ఇచ్చే సమాధానం కాదు. కొన్ని సందర్భాల్లో, సరైన చర్య ప్రశ్నను సవాలు చేయడం, దాని పరిధిని తగ్గించడం, లేదా polished response బదులు clinician consultationను సూచించడం.
విస్తృత పాఠం
ఈ అధ్యయనం ఆరోగ్య సమాచారంలో AI కి ఎలాంటి పాత్ర లేదని చెప్పడం లేదు. ఇది ప్రస్తుత general-purpose చాట్బాట్లు ఇంకా చాలా తరచుగా విఫలమవుతున్నాయని, వాటిని వినియోగదారులు గుర్తించడం కష్టమని చూపుతోంది. పరీక్షించిన వ్యవస్థలు ప్రతి ప్రశ్నకూ fluent proseలో సమాధానం ఇవ్వగలిగాయి, కానీ fluency అనేది trustworthinessకు సమానమైనది కాదు.
ఇది రోగులు మరియు developers ఇద్దరికీ ప్రధాన పాఠం. ప్రజలు increasingly వైద్యుడితో మాట్లాడే ముందు AIని ఆశ్రయిస్తున్నారు, ముఖ్యంగా వారు భయపడినప్పుడు లేదా తొందరగా ఉన్నప్పుడు. జాగ్రత్త అవసరమైన చోట ఒక వ్యవస్థ certaintyతో స్పందిస్తే, వినియోగదారు ఆ ప్రమాదాన్ని చాలా తర్వాతే గమనించవచ్చు. వైద్యంలో ఇది తీవ్రమైన failure mode.
accuracy, citation integrity, మరియు refusal behavior గణనీయంగా మెరుగుపడే వరకు, AI చాట్బాట్లను నమ్మదగిన medical guides కన్నా drafting మరియు orientation toolsగా చూడడం మంచిది. BMJ Open ఫలితాలు పరిశ్రమకు ఇంకా మూసివేయాల్సిన పెద్ద safety gap ఉందని సూచిస్తున్నాయి.
- పరిశోధకులు ఐదు ప్రధాన చాట్బాట్లను 50 ఆరోగ్య ప్రశ్నలతో పరీక్షించారు.
- మొత్తం సమాధానాల్లో సగం సమస్యాత్మకంగా, దాదాపు ఐదులో ఒకటి అత్యంత సమస్యాత్మకంగా ఉంది.
- open-ended ఆరోగ్య ప్రశ్నలు closed questions కంటే చాలా చెడు ఫలితాలను ఇచ్చాయి.
- ఏ చాట్బాట్ కూడా పూర్తిగా ఖచ్చితమైన reference listsను నమ్మదగిన రీతిలో రూపొందించలేదు.
ఈ వ్యాసం Medical Xpress నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.
Originally published on medicalxpress.com



