వైద్య ప్రావీణ్యం ఇంకా వైద్య నమ్మకత్వాన్ని మించిపోతోంది

Medical Xpress సంక్షిప్తంగా తెలిపిన కొత్త అధ్యయనం, ప్రజాదరణ పొందిన AI చాట్‌బాట్‌లు ఆరోగ్య సలహా కోసం నమ్మదగిన వనరులుగా ఉండటానికి ఇంకా చాలా దూరంలో ఉన్నాయని సూచిస్తోంది. పరిశోధకులు విస్తృతంగా ఉపయోగించే ఐదు వ్యవస్థలను పరీక్షించి, క్యాన్సర్, టీకాలు, స్టెమ్ సెల్స్, పోషణ, మరియు క్రీడా పనితీరు మీద 50 ప్రశ్నలు అడిగారు. ప్రధాన ఫలితం స్పష్టం: సమాధానాల్లో సగం సమస్యాత్మకంగా రేటింగ్ చేయబడగా, దాదాపు 20% అత్యంత సమస్యాత్మకంగా పరిగణించబడ్డాయి.

BMJ Openలో ప్రచురితమైన ఈ అధ్యయనం ChatGPT, Gemini, Grok, Meta AI, మరియు DeepSeek ప్రతిస్పందనలను మూల్యాంకనం చేసింది. ఇద్దరు నిపుణులు ప్రతి సమాధానాన్ని స్వతంత్రంగా రేటింగ్ చేశారు. సాధనాలు తరచుగా మెరుగైన, అధికారికంగా అనిపించే సమాధానాలను ఇచ్చినా, పరిశోధకులు తరచూ వాస్తవపరమైన పొరపాట్లు, నమ్మలేని సూచనలు, మరియు ప్రమాదకరమైన లేదా తప్పుదారి పట్టించే ప్రాంప్ట్‌లను తిరస్కరించడంలో దాదాపు పూర్తిస్థాయి వైఫల్యాన్ని గుర్తించారు.

మొత్తం 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే నేరుగా తిరస్కరించబడ్డాయి. ఇది ముఖ్యం, ఎందుకంటే అనేక ఆరోగ్య ప్రశ్నలు తటస్థంగా, బాగా స్థిరపడిన వాస్తవాలను అడిగే ప్రశ్నలు కావు. అవి తరచూ ఆందోళనతో, open-ended గా, లేదా బలహీనమైన ఊహలపై ఆధారపడినవిగా ఉంటాయి. అటువంటి సందర్భాల్లో, premise‌ను ప్రశ్నించకుండా సాఫీగా స్పందించే చాట్‌బాట్, తాను సహాయం చేయలేనని చెప్పే దానికంటే ఎక్కువ హాని చేయవచ్చు.

పరిశోధకులు ఏమి కనుగొన్నారు

మూల పాఠ్యం ప్రకారం, ఐదు వ్యవస్థలలో ఏదీ పూర్తిగా ఖచ్చితమైన reference lists‌ను నమ్మదగిన రీతిలో రూపొందించలేదు. ఈ అధ్యయనం మోడళ్ల మధ్య సమానమైన పనితీరును కూడా గుర్తించింది, ఇది సమస్య ఒకే platform‌కే పరిమితం కాకుండా నిర్మాణాత్మకమని సూచిస్తుంది. ఈ పోలికలో Grok అత్యంత బలహీనంగా పనిచేసింది, 58% ప్రతిస్పందనలను సమస్యాత్మకంగా గుర్తించారు; తరువాత ChatGPT 52% మరియు Meta AI 50% ఉన్నాయి.

విషయాన్ని బట్టి పనితీరు మారింది. టీకాలు మరియు క్యాన్సర్ అత్యుత్తమ ఫలితాలను ఇచ్చాయి, దీనికి ఆ రంగాల్లో ఉన్న పెద్ద మరియు కొంతవరకు నిర్మితమైన పరిశోధనా ఆధారం కారణమని వ్యాసం చెబుతోంది. అయినప్పటికీ, అక్కడ కూడా చాట్‌బాట్‌లు దాదాపు నాలుగో వంతు సమయాల్లో సమస్యాత్మక సమాధానాలను ఇచ్చాయి. పోషణ మరియు క్రీడా పనితీరు మరింత ఆందోళనకరంగా నిలిచాయి, ఎందుకంటే ఆ విషయాల్లో విరుద్ధమైన దావాలు, బలహీనమైన సాక్ష్యాలు, మరియు తక్కువ నాణ్యత గల ఆన్‌లైన్ కంటెంట్ అధికంగా ఉంటుంది.

ప్రాంప్ట్‌లు open-ended‌గా మారినప్పుడు అంతరం వేగంగా పెరిగింది. అధ్యయనంలో 32% open-ended సమాధానాలను అత్యంత సమస్యాత్మకంగా రేటింగ్ చేశారు, closed questions‌కు అది 7% మాత్రమే. నిజ జీవిత రోగులు సాధారణంగా multiple-choice రూపంలో ప్రశ్నలు అడగరని కారణంగా, ఈ తేడా ప్రయోగశాల వెలుపల ప్రత్యేకంగా ముఖ్యమైనది. వారు ఏ supplements ఉత్తమం, ఏ చికిత్స వేగంగా పని చేస్తుంది, లేదా ఏదైనా క్లినిక్ దావాలు నమ్మదగినవిగా ఉన్నాయా వంటి విస్తృత ప్రశ్నలు అడుగుతారు.

ఆత్మవిశ్వాసం ఎందుకు ప్రమాదంలో భాగం

అత్యంత గమనించదగిన సమస్య తప్పులు రావడమే కాదు. ఆ తప్పులు persuasive language‌లో చుట్టబడవచ్చు అన్నదే అసలు విషయం. వ్యాసంలోని ఉదాహరణ, alternative clinics గురించి AI వ్యవస్థను అడిగే ఊహాత్మక క్యాన్సర్ రోగి. ఆందోళన కేవలం అసమర్థిత వైద్య దావాలకే పరిమితం కాదు, fake లేదా broken citations మరియు ప్రశ్న framing‌ను ఎదిరించే ఏ రకమైన ప్రతిస్పందన లేకపోవడం కూడా ఇందులో భాగం.

ఆరోగ్య సందర్భాల్లో ఈ కలయిక ప్రమాదకరం. సమాధానం footnoted‌గా, వృత్తిపరంగా కనిపిస్తే వినియోగదారులు style‌ను substance‌గా పొరబడవచ్చు. ఒక చాట్‌బాట్ సజావుగా, నిష్పక్షపాతంగా వినిపించడం వల్ల random forum post కంటే సురక్షితంగా అనిపించవచ్చు. ఈ రూపం తప్పుదారి పట్టించవచ్చని అధ్యయనం సూచిస్తోంది.

ఆరోగ్య సమాచారానికి కేవలం recall కాదు, judgment కూడా అవసరం: చెడు premises‌ను గుర్తించడం, సాక్ష్యాల నాణ్యతను వేరు చేయడం, మరియు అత్యవసర కేసులను అర్హత కలిగిన వైద్యుల వద్దకు escalat చేయడం. ఒక మోడల్ కేవలం plausible next words‌ను అంచనా వేస్తే, నిజంగా అలా చేయకపోయినా అది సమర్థంగా అనిపించవచ్చు.

రోగులు మరియు platforms‌కు దీని అర్థం

ఈ ఫలితాలు consumer AI systems‌ను నమ్మదగిన first-line medical authorities‌గా పరిగణించకూడదనే వాదనను బలపరుస్తున్నాయి. ఇవి ప్రశ్నలను ముసాయిదా చేయడం, పదజాలాన్ని వివరించడం, లేదా సాధారణ భావనల ద్వారా వినియోగదారులను నడిపించడంలో ఉపయోగపడవచ్చు, కానీ ఆ ప్రయోజనాలు clinical oversight అవసరాన్ని తొలగించవు. oncology, టీకాలు, లేదా నిరూపించని therapies వంటి సున్నితమైన రంగాల్లో, కొంతమేర తప్పైన సమాధానం కూడా నిర్ణయాలను తప్పు దిశలోకి నడిపించవచ్చు.

ఫలితాలు AI కంపెనీలకు product-design ప్రశ్నల్ని కూడా లేవనెత్తుతున్నాయి. 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే తిరస్కరించబడ్డట్లయితే, refusal thresholds ఆరోగ్య వినియోగానికి చాలా సంకుచితంగా ఉండొచ్చు. మరింత లక్ష్యిత safeguardsలో హానికర premises‌ను బలంగా గుర్తించడం, uncertainty చుట్టూ మెరుగైన calibration, మరియు ఆధారం లేనప్పుడు మద్దతు ఉన్నట్లు సూచించని reference systems ఉండవచ్చు.

అంతే ముఖ్యంగా, model builders open-ended health prompts‌ను వ్యవస్థలు ఎలా నిర్వహించాలో మళ్లీ ఆలోచించాలి. సురక్షిత సమాధానం ఎప్పుడూ నేరుగా ఇచ్చే సమాధానం కాదు. కొన్ని సందర్భాల్లో, సరైన చర్య ప్రశ్నను సవాలు చేయడం, దాని పరిధిని తగ్గించడం, లేదా polished response బదులు clinician consultation‌ను సూచించడం.

విస్తృత పాఠం

ఈ అధ్యయనం ఆరోగ్య సమాచారంలో AI కి ఎలాంటి పాత్ర లేదని చెప్పడం లేదు. ఇది ప్రస్తుత general-purpose చాట్‌బాట్‌లు ఇంకా చాలా తరచుగా విఫలమవుతున్నాయని, వాటిని వినియోగదారులు గుర్తించడం కష్టమని చూపుతోంది. పరీక్షించిన వ్యవస్థలు ప్రతి ప్రశ్నకూ fluent prose‌లో సమాధానం ఇవ్వగలిగాయి, కానీ fluency అనేది trustworthiness‌కు సమానమైనది కాదు.

ఇది రోగులు మరియు developers ఇద్దరికీ ప్రధాన పాఠం. ప్రజలు increasingly వైద్యుడితో మాట్లాడే ముందు AIని ఆశ్రయిస్తున్నారు, ముఖ్యంగా వారు భయపడినప్పుడు లేదా తొందరగా ఉన్నప్పుడు. జాగ్రత్త అవసరమైన చోట ఒక వ్యవస్థ certaintyతో స్పందిస్తే, వినియోగదారు ఆ ప్రమాదాన్ని చాలా తర్వాతే గమనించవచ్చు. వైద్యంలో ఇది తీవ్రమైన failure mode.

accuracy, citation integrity, మరియు refusal behavior గణనీయంగా మెరుగుపడే వరకు, AI చాట్‌బాట్‌లను నమ్మదగిన medical guides కన్నా drafting మరియు orientation tools‌గా చూడడం మంచిది. BMJ Open ఫలితాలు పరిశ్రమకు ఇంకా మూసివేయాల్సిన పెద్ద safety gap ఉందని సూచిస్తున్నాయి.

  • పరిశోధకులు ఐదు ప్రధాన చాట్‌బాట్‌లను 50 ఆరోగ్య ప్రశ్నలతో పరీక్షించారు.
  • మొత్తం సమాధానాల్లో సగం సమస్యాత్మకంగా, దాదాపు ఐదులో ఒకటి అత్యంత సమస్యాత్మకంగా ఉంది.
  • open-ended ఆరోగ్య ప్రశ్నలు closed questions కంటే చాలా చెడు ఫలితాలను ఇచ్చాయి.
  • ఏ చాట్‌బాట్ కూడా పూర్తిగా ఖచ్చితమైన reference lists‌ను నమ్మదగిన రీతిలో రూపొందించలేదు.

ఈ వ్యాసం Medical Xpress నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on medicalxpress.com