కొత్త చాట్‌బాట్ అధ్యయనంలో AI ఆరోగ్య సమాధానాల్లో సగం సమస్యాత్మకంగా ఉన్నాయి

వైద్య ప్రావీణ్యం ఇంకా వైద్య నమ్మకత్వాన్ని మించిపోతోంది

Medical Xpress సంక్షిప్తంగా తెలిపిన కొత్త అధ్యయనం, ప్రజాదరణ పొందిన AI చాట్‌బాట్‌లు ఆరోగ్య సలహా కోసం నమ్మదగిన వనరులుగా ఉండటానికి ఇంకా చాలా దూరంలో ఉన్నాయని సూచిస్తోంది. పరిశోధకులు విస్తృతంగా ఉపయోగించే ఐదు వ్యవస్థలను పరీక్షించి, క్యాన్సర్, టీకాలు, స్టెమ్ సెల్స్, పోషణ, మరియు క్రీడా పనితీరు మీద 50 ప్రశ్నలు అడిగారు. ప్రధాన ఫలితం స్పష్టం: సమాధానాల్లో సగం సమస్యాత్మకంగా రేటింగ్ చేయబడగా, దాదాపు 20% అత్యంత సమస్యాత్మకంగా పరిగణించబడ్డాయి.

BMJ Openలో ప్రచురితమైన ఈ అధ్యయనం ChatGPT, Gemini, Grok, Meta AI, మరియు DeepSeek ప్రతిస్పందనలను మూల్యాంకనం చేసింది. ఇద్దరు నిపుణులు ప్రతి సమాధానాన్ని స్వతంత్రంగా రేటింగ్ చేశారు. సాధనాలు తరచుగా మెరుగైన, అధికారికంగా అనిపించే సమాధానాలను ఇచ్చినా, పరిశోధకులు తరచూ వాస్తవపరమైన పొరపాట్లు, నమ్మలేని సూచనలు, మరియు ప్రమాదకరమైన లేదా తప్పుదారి పట్టించే ప్రాంప్ట్‌లను తిరస్కరించడంలో దాదాపు పూర్తిస్థాయి వైఫల్యాన్ని గుర్తించారు.

మొత్తం 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే నేరుగా తిరస్కరించబడ్డాయి. ఇది ముఖ్యం, ఎందుకంటే అనేక ఆరోగ్య ప్రశ్నలు తటస్థంగా, బాగా స్థిరపడిన వాస్తవాలను అడిగే ప్రశ్నలు కావు. అవి తరచూ ఆందోళనతో, open-ended గా, లేదా బలహీనమైన ఊహలపై ఆధారపడినవిగా ఉంటాయి. అటువంటి సందర్భాల్లో, premise‌ను ప్రశ్నించకుండా సాఫీగా స్పందించే చాట్‌బాట్, తాను సహాయం చేయలేనని చెప్పే దానికంటే ఎక్కువ హాని చేయవచ్చు.

పరిశోధకులు ఏమి కనుగొన్నారు

మూల పాఠ్యం ప్రకారం, ఐదు వ్యవస్థలలో ఏదీ పూర్తిగా ఖచ్చితమైన reference lists‌ను నమ్మదగిన రీతిలో రూపొందించలేదు. ఈ అధ్యయనం మోడళ్ల మధ్య సమానమైన పనితీరును కూడా గుర్తించింది, ఇది సమస్య ఒకే platform‌కే పరిమితం కాకుండా నిర్మాణాత్మకమని సూచిస్తుంది. ఈ పోలికలో Grok అత్యంత బలహీనంగా పనిచేసింది, 58% ప్రతిస్పందనలను సమస్యాత్మకంగా గుర్తించారు; తరువాత ChatGPT 52% మరియు Meta AI 50% ఉన్నాయి.

విషయాన్ని బట్టి పనితీరు మారింది. టీకాలు మరియు క్యాన్సర్ అత్యుత్తమ ఫలితాలను ఇచ్చాయి, దీనికి ఆ రంగాల్లో ఉన్న పెద్ద మరియు కొంతవరకు నిర్మితమైన పరిశోధనా ఆధారం కారణమని వ్యాసం చెబుతోంది. అయినప్పటికీ, అక్కడ కూడా చాట్‌బాట్‌లు దాదాపు నాలుగో వంతు సమయాల్లో సమస్యాత్మక సమాధానాలను ఇచ్చాయి. పోషణ మరియు క్రీడా పనితీరు మరింత ఆందోళనకరంగా నిలిచాయి, ఎందుకంటే ఆ విషయాల్లో విరుద్ధమైన దావాలు, బలహీనమైన సాక్ష్యాలు, మరియు తక్కువ నాణ్యత గల ఆన్‌లైన్ కంటెంట్ అధికంగా ఉంటుంది.

ప్రాంప్ట్‌లు open-ended‌గా మారినప్పుడు అంతరం వేగంగా పెరిగింది. అధ్యయనంలో 32% open-ended సమాధానాలను అత్యంత సమస్యాత్మకంగా రేటింగ్ చేశారు, closed questions‌కు అది 7% మాత్రమే. నిజ జీవిత రోగులు సాధారణంగా multiple-choice రూపంలో ప్రశ్నలు అడగరని కారణంగా, ఈ తేడా ప్రయోగశాల వెలుపల ప్రత్యేకంగా ముఖ్యమైనది. వారు ఏ supplements ఉత్తమం, ఏ చికిత్స వేగంగా పని చేస్తుంది, లేదా ఏదైనా క్లినిక్ దావాలు నమ్మదగినవిగా ఉన్నాయా వంటి విస్తృత ప్రశ్నలు అడుగుతారు.

New data may cast doubt on competitiveness of Boehringer’s obesity drug

కొత్త肥胖 మందు డేటా Boehringer స్థాపనపై ప్రశ్నలు రేకెత్తిస్తోంది

Boehringer Ingelheim యొక్క肥胖 మందుకు సంబంధించిన కొత్త డేటా మిశ్రమ ప్రొఫైల్‌ను సూచిస్తోంది; లివర్ కొవ్వు తగ్గింపులో ఆశాజనకత ఉన్నప్పటికీ, మొత్తం బరువు తగ్గింపులో అంత ప్రభావవంతంగా లేదు.

Read article

ఆత్మవిశ్వాసం ఎందుకు ప్రమాదంలో భాగం

అత్యంత గమనించదగిన సమస్య తప్పులు రావడమే కాదు. ఆ తప్పులు persuasive language‌లో చుట్టబడవచ్చు అన్నదే అసలు విషయం. వ్యాసంలోని ఉదాహరణ, alternative clinics గురించి AI వ్యవస్థను అడిగే ఊహాత్మక క్యాన్సర్ రోగి. ఆందోళన కేవలం అసమర్థిత వైద్య దావాలకే పరిమితం కాదు, fake లేదా broken citations మరియు ప్రశ్న framing‌ను ఎదిరించే ఏ రకమైన ప్రతిస్పందన లేకపోవడం కూడా ఇందులో భాగం.

ఆరోగ్య సందర్భాల్లో ఈ కలయిక ప్రమాదకరం. సమాధానం footnoted‌గా, వృత్తిపరంగా కనిపిస్తే వినియోగదారులు style‌ను substance‌గా పొరబడవచ్చు. ఒక చాట్‌బాట్ సజావుగా, నిష్పక్షపాతంగా వినిపించడం వల్ల random forum post కంటే సురక్షితంగా అనిపించవచ్చు. ఈ రూపం తప్పుదారి పట్టించవచ్చని అధ్యయనం సూచిస్తోంది.

ఆరోగ్య సమాచారానికి కేవలం recall కాదు, judgment కూడా అవసరం: చెడు premises‌ను గుర్తించడం, సాక్ష్యాల నాణ్యతను వేరు చేయడం, మరియు అత్యవసర కేసులను అర్హత కలిగిన వైద్యుల వద్దకు escalat చేయడం. ఒక మోడల్ కేవలం plausible next words‌ను అంచనా వేస్తే, నిజంగా అలా చేయకపోయినా అది సమర్థంగా అనిపించవచ్చు.

రోగులు మరియు platforms‌కు దీని అర్థం

ఈ ఫలితాలు consumer AI systems‌ను నమ్మదగిన first-line medical authorities‌గా పరిగణించకూడదనే వాదనను బలపరుస్తున్నాయి. ఇవి ప్రశ్నలను ముసాయిదా చేయడం, పదజాలాన్ని వివరించడం, లేదా సాధారణ భావనల ద్వారా వినియోగదారులను నడిపించడంలో ఉపయోగపడవచ్చు, కానీ ఆ ప్రయోజనాలు clinical oversight అవసరాన్ని తొలగించవు. oncology, టీకాలు, లేదా నిరూపించని therapies వంటి సున్నితమైన రంగాల్లో, కొంతమేర తప్పైన సమాధానం కూడా నిర్ణయాలను తప్పు దిశలోకి నడిపించవచ్చు.

ఫలితాలు AI కంపెనీలకు product-design ప్రశ్నల్ని కూడా లేవనెత్తుతున్నాయి. 250 ప్రశ్నల్లో కేవలం రెండు మాత్రమే తిరస్కరించబడ్డట్లయితే, refusal thresholds ఆరోగ్య వినియోగానికి చాలా సంకుచితంగా ఉండొచ్చు. మరింత లక్ష్యిత safeguardsలో హానికర premises‌ను బలంగా గుర్తించడం, uncertainty చుట్టూ మెరుగైన calibration, మరియు ఆధారం లేనప్పుడు మద్దతు ఉన్నట్లు సూచించని reference systems ఉండవచ్చు.

అంతే ముఖ్యంగా, model builders open-ended health prompts‌ను వ్యవస్థలు ఎలా నిర్వహించాలో మళ్లీ ఆలోచించాలి. సురక్షిత సమాధానం ఎప్పుడూ నేరుగా ఇచ్చే సమాధానం కాదు. కొన్ని సందర్భాల్లో, సరైన చర్య ప్రశ్నను సవాలు చేయడం, దాని పరిధిని తగ్గించడం, లేదా polished response బదులు clinician consultation‌ను సూచించడం.

Engineered stem cells reverse new-onset type 1 diabetes in mice

ఇంజినీర్ చేసిన స్టెమ్ సెల్స్ కొత్తగా ప్రారంభమైన టైప్ 1 డయాబెటిస్‌ను ఎలుకల్లో తిరగదోశాయి

మార్చిన మెసెంకైమల్ స్టెమ్ సెల్స్, రోగనిరోధక నియంత్రణను మరియు వాపు-నిరోధక రక్షణను కలిపి, ఎలుక మోడల్‌లో కొత్తగా ప్రారంభమైన టైప్ 1 డయాబెటిస్‌ను తిరగదోశాయని MUSC పరిశోధకులు నివేదించారు.

Read article

విస్తృత పాఠం

ఈ అధ్యయనం ఆరోగ్య సమాచారంలో AI కి ఎలాంటి పాత్ర లేదని చెప్పడం లేదు. ఇది ప్రస్తుత general-purpose చాట్‌బాట్‌లు ఇంకా చాలా తరచుగా విఫలమవుతున్నాయని, వాటిని వినియోగదారులు గుర్తించడం కష్టమని చూపుతోంది. పరీక్షించిన వ్యవస్థలు ప్రతి ప్రశ్నకూ fluent prose‌లో సమాధానం ఇవ్వగలిగాయి, కానీ fluency అనేది trustworthiness‌కు సమానమైనది కాదు.

ఇది రోగులు మరియు developers ఇద్దరికీ ప్రధాన పాఠం. ప్రజలు increasingly వైద్యుడితో మాట్లాడే ముందు AIని ఆశ్రయిస్తున్నారు, ముఖ్యంగా వారు భయపడినప్పుడు లేదా తొందరగా ఉన్నప్పుడు. జాగ్రత్త అవసరమైన చోట ఒక వ్యవస్థ certaintyతో స్పందిస్తే, వినియోగదారు ఆ ప్రమాదాన్ని చాలా తర్వాతే గమనించవచ్చు. వైద్యంలో ఇది తీవ్రమైన failure mode.

accuracy, citation integrity, మరియు refusal behavior గణనీయంగా మెరుగుపడే వరకు, AI చాట్‌బాట్‌లను నమ్మదగిన medical guides కన్నా drafting మరియు orientation tools‌గా చూడడం మంచిది. BMJ Open ఫలితాలు పరిశ్రమకు ఇంకా మూసివేయాల్సిన పెద్ద safety gap ఉందని సూచిస్తున్నాయి.

పరిశోధకులు ఐదు ప్రధాన చాట్‌బాట్‌లను 50 ఆరోగ్య ప్రశ్నలతో పరీక్షించారు.
మొత్తం సమాధానాల్లో సగం సమస్యాత్మకంగా, దాదాపు ఐదులో ఒకటి అత్యంత సమస్యాత్మకంగా ఉంది.
open-ended ఆరోగ్య ప్రశ్నలు closed questions కంటే చాలా చెడు ఫలితాలను ఇచ్చాయి.
ఏ చాట్‌బాట్ కూడా పూర్తిగా ఖచ్చితమైన reference lists‌ను నమ్మదగిన రీతిలో రూపొందించలేదు.

ఈ వ్యాసం Medical Xpress నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on medicalxpress.com

AI చాట్‌బాట్‌లు ఇంకా ప్రమాదకరమైన ఆరోగ్య సమాధానాలను ఆందోళనకరమైన ఆత్మవిశ్వాసంతో ఇస్తున్నాయని అధ్యయనం తెలిపింది

వైద్య ప్రావీణ్యం ఇంకా వైద్య నమ్మకత్వాన్ని మించిపోతోంది

పరిశోధకులు ఏమి కనుగొన్నారు

కొత్త肥胖 మందు డేటా Boehringer స్థాపనపై ప్రశ్నలు రేకెత్తిస్తోంది

ఆత్మవిశ్వాసం ఎందుకు ప్రమాదంలో భాగం

రోగులు మరియు platforms‌కు దీని అర్థం

ఇంజినీర్ చేసిన స్టెమ్ సెల్స్ కొత్తగా ప్రారంభమైన టైప్ 1 డయాబెటిస్‌ను ఎలుకల్లో తిరగదోశాయి

విస్తృత పాఠం

Comments (0)

Related Articles

అమిష్ ఆరోగ్య చర్చ పెరుగుతున్న ప్రజారోగ్య సవాలును హైలైట్ చేస్తోంది

Pfizer నెలవారీ obesity drug తన కేసును కొనసాగిస్తోంది

Keep Reading