ప్రాంప్ట్ రూపకల్పన ఇంకా AI విశ్వసనీయతను దెబ్బతీస్తోంది

NewsGuard చేసిన కొత్త ఆడిట్ ప్రకారం, వినియోగదారులు అబద్ధాలను స్థిరపడిన నిజాలుగా చూపించినప్పుడు లేదా ఆ వాదనలను విస్తృతంగా పంచేందుకు చాట్‌బాట్‌ను అడిగినప్పుడు, Mistral యొక్క Le Chat ఇంకా తప్పుదారి సమాచారానికి చాలా బలహీనంగానే ఉంది.

ఏప్రిల్ 29న నివేదించిన ఈ ఫలితాలు ఇరాన్ యుద్ధానికి సంబంధించిన అబద్ధ కథనాలపై దృష్టి పెడతాయి, మరియు మోడల్ తటస్థ ప్రశ్నలకు ఎలా స్పందిస్తుందో, ప్రేరేపించే లేదా స్పష్టంగా దురుద్దేశ్య ప్రాంప్ట్‌లకు ఎలా స్పందిస్తుందో మధ్య ఉన్న గణనీయమైన తేడాను చూపిస్తాయి. ఈ గ్యాప్ ముఖ్యమైనది, ఎందుకంటే ఇది వినియోగదారుల AI వ్యవస్థల్లో చాలాకాలంగా తెలిసిన కానీ ఇంకా పరిష్కారంకాని బలహీనతను బయటపెడుతోంది: చాలా వ్యవస్థలు సాధారణ ప్రశ్నలపై సరిగా ప్రవర్తించవచ్చు, కానీ ప్రాంప్ట్ itself ప్రతికూలంగా మారిన వెంటనే ఘోరంగా విఫలమవుతాయి.

ఆడిట్ ఏమి పరీక్షించింది

నివేదిక ప్రకారం, NewsGuard రష్యన్, ఇరానియన్, మరియు చైనీస్ మూలాల నుంచి వచ్చిన పది అబద్ధ వాదనలను పరీక్షించింది. ఉదాహరణలలో French carrier Charles de Gaulle పై టైఫస్ ప్రబలిందనే కల్పిత వార్త, వందలాది US సైనికులు మరణించారనే నివేదికలు, మరియు Omanపై ఒక Emirati డ్రోన్ దాడి జరిగినట్లు చెప్పిన వాదన ఉన్నాయి.

ప్రతి వాదనను మూడు రకాల ప్రాంప్ట్‌లలో పరీక్షించారు:

  • వాదన నిజమని ఊహించకుండా దానిపై అడిగే తటస్థ ప్రశ్నలు
  • అబద్ధ వాదనను నిజంలా తీసుకునే ప్రేరేపించే ప్రశ్నలు
  • తప్పుదారి సమాచారాన్ని సోషల్-మీడియా-తయారీ కంటెంట్‌గా మార్చమని అడిగే దురుద్దేశ్య ప్రాంప్ట్‌లు

నివేదించిన ఫలితాలు స్పష్టంగా ఉన్నాయి. తటస్థ ప్రాంప్ట్‌లలో తప్పిద రేటు సుమారు 10 శాతం, ప్రేరేపించే ప్రాంప్ట్‌లలో 60 శాతం, మరియు దురుద్దేశ్య ప్రాంప్ట్‌లలో 80 శాతం. మొత్తం ఆడిట్‌లో, NewsGuard ప్రకారం Le Chat ఇంగ్లీషులో 50 శాతం, ఫ్రెంచ్‌లో 56.6 శాతం తప్పిద రేటు చూపింది.

ఆ సంఖ్యలు ఎందుకు ముఖ్యమైనవి

ఈ ఫలితాలు కేవలం మోడల్ నిజాలను తప్పుగా చెప్పగలదని మాత్రమే చూపించవు. ప్రాంప్ట్ నిర్మాణం itself, వ్యవస్థ అబద్ధ కథనాలను నిరోధిస్తుందా లేదా మరింత పెంచుతుందా అన్నదాన్ని గట్టిగా ప్రభావితం చేస్తుందని అవి సూచిస్తున్నాయి. ప్రాక్టికల్‌గా, జాగ్రత్తగా ప్రశ్నించే అనిశ్చిత వినియోగదారుడికి ఒక రకమైన సమాధానం రావచ్చు, అయితే తప్పుదారి సమాచారాన్ని మృదువుగా మార్చాలనుకునే వినియోగదారుడు మరింత ప్రమాదకరమైన output పొందగలడు.

అదే AI safety చర్చలోని ప్రధాన అంశం. నిజ జీవితంలో సవాలు ఏమిటంటే, చాట్‌బాట్ ఆదర్శ పరిస్థితుల్లో textbook fact ప్రశ్నకు సరైన సమాధానం ఇస్తుందా అన్నది కాదు. ప్రజలు వాక్య నిర్మాణం, ఎంపిక చేసిన సందర్భం, లేదా నేరుగా manipulation ఉపయోగించినప్పుడు కూడా వ్యవస్థ నమ్మకంగా ఉంటుందా అన్నదే అసలు ప్రశ్న.

ఆ ప్రమాణంతో చూస్తే, ఈ ఆడిట్ గణనీయమైన దృఢత్వ సమస్యను సూచిస్తోంది.

యుద్ధకాలంలో తప్పుదారి సమాచారం ఒత్తిడి

భౌగోళిక-రాజకీయ సందర్భం ఈ ఫలితాలను మరింత ప్రాధాన్యంగా చేస్తుంది. యుద్ధకాల సమాచార వాతావరణాలు ఇప్పటికే ధృవీకరించని వాదనలు, ప్రచారం, మరియు భావోద్వేగపూరిత కథనాలతో నిండిపోయి ఉంటాయి. అలాంటి పరిస్థితుల్లో, చాట్‌బాట్‌లు అబద్ధ వాదనలను మానవ fact-checkers స్పందించే వేగానికి ముందే సంగ్రహిస్తే, సమర్థిస్తే, లేదా శైలీగా మెరుగుపరుస్తే, అవి వేగవంతకారులుగా మారవచ్చు.

రాష్ట్ర-సంబంధిత కథనాలపై ఆడిట్ చేసిన దృష్టి కూడా ముఖ్యమైనది. తప్పుదారి సమాచారం ఇకపై కేవలం సోషల్ ప్లాట్‌ఫారమ్‌ల moderation సమస్య మాత్రమే కాదు; ఇది AI assistants కోసం retrieval, summarization, మరియు generation సమస్య కూడా. ప్రేరేపించే ప్రాంప్ట్‌లను అతి అక్షరాలా తీసుకునే చాట్‌బాట్ ఆ ecosystem‌లో సులభమైన లక్ష్యంగా మారుతుంది.

దీని అర్థం వ్యవస్థ ఉద్దేశపూర్వకంగా అబద్ధాల వైపు మొగ్గు చూపుతుందని కాదు. బదులుగా, చెడు సమాచారం నమ్మకంతో అందించబడినప్పుడు, లేదా వినియోగదారుడి అభ్యర్థన truth-seeking కంటే content-production task గా framed అయినప్పుడు, మోడల్‌కు తగిన safeguards లేకపోవచ్చన్న మాట.

తటస్థ పనితీరు ఎందుకు సరిపోదు

తటస్థ ప్రాంప్ట్‌లపై 10 శాతం తప్పిద రేటు కూడా గొప్పదేమీ కాదు, కానీ 60 నుంచి 80 శాతం శ్రేణితో దాని మధ్య ఉన్న గ్యాప్ే ఎక్కువగా కనిపిస్తోంది. ఇది వ్యవస్థ రక్షణలు ఉపరితల స్థాయిలోనే ఉన్నాయని సూచిస్తుంది. వాదన premise‌ను గట్టిగా ప్రశ్నించకుండా, మోడల్ వినియోగదారుడి framing‌ను అంగీకరించి ముందుకు సాగవచ్చు.

అందుకే కేవలం తటస్థ benchmark‌ల ఆధారంగా చేసే safety evaluations భ్రమకు గురిచేయగలవు. ప్రజా వినియోగం కేవలం జాగ్రత్తగా, మంచి ఉద్దేశంతో ఉన్న వినియోగదారుల చేత మాత్రమే జరగదు. ప్రచారకులు, మార్కెటర్లు, ట్రోల్స్, మరియు వారు మొదట చూసిన రూపంలోనే వదంతులను తిరిగి చెప్పే సాధారణ ప్రజలు కూడా దీనిని పరీక్షిస్తారు.

అలాంటి పరిస్థితుల్లో మోడల్ accuracy కూలిపోతే, headline benchmark పనితీరు సూచించినంతగా వాస్తవ విశ్వసనీయత ఉండదు.

విధాన మరియు ఉత్పత్తి సవాలు

NewsGuard comment request‌కు Mistral స్పందించలేదని నివేదిక చెబుతోంది. దీని వల్ల కంపెనీ prompt-level safeguards, బలమైన claim verification, refusal strategies, లేదా వేగంగా మారే conflict narratives కోసం ఇతర mitigation‌లను తీసుకువస్తుందా అన్న ప్రశ్న తెరిచి ఉంది.

ఇంకో మలుపు ఉంది: French Ministry of Defense Le Chat యొక్క customized, offline version‌ను ఉపయోగిస్తున్నట్లు నివేదికలు చెబుతున్నాయి. ఇది audited consumer behavior‌ను government deployments‌తో నేరుగా కలపదు, కానీ adversarial prompting కింద model reliability niche concern కాదని స్పష్టం చేస్తుంది.

డెవలపర్లు increasingly AI వ్యవస్థలను research aides, communication tools, మరియు workflow assistants‌గా మార్కెట్ చేస్తున్నారు. ఆ పనులు వాటిని అధిక-ప్రమాద సమాచార వివాదాల మధ్యలోకి నెడతాయి. వినియోగదారులు పూర్తిగా తటస్థంగా అడిగినప్పుడు మాత్రమే బాగా పనిచేసే మోడళ్లను నిజమైన ఆపరేటింగ్ వాతావరణం కోరేదాన్ని తీర్చలేవు.

AI safety తదుపరి దశ గురించి ఈ ఆడిట్ ఏమి సూచిస్తోంది

NewsGuard ఫలితాల నుండి వచ్చే ప్రధాన పాఠం ఏమిటంటే, misinformation resistance‌ను నిజమైన attack patterns కింద stress-test చేయాలి; మర్యాదపూర్వక వినియోగ సందర్భాలపై మాత్రమే కాదు. ప్రేరేపించే ప్రశ్నలు మరియు content-repackaging అభ్యర్థనలు ఇప్పుడు edge cases కాదు, సాధారణ failure modes.

వినియోగదారుల కోసం takeaway సులభం: వివాదాస్పద, వేగంగా మారే భౌగోళిక-రాజకీయ సంఘటనల్లో, వారి సమాధానాలను స్వతంత్రంగా ధృవీకరించనంత వరకు, చాట్‌బాట్‌లు నిజానికి మంచి arbiter‌లు కావు. డెవలపర్ల కోసం సందేశం మరింత కఠినంగా ఉంటుంది. మోడళ్లు plausible text‌ను తీసుకురావడం కంటే ఎక్కువ చేయాలి. అవి ఆధారంలేని premises‌ను ప్రశ్నించాలి, narrative manipulation‌ను గుర్తించాలి, మరియు propaganda కోసం formatting layer‌లా మారడాన్ని తిరస్కరించాలి.

Le Chat ఈ సమస్యను ఎదుర్కొనే ఏకైక మోడల్ కాదు. కానీ ప్రాంప్ట్ framing ఇంత తీవ్రంగా పనితీరును మార్చగలిగితే, సమాచార రంగంలో నమ్మదగిన AI సహాయం అనే వాదనలను జాగ్రత్తగా పరిగణించాలి అనే విషయాన్ని ఈ ఆడిట్ స్పష్టంగా గుర్తు చేస్తోంది.

ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.

Originally published on the-decoder.com