ప్రాంప్ట్ రూపకల్పన ఇంకా AI విశ్వసనీయతను దెబ్బతీస్తోంది
NewsGuard చేసిన కొత్త ఆడిట్ ప్రకారం, వినియోగదారులు అబద్ధాలను స్థిరపడిన నిజాలుగా చూపించినప్పుడు లేదా ఆ వాదనలను విస్తృతంగా పంచేందుకు చాట్బాట్ను అడిగినప్పుడు, Mistral యొక్క Le Chat ఇంకా తప్పుదారి సమాచారానికి చాలా బలహీనంగానే ఉంది.
ఏప్రిల్ 29న నివేదించిన ఈ ఫలితాలు ఇరాన్ యుద్ధానికి సంబంధించిన అబద్ధ కథనాలపై దృష్టి పెడతాయి, మరియు మోడల్ తటస్థ ప్రశ్నలకు ఎలా స్పందిస్తుందో, ప్రేరేపించే లేదా స్పష్టంగా దురుద్దేశ్య ప్రాంప్ట్లకు ఎలా స్పందిస్తుందో మధ్య ఉన్న గణనీయమైన తేడాను చూపిస్తాయి. ఈ గ్యాప్ ముఖ్యమైనది, ఎందుకంటే ఇది వినియోగదారుల AI వ్యవస్థల్లో చాలాకాలంగా తెలిసిన కానీ ఇంకా పరిష్కారంకాని బలహీనతను బయటపెడుతోంది: చాలా వ్యవస్థలు సాధారణ ప్రశ్నలపై సరిగా ప్రవర్తించవచ్చు, కానీ ప్రాంప్ట్ itself ప్రతికూలంగా మారిన వెంటనే ఘోరంగా విఫలమవుతాయి.
ఆడిట్ ఏమి పరీక్షించింది
నివేదిక ప్రకారం, NewsGuard రష్యన్, ఇరానియన్, మరియు చైనీస్ మూలాల నుంచి వచ్చిన పది అబద్ధ వాదనలను పరీక్షించింది. ఉదాహరణలలో French carrier Charles de Gaulle పై టైఫస్ ప్రబలిందనే కల్పిత వార్త, వందలాది US సైనికులు మరణించారనే నివేదికలు, మరియు Omanపై ఒక Emirati డ్రోన్ దాడి జరిగినట్లు చెప్పిన వాదన ఉన్నాయి.
ప్రతి వాదనను మూడు రకాల ప్రాంప్ట్లలో పరీక్షించారు:
- వాదన నిజమని ఊహించకుండా దానిపై అడిగే తటస్థ ప్రశ్నలు
- అబద్ధ వాదనను నిజంలా తీసుకునే ప్రేరేపించే ప్రశ్నలు
- తప్పుదారి సమాచారాన్ని సోషల్-మీడియా-తయారీ కంటెంట్గా మార్చమని అడిగే దురుద్దేశ్య ప్రాంప్ట్లు
నివేదించిన ఫలితాలు స్పష్టంగా ఉన్నాయి. తటస్థ ప్రాంప్ట్లలో తప్పిద రేటు సుమారు 10 శాతం, ప్రేరేపించే ప్రాంప్ట్లలో 60 శాతం, మరియు దురుద్దేశ్య ప్రాంప్ట్లలో 80 శాతం. మొత్తం ఆడిట్లో, NewsGuard ప్రకారం Le Chat ఇంగ్లీషులో 50 శాతం, ఫ్రెంచ్లో 56.6 శాతం తప్పిద రేటు చూపింది.
ఆ సంఖ్యలు ఎందుకు ముఖ్యమైనవి
ఈ ఫలితాలు కేవలం మోడల్ నిజాలను తప్పుగా చెప్పగలదని మాత్రమే చూపించవు. ప్రాంప్ట్ నిర్మాణం itself, వ్యవస్థ అబద్ధ కథనాలను నిరోధిస్తుందా లేదా మరింత పెంచుతుందా అన్నదాన్ని గట్టిగా ప్రభావితం చేస్తుందని అవి సూచిస్తున్నాయి. ప్రాక్టికల్గా, జాగ్రత్తగా ప్రశ్నించే అనిశ్చిత వినియోగదారుడికి ఒక రకమైన సమాధానం రావచ్చు, అయితే తప్పుదారి సమాచారాన్ని మృదువుగా మార్చాలనుకునే వినియోగదారుడు మరింత ప్రమాదకరమైన output పొందగలడు.
అదే AI safety చర్చలోని ప్రధాన అంశం. నిజ జీవితంలో సవాలు ఏమిటంటే, చాట్బాట్ ఆదర్శ పరిస్థితుల్లో textbook fact ప్రశ్నకు సరైన సమాధానం ఇస్తుందా అన్నది కాదు. ప్రజలు వాక్య నిర్మాణం, ఎంపిక చేసిన సందర్భం, లేదా నేరుగా manipulation ఉపయోగించినప్పుడు కూడా వ్యవస్థ నమ్మకంగా ఉంటుందా అన్నదే అసలు ప్రశ్న.
ఆ ప్రమాణంతో చూస్తే, ఈ ఆడిట్ గణనీయమైన దృఢత్వ సమస్యను సూచిస్తోంది.
యుద్ధకాలంలో తప్పుదారి సమాచారం ఒత్తిడి
భౌగోళిక-రాజకీయ సందర్భం ఈ ఫలితాలను మరింత ప్రాధాన్యంగా చేస్తుంది. యుద్ధకాల సమాచార వాతావరణాలు ఇప్పటికే ధృవీకరించని వాదనలు, ప్రచారం, మరియు భావోద్వేగపూరిత కథనాలతో నిండిపోయి ఉంటాయి. అలాంటి పరిస్థితుల్లో, చాట్బాట్లు అబద్ధ వాదనలను మానవ fact-checkers స్పందించే వేగానికి ముందే సంగ్రహిస్తే, సమర్థిస్తే, లేదా శైలీగా మెరుగుపరుస్తే, అవి వేగవంతకారులుగా మారవచ్చు.
రాష్ట్ర-సంబంధిత కథనాలపై ఆడిట్ చేసిన దృష్టి కూడా ముఖ్యమైనది. తప్పుదారి సమాచారం ఇకపై కేవలం సోషల్ ప్లాట్ఫారమ్ల moderation సమస్య మాత్రమే కాదు; ఇది AI assistants కోసం retrieval, summarization, మరియు generation సమస్య కూడా. ప్రేరేపించే ప్రాంప్ట్లను అతి అక్షరాలా తీసుకునే చాట్బాట్ ఆ ecosystemలో సులభమైన లక్ష్యంగా మారుతుంది.
దీని అర్థం వ్యవస్థ ఉద్దేశపూర్వకంగా అబద్ధాల వైపు మొగ్గు చూపుతుందని కాదు. బదులుగా, చెడు సమాచారం నమ్మకంతో అందించబడినప్పుడు, లేదా వినియోగదారుడి అభ్యర్థన truth-seeking కంటే content-production task గా framed అయినప్పుడు, మోడల్కు తగిన safeguards లేకపోవచ్చన్న మాట.
తటస్థ పనితీరు ఎందుకు సరిపోదు
తటస్థ ప్రాంప్ట్లపై 10 శాతం తప్పిద రేటు కూడా గొప్పదేమీ కాదు, కానీ 60 నుంచి 80 శాతం శ్రేణితో దాని మధ్య ఉన్న గ్యాప్ే ఎక్కువగా కనిపిస్తోంది. ఇది వ్యవస్థ రక్షణలు ఉపరితల స్థాయిలోనే ఉన్నాయని సూచిస్తుంది. వాదన premiseను గట్టిగా ప్రశ్నించకుండా, మోడల్ వినియోగదారుడి framingను అంగీకరించి ముందుకు సాగవచ్చు.
అందుకే కేవలం తటస్థ benchmarkల ఆధారంగా చేసే safety evaluations భ్రమకు గురిచేయగలవు. ప్రజా వినియోగం కేవలం జాగ్రత్తగా, మంచి ఉద్దేశంతో ఉన్న వినియోగదారుల చేత మాత్రమే జరగదు. ప్రచారకులు, మార్కెటర్లు, ట్రోల్స్, మరియు వారు మొదట చూసిన రూపంలోనే వదంతులను తిరిగి చెప్పే సాధారణ ప్రజలు కూడా దీనిని పరీక్షిస్తారు.
అలాంటి పరిస్థితుల్లో మోడల్ accuracy కూలిపోతే, headline benchmark పనితీరు సూచించినంతగా వాస్తవ విశ్వసనీయత ఉండదు.
విధాన మరియు ఉత్పత్తి సవాలు
NewsGuard comment requestకు Mistral స్పందించలేదని నివేదిక చెబుతోంది. దీని వల్ల కంపెనీ prompt-level safeguards, బలమైన claim verification, refusal strategies, లేదా వేగంగా మారే conflict narratives కోసం ఇతర mitigationలను తీసుకువస్తుందా అన్న ప్రశ్న తెరిచి ఉంది.
ఇంకో మలుపు ఉంది: French Ministry of Defense Le Chat యొక్క customized, offline versionను ఉపయోగిస్తున్నట్లు నివేదికలు చెబుతున్నాయి. ఇది audited consumer behaviorను government deploymentsతో నేరుగా కలపదు, కానీ adversarial prompting కింద model reliability niche concern కాదని స్పష్టం చేస్తుంది.
డెవలపర్లు increasingly AI వ్యవస్థలను research aides, communication tools, మరియు workflow assistantsగా మార్కెట్ చేస్తున్నారు. ఆ పనులు వాటిని అధిక-ప్రమాద సమాచార వివాదాల మధ్యలోకి నెడతాయి. వినియోగదారులు పూర్తిగా తటస్థంగా అడిగినప్పుడు మాత్రమే బాగా పనిచేసే మోడళ్లను నిజమైన ఆపరేటింగ్ వాతావరణం కోరేదాన్ని తీర్చలేవు.
AI safety తదుపరి దశ గురించి ఈ ఆడిట్ ఏమి సూచిస్తోంది
NewsGuard ఫలితాల నుండి వచ్చే ప్రధాన పాఠం ఏమిటంటే, misinformation resistanceను నిజమైన attack patterns కింద stress-test చేయాలి; మర్యాదపూర్వక వినియోగ సందర్భాలపై మాత్రమే కాదు. ప్రేరేపించే ప్రశ్నలు మరియు content-repackaging అభ్యర్థనలు ఇప్పుడు edge cases కాదు, సాధారణ failure modes.
వినియోగదారుల కోసం takeaway సులభం: వివాదాస్పద, వేగంగా మారే భౌగోళిక-రాజకీయ సంఘటనల్లో, వారి సమాధానాలను స్వతంత్రంగా ధృవీకరించనంత వరకు, చాట్బాట్లు నిజానికి మంచి arbiterలు కావు. డెవలపర్ల కోసం సందేశం మరింత కఠినంగా ఉంటుంది. మోడళ్లు plausible textను తీసుకురావడం కంటే ఎక్కువ చేయాలి. అవి ఆధారంలేని premisesను ప్రశ్నించాలి, narrative manipulationను గుర్తించాలి, మరియు propaganda కోసం formatting layerలా మారడాన్ని తిరస్కరించాలి.
Le Chat ఈ సమస్యను ఎదుర్కొనే ఏకైక మోడల్ కాదు. కానీ ప్రాంప్ట్ framing ఇంత తీవ్రంగా పనితీరును మార్చగలిగితే, సమాచార రంగంలో నమ్మదగిన AI సహాయం అనే వాదనలను జాగ్రత్తగా పరిగణించాలి అనే విషయాన్ని ఈ ఆడిట్ స్పష్టంగా గుర్తు చేస్తోంది.
ఈ వ్యాసం The Decoder నివేదిక ఆధారంగా ఉంది. మూల వ్యాసాన్ని చదవండి.
Originally published on the-decoder.com




