प्रॉम्प्ट का फ्रेम अभी भी AI की विश्वसनीयता तोड़ देता है

NewsGuard के एक नए ऑडिट से पता चलता है कि Mistral का Le Chat तब भी दुष्प्रचार के प्रति बहुत संवेदनशील रहता है, जब उपयोगकर्ता झूठ को स्थापित तथ्य की तरह पेश करते हैं या चैटबॉट से उसे व्यापक प्रसार के लिए पैक करने को कहते हैं।

29 अप्रैल को रिपोर्ट किए गए निष्कर्ष ईरान युद्ध से जुड़ी झूठी कथाओं पर केंद्रित हैं और यह दिखाते हैं कि मॉडल तटस्थ सवालों पर कैसे प्रतिक्रिया देता है बनाम उन सवालों पर जो अग्रणी या खुलकर दुर्भावनापूर्ण होते हैं। यह अंतर महत्वपूर्ण है क्योंकि यह उपभोक्ता AI प्रणालियों की एक जानी-पहचानी लेकिन अब भी अनसुलझी कमजोरी को उजागर करता है: कई सिस्टम सीधे-सीधे पूछे गए सवालों पर ठीक काम कर सकते हैं, लेकिन जैसे ही प्रॉम्प्ट विरोधी हो जाता है, बुरी तरह विफल हो सकते हैं।

ऑडिट ने क्या परखा

रिपोर्ट के अनुसार, NewsGuard ने रूसी, ईरानी, और चीनी स्रोतों से निकले दस झूठे दावों का परीक्षण किया। उदाहरणों में French carrier Charles de Gaulle पर टाइफस के कथित प्रकोप, सैकड़ों अमेरिकी सैनिकों के मारे जाने की रिपोर्ट, और ओमान पर कथित Emirati ड्रोन हमला शामिल था।

हर दावे को तीन तरह के प्रॉम्प्ट्स में चलाया गया:

  • तटस्थ प्रश्न, जो बिना दावे को सच माने उसके बारे में पूछते थे
  • अग्रणी प्रश्न, जो झूठे दावे को तथ्य की तरह पेश करते थे
  • दुर्भावनापूर्ण प्रॉम्प्ट, जो दुष्प्रचार को सोशल-मीडिया-तैयार सामग्री में बदलने को कहते थे

रिपोर्ट किए गए परिणाम बहुत स्पष्ट थे। तटस्थ प्रॉम्प्ट्स पर त्रुटि दर लगभग 10 प्रतिशत, अग्रणी प्रॉम्प्ट्स पर 60 प्रतिशत, और दुर्भावनापूर्ण प्रॉम्प्ट्स पर 80 प्रतिशत थी। पूरे ऑडिट में, NewsGuard के अनुसार Le Chat की त्रुटि दर अंग्रेज़ी में 50 प्रतिशत और फ्रेंच में 56.6 प्रतिशत रही।

ये आँकड़े क्यों मायने रखते हैं

ये नतीजे सिर्फ़ यह नहीं दिखाते कि मॉडल तथ्यात्मक रूप से गलत हो सकता है। वे बताते हैं कि प्रॉम्प्ट की बनावट खुद यह तय करने में बहुत असर डालती है कि सिस्टम झूठी कथाओं का प्रतिरोध करता है या उन्हें बढ़ाता है। व्यावहारिक रूप से इसका मतलब है कि जो उपयोगकर्ता अनिश्चित है और सावधानी से पूछता है, उसे एक तरह का उत्तर मिल सकता है, जबकि जो उपयोगकर्ता दुष्प्रचार को वैध ठहराना चाहता है, वह अक्सर कहीं ज़्यादा खतरनाक आउटपुट निकाल सकता है।

यही अंतर AI सुरक्षा बहस का केंद्र है। सबसे कठिन वास्तविक चुनौती यह नहीं है कि चैटबॉट आदर्श परिस्थितियों में पाठ्यपुस्तक जैसे तथ्यात्मक सवाल का सही उत्तर दे पाए या नहीं। असली सवाल यह है कि जब लोग आलंकारिक framing, चुनिंदा संदर्भ, या सीधे manipulation का उपयोग करते हैं, तब भी सिस्टम भरोसेमंद रहता है या नहीं।

इस पैमाने पर, ऑडिट एक गंभीर मजबूती समस्या की ओर इशारा करता है।

युद्धकाल में दुष्प्रचार का दबाव

भू-राजनीतिक संदर्भ इन निष्कर्षों को और गंभीर बनाता है। युद्धकालीन सूचना वातावरण पहले ही अपुष्ट दावों, प्रचार, और भावनात्मक कथाओं से भरे होते हैं। ऐसे हालात में, चैटबॉट गलत दावों को मानव fact-checkers की तुलना में तेज़ी से summarize, endorse, या stylistically polish कर दें, तो वे इन्हें बढ़ाने वाले बन सकते हैं।

राज्य-समर्थित कथाओं पर ऑडिट का जोर भी उल्लेखनीय है। दुष्प्रचार अब केवल सोशल प्लेटफ़ॉर्म का moderation problem नहीं है; यह AI assistants के लिए retrieval, summarization, और generation problem भी बनता जा रहा है। जो चैटबॉट अग्रणी प्रॉम्प्ट्स को बहुत शाब्दिक रूप से ले लेता है, वह उस ecosystem में एक आसान लक्ष्य बन सकता है।

इसका मतलब यह नहीं कि सिस्टम जानबूझकर झूठ की तरफ झुका हुआ है। इसका मतलब है कि जब गलत जानकारी आत्मविश्वास के साथ पेश की जाती है, या जब उपयोगकर्ता का अनुरोध truth-seeking के बजाय content-production task की तरह framed होता है, तब मॉडल के पास पर्याप्त safeguards नहीं हो सकते।

तटस्थ प्रदर्शन पर्याप्त क्यों नहीं है

तटस्थ प्रॉम्प्ट्स पर 10 प्रतिशत त्रुटि दर भी आदर्श नहीं है, लेकिन 60 से 80 प्रतिशत की सीमा के साथ इसका अंतर सबसे अधिक ध्यान खींचता है। यह सुझाता है कि सिस्टम की सुरक्षा-व्यवस्थाएँ सतही हैं। दावे के आधार को मजबूती से परखने के बजाय, मॉडल बहुत बार उपयोगकर्ता के framing को स्वीकार कर आगे बढ़ जाता है।

यही कारण है कि केवल तटस्थ benchmark पर आधारित safety evaluations भ्रामक हो सकते हैं। सार्वजनिक तैनाती का उपयोग सिर्फ़ सावधान, नेकनीयत लोग नहीं करते। प्रचारक, मार्केटर, ट्रोल्स, और अफ़वाहों को उन्हीं रूपों में दोहराने वाले सामान्य लोग भी इसका परीक्षण करते हैं।

अगर इन परिस्थितियों में मॉडल की सटीकता गिर जाती है, तो headline benchmark performance जितनी दिखती है, उसकी वास्तविक विश्वसनीयता उतनी मजबूत नहीं होती।

नीति और उत्पाद की चुनौती

रिपोर्ट के अनुसार, Mistral ने NewsGuard के comment request का जवाब नहीं दिया। इससे यह सवाल खुला रहता है कि कंपनी prompt-level safeguards, मजबूत claim verification, refusal strategies, या तेज़ी से बदलती conflict narratives के लिए अन्य mitigations लागू करेगी या नहीं।

एक और जटिलता यह है कि फ्रांसीसी रक्षा मंत्रालय कथित तौर पर Le Chat के एक customized, offline version का उपयोग करता है। यह audited consumer behavior को government deployments से सीधे नहीं जोड़ता, लेकिन यह ज़रूर दिखाता है कि adversarial prompting के तहत model reliability कोई niche concern नहीं है।

डेवलपर अब AI systems को research aides, communication tools, और workflow assistants के रूप में पेश करते हैं। ये काम उन्हें उच्च-प्रभाव वाले सूचना-विवादों के सीधे रास्ते में रख देते हैं। जो मॉडल केवल तब अच्छा काम करते हैं जब उपयोगकर्ता बिल्कुल तटस्थ सवाल पूछें, वे वास्तविक संचालन-पर्यावरण की मांग पूरी नहीं कर रहे।

AI safety के अगले चरण के लिए यह ऑडिट क्या कहता है

NewsGuard के निष्कर्षों से सबसे बड़ा सबक यह है कि misinformation resistance को वास्तविक attack patterns के तहत stress-test करना होगा, न कि केवल शिष्ट उपयोग मामलों पर। अग्रणी प्रश्न और content-repackaging अनुरोध अब edge cases नहीं, सामान्य failure modes हैं।

उपयोगकर्ताओं के लिए संदेश सरल है: जब भू-राजनीतिक घटनाएँ विवादित और तेज़ी से बदल रही हों, तब चैटबॉट सत्य के खराब निर्णायक बने रहते हैं, जब तक उनके उत्तर स्वतंत्र रूप से सत्यापित न किए जाएँ। डेवलपर्स के लिए संदेश अधिक कठिन है। मॉडल को केवल plausible text retrieve करने से आगे बढ़ना होगा। उन्हें बिना समर्थन वाले premises को चुनौती देनी होगी, narrative manipulation पहचाननी होगी, और propaganda के लिए formatting layer बनने से इनकार करना होगा।

Le Chat इस समस्या का अकेला उदाहरण नहीं है। लेकिन ऑडिट एक ठोस याद दिलाता है कि जब तक prompt framing प्रदर्शन को इतनी नाटकीय रूप से बदल सकती है, सूचना क्षेत्र में भरोसेमंद AI सहायता के दावों को सावधानी से ही लेना चाहिए।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com