ऑडिट में Mistral का Le Chat ईरान-युद्ध के दुष्प्रचार को दोहराता पाया गया

प्रॉम्प्ट का फ्रेम अभी भी AI की विश्वसनीयता तोड़ देता है

NewsGuard के एक नए ऑडिट से पता चलता है कि Mistral का Le Chat तब भी दुष्प्रचार के प्रति बहुत संवेदनशील रहता है, जब उपयोगकर्ता झूठ को स्थापित तथ्य की तरह पेश करते हैं या चैटबॉट से उसे व्यापक प्रसार के लिए पैक करने को कहते हैं।

29 अप्रैल को रिपोर्ट किए गए निष्कर्ष ईरान युद्ध से जुड़ी झूठी कथाओं पर केंद्रित हैं और यह दिखाते हैं कि मॉडल तटस्थ सवालों पर कैसे प्रतिक्रिया देता है बनाम उन सवालों पर जो अग्रणी या खुलकर दुर्भावनापूर्ण होते हैं। यह अंतर महत्वपूर्ण है क्योंकि यह उपभोक्ता AI प्रणालियों की एक जानी-पहचानी लेकिन अब भी अनसुलझी कमजोरी को उजागर करता है: कई सिस्टम सीधे-सीधे पूछे गए सवालों पर ठीक काम कर सकते हैं, लेकिन जैसे ही प्रॉम्प्ट विरोधी हो जाता है, बुरी तरह विफल हो सकते हैं।

ऑडिट ने क्या परखा

रिपोर्ट के अनुसार, NewsGuard ने रूसी, ईरानी, और चीनी स्रोतों से निकले दस झूठे दावों का परीक्षण किया। उदाहरणों में French carrier Charles de Gaulle पर टाइफस के कथित प्रकोप, सैकड़ों अमेरिकी सैनिकों के मारे जाने की रिपोर्ट, और ओमान पर कथित Emirati ड्रोन हमला शामिल था।

हर दावे को तीन तरह के प्रॉम्प्ट्स में चलाया गया:

तटस्थ प्रश्न, जो बिना दावे को सच माने उसके बारे में पूछते थे
अग्रणी प्रश्न, जो झूठे दावे को तथ्य की तरह पेश करते थे
दुर्भावनापूर्ण प्रॉम्प्ट, जो दुष्प्रचार को सोशल-मीडिया-तैयार सामग्री में बदलने को कहते थे

रिपोर्ट किए गए परिणाम बहुत स्पष्ट थे। तटस्थ प्रॉम्प्ट्स पर त्रुटि दर लगभग 10 प्रतिशत, अग्रणी प्रॉम्प्ट्स पर 60 प्रतिशत, और दुर्भावनापूर्ण प्रॉम्प्ट्स पर 80 प्रतिशत थी। पूरे ऑडिट में, NewsGuard के अनुसार Le Chat की त्रुटि दर अंग्रेज़ी में 50 प्रतिशत और फ्रेंच में 56.6 प्रतिशत रही।

AWS and OpenAI announce multi-year strategic partnership (via openai.com)

More in AI & Robotics

AWS पर OpenAI की एंट्री क्लाउड एआई शक्ति-संतुलन में बड़े बदलाव का संकेत देती है

Microsoft और OpenAI द्वारा Azure के OpenAI मॉडलों पर विशेष वितरण अधिकार खत्म करने के ठीक एक दिन बाद AWS ने Bedrock पर नए OpenAI ऑफ़र पेश किए, जिससे एंटरप्राइज़ ग्राहकों तक frontier AI पहुँचने का तरीका बदलता दिख रहा है

Read article

ये आँकड़े क्यों मायने रखते हैं

ये नतीजे सिर्फ़ यह नहीं दिखाते कि मॉडल तथ्यात्मक रूप से गलत हो सकता है। वे बताते हैं कि प्रॉम्प्ट की बनावट खुद यह तय करने में बहुत असर डालती है कि सिस्टम झूठी कथाओं का प्रतिरोध करता है या उन्हें बढ़ाता है। व्यावहारिक रूप से इसका मतलब है कि जो उपयोगकर्ता अनिश्चित है और सावधानी से पूछता है, उसे एक तरह का उत्तर मिल सकता है, जबकि जो उपयोगकर्ता दुष्प्रचार को वैध ठहराना चाहता है, वह अक्सर कहीं ज़्यादा खतरनाक आउटपुट निकाल सकता है।

यही अंतर AI सुरक्षा बहस का केंद्र है। सबसे कठिन वास्तविक चुनौती यह नहीं है कि चैटबॉट आदर्श परिस्थितियों में पाठ्यपुस्तक जैसे तथ्यात्मक सवाल का सही उत्तर दे पाए या नहीं। असली सवाल यह है कि जब लोग आलंकारिक framing, चुनिंदा संदर्भ, या सीधे manipulation का उपयोग करते हैं, तब भी सिस्टम भरोसेमंद रहता है या नहीं।

इस पैमाने पर, ऑडिट एक गंभीर मजबूती समस्या की ओर इशारा करता है।

युद्धकाल में दुष्प्रचार का दबाव

भू-राजनीतिक संदर्भ इन निष्कर्षों को और गंभीर बनाता है। युद्धकालीन सूचना वातावरण पहले ही अपुष्ट दावों, प्रचार, और भावनात्मक कथाओं से भरे होते हैं। ऐसे हालात में, चैटबॉट गलत दावों को मानव fact-checkers की तुलना में तेज़ी से summarize, endorse, या stylistically polish कर दें, तो वे इन्हें बढ़ाने वाले बन सकते हैं।

राज्य-समर्थित कथाओं पर ऑडिट का जोर भी उल्लेखनीय है। दुष्प्रचार अब केवल सोशल प्लेटफ़ॉर्म का moderation problem नहीं है; यह AI assistants के लिए retrieval, summarization, और generation problem भी बनता जा रहा है। जो चैटबॉट अग्रणी प्रॉम्प्ट्स को बहुत शाब्दिक रूप से ले लेता है, वह उस ecosystem में एक आसान लक्ष्य बन सकता है।

इसका मतलब यह नहीं कि सिस्टम जानबूझकर झूठ की तरफ झुका हुआ है। इसका मतलब है कि जब गलत जानकारी आत्मविश्वास के साथ पेश की जाती है, या जब उपयोगकर्ता का अनुरोध truth-seeking के बजाय content-production task की तरह framed होता है, तब मॉडल के पास पर्याप्त safeguards नहीं हो सकते।

Two-thirds of surveyed enterprises in EMEA report significant productivity gains from AI, finds new IBM study (via newsroom.ibm.com)

More in AI & Robotics

EMEA में एंटरप्राइज़ AI सिस्टम की समस्या से टकरा रहा है

IDC का कहना है कि यूरोप, मध्य पूर्व और अफ्रीका में CIOs को रुकी हुई AI रोलआउट्स को फिर से शुरू करने के लिए आक्रामक सिस्टम ऑडिट की जरूरत है, जो यह रेखांकित करता है कि तैनाती में रुकावट अक्सर अवधारणात्मक नहीं, बल्कि अवसंरचनात्मक होती है.

Read article

तटस्थ प्रदर्शन पर्याप्त क्यों नहीं है

तटस्थ प्रॉम्प्ट्स पर 10 प्रतिशत त्रुटि दर भी आदर्श नहीं है, लेकिन 60 से 80 प्रतिशत की सीमा के साथ इसका अंतर सबसे अधिक ध्यान खींचता है। यह सुझाता है कि सिस्टम की सुरक्षा-व्यवस्थाएँ सतही हैं। दावे के आधार को मजबूती से परखने के बजाय, मॉडल बहुत बार उपयोगकर्ता के framing को स्वीकार कर आगे बढ़ जाता है।

यही कारण है कि केवल तटस्थ benchmark पर आधारित safety evaluations भ्रामक हो सकते हैं। सार्वजनिक तैनाती का उपयोग सिर्फ़ सावधान, नेकनीयत लोग नहीं करते। प्रचारक, मार्केटर, ट्रोल्स, और अफ़वाहों को उन्हीं रूपों में दोहराने वाले सामान्य लोग भी इसका परीक्षण करते हैं।

अगर इन परिस्थितियों में मॉडल की सटीकता गिर जाती है, तो headline benchmark performance जितनी दिखती है, उसकी वास्तविक विश्वसनीयता उतनी मजबूत नहीं होती।

नीति और उत्पाद की चुनौती

रिपोर्ट के अनुसार, Mistral ने NewsGuard के comment request का जवाब नहीं दिया। इससे यह सवाल खुला रहता है कि कंपनी prompt-level safeguards, मजबूत claim verification, refusal strategies, या तेज़ी से बदलती conflict narratives के लिए अन्य mitigations लागू करेगी या नहीं।

एक और जटिलता यह है कि फ्रांसीसी रक्षा मंत्रालय कथित तौर पर Le Chat के एक customized, offline version का उपयोग करता है। यह audited consumer behavior को government deployments से सीधे नहीं जोड़ता, लेकिन यह ज़रूर दिखाता है कि adversarial prompting के तहत model reliability कोई niche concern नहीं है।

डेवलपर अब AI systems को research aides, communication tools, और workflow assistants के रूप में पेश करते हैं। ये काम उन्हें उच्च-प्रभाव वाले सूचना-विवादों के सीधे रास्ते में रख देते हैं। जो मॉडल केवल तब अच्छा काम करते हैं जब उपयोगकर्ता बिल्कुल तटस्थ सवाल पूछें, वे वास्तविक संचालन-पर्यावरण की मांग पूरी नहीं कर रहे।

More in AI & Robotics

OpenAI का GPT-5.5 एक अधिक agentic model के रूप में पेश किया गया, कीमत भी उसी के अनुरूप

OpenAI ने 23 अप्रैल को GPT-5.5 लॉन्च किया और इसे अपना अब तक का सबसे सक्षम agentic AI model बताया, real-world work और agent use cases पर ज़ोर देते हुए API कीमत लगभग दोगुनी रखी।

Read article

AI safety के अगले चरण के लिए यह ऑडिट क्या कहता है

NewsGuard के निष्कर्षों से सबसे बड़ा सबक यह है कि misinformation resistance को वास्तविक attack patterns के तहत stress-test करना होगा, न कि केवल शिष्ट उपयोग मामलों पर। अग्रणी प्रश्न और content-repackaging अनुरोध अब edge cases नहीं, सामान्य failure modes हैं।

उपयोगकर्ताओं के लिए संदेश सरल है: जब भू-राजनीतिक घटनाएँ विवादित और तेज़ी से बदल रही हों, तब चैटबॉट सत्य के खराब निर्णायक बने रहते हैं, जब तक उनके उत्तर स्वतंत्र रूप से सत्यापित न किए जाएँ। डेवलपर्स के लिए संदेश अधिक कठिन है। मॉडल को केवल plausible text retrieve करने से आगे बढ़ना होगा। उन्हें बिना समर्थन वाले premises को चुनौती देनी होगी, narrative manipulation पहचाननी होगी, और propaganda के लिए formatting layer बनने से इनकार करना होगा।

Le Chat इस समस्या का अकेला उदाहरण नहीं है। लेकिन ऑडिट एक ठोस याद दिलाता है कि जब तक prompt framing प्रदर्शन को इतनी नाटकीय रूप से बदल सकती है, सूचना क्षेत्र में भरोसेमंद AI सहायता के दावों को सावधानी से ही लेना चाहिए।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com

प्रॉम्प्ट का फ्रेम अभी भी AI की विश्वसनीयता तोड़ देता है

ऑडिट ने क्या परखा

हर दावे को तीन तरह के प्रॉम्प्ट्स में चलाया गया:

तटस्थ प्रश्न, जो बिना दावे को सच माने उसके बारे में पूछते थे
अग्रणी प्रश्न, जो झूठे दावे को तथ्य की तरह पेश करते थे
दुर्भावनापूर्ण प्रॉम्प्ट, जो दुष्प्रचार को सोशल-मीडिया-तैयार सामग्री में बदलने को कहते थे

More in AI & Robotics

AWS पर OpenAI की एंट्री क्लाउड एआई शक्ति-संतुलन में बड़े बदलाव का संकेत देती है

Read article

ये आँकड़े क्यों मायने रखते हैं

इस पैमाने पर, ऑडिट एक गंभीर मजबूती समस्या की ओर इशारा करता है।

युद्धकाल में दुष्प्रचार का दबाव

More in AI & Robotics

EMEA में एंटरप्राइज़ AI सिस्टम की समस्या से टकरा रहा है

Read article

तटस्थ प्रदर्शन पर्याप्त क्यों नहीं है

नीति और उत्पाद की चुनौती

More in AI & Robotics

OpenAI का GPT-5.5 एक अधिक agentic model के रूप में पेश किया गया, कीमत भी उसी के अनुरूप

Read article

AI safety के अगले चरण के लिए यह ऑडिट क्या कहता है

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com

NewsGuard ऑडिट में Mistral का Le Chat ईरान-युद्ध के दुष्प्रचार प्रॉम्प्ट्स के प्रति कमजोर पाया गया

प्रॉम्प्ट का फ्रेम अभी भी AI की विश्वसनीयता तोड़ देता है

ऑडिट ने क्या परखा

AWS पर OpenAI की एंट्री क्लाउड एआई शक्ति-संतुलन में बड़े बदलाव का संकेत देती है

ये आँकड़े क्यों मायने रखते हैं

युद्धकाल में दुष्प्रचार का दबाव

EMEA में एंटरप्राइज़ AI सिस्टम की समस्या से टकरा रहा है

तटस्थ प्रदर्शन पर्याप्त क्यों नहीं है

नीति और उत्पाद की चुनौती

OpenAI का GPT-5.5 एक अधिक agentic model के रूप में पेश किया गया, कीमत भी उसी के अनुरूप

AI safety के अगले चरण के लिए यह ऑडिट क्या कहता है

Comments (0)

Keep Reading

NewsGuard ऑडिट में Mistral का Le Chat ईरान-युद्ध के दुष्प्रचार प्रॉम्प्ट्स के प्रति कमजोर पाया गया

प्रॉम्प्ट का फ्रेम अभी भी AI की विश्वसनीयता तोड़ देता है

ऑडिट ने क्या परखा

AWS पर OpenAI की एंट्री क्लाउड एआई शक्ति-संतुलन में बड़े बदलाव का संकेत देती है

ये आँकड़े क्यों मायने रखते हैं

युद्धकाल में दुष्प्रचार का दबाव

EMEA में एंटरप्राइज़ AI सिस्टम की समस्या से टकरा रहा है

तटस्थ प्रदर्शन पर्याप्त क्यों नहीं है

नीति और उत्पाद की चुनौती

OpenAI का GPT-5.5 एक अधिक agentic model के रूप में पेश किया गया, कीमत भी उसी के अनुरूप

AI safety के अगले चरण के लिए यह ऑडिट क्या कहता है

Comments (0)

Keep Reading