Enterprise AI एजेंट शायद वेब की सबसे पुरानी trust problem विरासत में ले रहे हैं

Google शोधकर्ता चेतावनी दे रहे हैं कि दुर्भावनापूर्ण सार्वजनिक वेब पेज indirect prompt injection के जरिए enterprise AI agents को सक्रिय रूप से poison कर रहे हैं, जैसा कि दिए गए candidate metadata और excerpt में कहा गया है। यह चेतावनी agentic AI को लेकर महीनों से मौजूद एक चिंता को और तीखा करती है: जब सिस्टम को बाहरी स्रोतों को पढ़ने, summarize करने और उन पर action लेने की अधिक autonomy दी जाती है, तो वे खुले वेब की adversarial प्रकृति को भी अपनाते हैं।

यहां वर्णित खतरा पारंपरिक software exploit जैसा संकीर्ण अर्थ में नहीं है। यह model behavior में हेरफेर है। एक hostile page ऐसे instructions या content embed कर सकता है जो किसी AI agent को प्रभावित करने के लिए बनाया गया हो, जब वह page को visit, index या summarize करता है। यदि वह agent enterprise tools या workflows से जुड़ा है, तो जोखिम केवल गलत output तक सीमित नहीं रहता। यह decisions, retrieval chains और downstream operational actions तक फैल सकता है।

Indirect prompt injection को संरचनात्मक रूप से हल करना कठिन क्यों है

यह चेतावनी उस design assumption को निशाना बनाती है जिस पर कई मौजूदा AI products आधारित हैं: कि developers model के चारों ओर पर्याप्त guardrails लगा दें तो agents दस्तावेज़ों की व्यापक श्रेणी पर सुरक्षित रूप से काम कर सकते हैं। Indirect prompt injection attacks input layer को ही दूषित करके इस assumption को चुनौती देते हैं। समस्या सिर्फ यह नहीं है कि model से उसका user क्या पूछता है। समस्या यह भी है कि surrounding environment, user को पता चले बिना, model से क्या पूछ रहा है।

दिए गए excerpt में कहा गया है कि Common Crawl repository को स्कैन करने वाली security teams ने इस risk से जुड़े प्रमाण पाए। यह विवरण महत्वपूर्ण है, क्योंकि Common Crawl विशाल है और web-scale data work में व्यापक रूप से उपयोग होता है। यदि prompt-injection patterns पहले से वहीं दिखाई दे रहे हैं, तो समस्या सिर्फ theoretical नहीं है। इससे संकेत मिलता है कि hostile content को उसी सार्वजनिक सूचना वातावरण में seed किया जा सकता है जिस पर AI systems retrieval, summarization या browsing के लिए increasingly निर्भर हैं।

Agents stakes क्यों बढ़ाते हैं

Chatbots hallucinate कर सकते हैं या instructions को गलत पढ़ सकते हैं, लेकिन agents अधिक consequential surface area बनाते हैं क्योंकि उन्हें काम करने के लिए बनाया जाता है। वे पेज fetch करते हैं, systems connect करते हैं, actions draft करते हैं, और कभी-कभी workflows trigger करते हैं। इसका मतलब है कि एक poisoned page को खतरनाक होने के लिए पारंपरिक अर्थ में software को “hack” करने की ज़रूरत नहीं है। उसे केवल model की reasoning को इतना redirect करना होता है कि आगे क्या होता है, वह बदल जाए।

Enterprises के लिए यह एक नई security boundary समस्या पैदा करता है। वेब में हमेशा spam, scams, malicious scripts और deceptive content मौजूद रहा है। मानव कर्मचारी training, browser defenses और institutional controls के कुछ मिश्रण के साथ उस वातावरण से निपटते हैं। AI agents के पास अभी समकक्ष judgment नहीं है, और वे hostile content को machine speed और machine scale पर process कर सकते हैं। यही असमानता एक परिचित internet problem को AI-युग की विशिष्ट समस्या में बदल देती है।

AI deployment के लिए बड़ा सबक

Google की चेतावनी को केवल research footnote नहीं, बल्कि product architecture issue के रूप में पढ़ा जाना चाहिए। कोई भी system जो AI agent को public pages browse करने या ingest करने देता है, उसे मानना होगा कि उन पृष्ठों में adversarial instructions हो सकती हैं। सुरक्षित default trust नहीं है। सुरक्षित default suspicion, isolation और layered validation है, इससे पहले कि agent का output sensitive systems को प्रभावित करे।

दिए गए material में Google की पूरी mitigation guidance शामिल नहीं है, इसलिए यहां उपलब्ध साक्ष्य दिशा-सूचक हैं, पूर्ण नहीं। लेकिन दिशा साफ है। Enterprise AI agents उस वास्तविकता से टकरा रहे हैं कि language models text की व्याख्या करते हैं, और web में वह text होता है जो attackers ने लिखा है। जैसे-जैसे अधिक कंपनियाँ agents को operationalize करने की दौड़ में हैं, सबसे महत्वपूर्ण security question अब यह नहीं रह सकता कि model क्या कर सकता है, बल्कि यह कि model से क्या करवाया जा सकता है।

यह लेख AI News की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on artificialintelligence-news.com