एलियास थोर्न का रहस्य

जब आप किसी चैटबॉट से एक कहानी लिखने को कहते हैं, तो आपको एलियास थोर्न, लाइटहाउस कीपर, के बारे में एक कथा मिल सकती है। यह बार-बार आने वाला पात्र उपयोगकर्ताओं और शोधकर्ताओं दोनों को हैरान करता रहा है। सॉफ्टवेयर इंजीनियर डैनियल मे ने सबसे पहले इस पैटर्न को नोटिस किया, जिसके बाद इस बात की गहरी पड़ताल शुरू हुई कि AI मॉडल इसी खास कथा पर क्यों टिक जाते हैं।

शोध ने पैमाने का खुलासा किया

404 Media द्वारा रिपोर्ट किए गए कॉर्नेल विश्वविद्यालय के एक प्रीप्रिंट पेपर ने OpenAI के GPT-5.4 Mini, Anthropic के Claude Haiku 4.5, और Google के Gemini 3.1 Flash-Lite सहित मॉडलों द्वारा बनाई गई 20,000 कहानियों का विश्लेषण किया। नतीजे चौंकाने वाले थे: Lighthouse, Keeper, Baker, Mayor, Clockmaker, Fisherman, Librarian, Conductor, Mara, Elias, और Elara - ये 11 शब्द सभी कहानियों में 88% में दिखाई दिए। सबसे सामान्य संयोजन 'Elias the lighthouse keeper' था, जो दो-तिहाई कहानियों में सामने आया।

ऐसा क्यों होता है?

शुरुआत में शोधकर्ताओं को pre-training डेटा पर शक था, लेकिन उन्हें इस बात का कोई सबूत नहीं मिला कि 'Elias the lighthouse keeper' साहित्य या training datasets में असामान्य रूप से अधिक दिखाई देता है। इसके बजाय, वे इस घटना का कारण alignment training को मानते हैं। AI लैब्स सुरक्षा के लिए मॉडल को fine-tune करने में WildChat जैसे datasets का उपयोग करते हैं, जो GPT-3.5-powered चैटबॉट के साथ हुई लाखों बातचीतों का संग्रह है। कॉपीराइट वाले पात्रों और adult content से बचने के लिए, मॉडल को 'सुरक्षित' विकल्पों की ओर मोड़ा जाता है। इससे अनजाने में एलियास जैसे पात्रों को प्रमुखता मिल गई और कहानी बनाते समय वे डिफ़ॉल्ट विकल्प बन गए।

AI रचनात्मकता पर असर

एलियास थोर्न का मामला एक व्यापक समस्या दिखाता है: AI मॉडल में सच्ची रचनात्मकता नहीं होती। उनके आउटपुट पर training data और safety guardrails का गहरा असर पड़ता है, जिससे बार-बार दोहराए जाने वाले और अनुमानित कथानक बनते हैं। इससे AI-जनित सामग्री की मौलिकता और मौजूदा alignment तकनीकों की प्रभावशीलता पर सवाल उठते हैं।

पात्र का फैलाव

चैटबॉट्स से आगे, एलियास थोर्न नाम फैंटेसी किताबों और Amazon पर ambient music tracks के एक कलाकार के रूप में भी दिखाई दिया है। मे ने 'Elias Thorne' द्वारा लिखी किताबें भी पाईं, जिनमें एक handbook भी शामिल है। यह संकेत देता है कि यह पात्र अन्य AI-जनित सामग्री में भी फैल रहा है, और रचनात्मक कार्यों को संभावित रूप से दूषित कर रहा है।

उपयोगकर्ताओं के लिए इसका अर्थ

विविध और रचनात्मक कहानियाँ चाहने वाले उपयोगकर्ताओं के लिए, चैटबॉट्स अक्सर उम्मीदों पर खरे नहीं उतरते। सुरक्षित, दोहराए जाने वाले पैटर्नों पर निर्भरता नए कंटेंट बनाने की उनकी क्षमता को सीमित करती है। जैसे-जैसे AI रचनात्मक क्षेत्रों में अधिक एकीकृत हो रहा है, इस पुनरावृत्ति को दूर करना महत्वपूर्ण है। शोधकर्ता अधिक विविध training datasets और ऐसे बेहतर alignment तरीकों की मांग कर रहे हैं जो रचनात्मकता का गला न घोंटें।

निष्कर्ष

एलियास थोर्न की घटना AI भाषा मॉडल के भीतर चल रही प्रक्रियाओं की एक खिड़की है। यह दिखाती है कि सुरक्षा उपाय अनजाने में आउटपुट को अप्रत्याशित तरीकों से कैसे आकार दे सकते हैं। जैसे-जैसे AI आगे विकसित होता रहेगा, इन विचित्रताओं को समझना अधिक रचनात्मक और भरोसेमंद प्रणालियाँ बनाने की कुंजी होगा।

यह लेख Gizmodo की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on gizmodo.com