इंटरनेटवरील AI चा पूर आता मोजता येतो

अनेक वर्षांपासून “AI slop” बद्दलच्या तक्रारी सहज सापडत होत्या, पण त्यांचा मोजमाप करणे कठीण होते. Imperial College London, Stanford University, आणि Internet Archive येथील संशोधकांच्या नव्या preprint study ने हे बदलले आहे. अभ्यासानुसार, सुमारे 35 टक्के नवीन वेबसाइट्स AI-निर्मित किंवा AI-सहाय्यित आहेत, ज्यामुळे मशीन-लिखित मजकूर वेबमध्ये किती खोलवर शिरला आहे याचे आतापर्यंतचे सर्वात स्पष्ट संख्यात्मक चित्र मिळते.

संशोधकांनी Internet Archive च्या Wayback Machine चा वापर करून वेब पेजेसचा प्रतिनिधिक नमुना तयार केला आणि AI ओळखण्याच्या अनेक पद्धतींची चाचणी घेतली; शेवटी त्यांनी Pangram Labs ची साधने निवडली, जी त्यांच्या मूल्यमापनात सर्वाधिक सुसंगत ठरली. या study मध्ये अशा कामाची एक महत्त्वाची मर्यादा उघडपणे मान्य केली आहे: AI detection tools परिपूर्ण नसतात. हे महत्त्वाचे आहे, कारण मशीन-निर्मित मजकुराच्या प्रमाणाबद्दलचा कोणताही दावा त्याला ओळखणाऱ्या पद्धतींच्या गुणवत्तेवर अवलंबून असतो.

त्या सावधगिरीनंतरही निष्कर्ष धक्कादायक आहेत. संशोधक फक्त वेबचा किती भाग AI systems ने आकारला आहे हेच पाहत नव्हते, तर या लेखनाचे गुणधर्म मानवी लेखनापेक्षा वेगळे आहेत का, हेही तपासत होते. किमान दोन मोठ्या क्षेत्रांमध्ये त्यांचे उत्तर होकारार्थी होते.

AI लेखन अधिक सकारात्मक वाटते

अभ्यासातील सर्वात लक्षवेधी निष्कर्षांपैकी एक tone शी संबंधित आहे. sentiment analysis वापरून संशोधकांनी आढळले की AI-निर्मित किंवा AI-सहाय्यित वेबसाइट्सचा सरासरी positive sentiment score, AI नसलेल्या वेबसाइट्सपेक्षा 107 टक्के अधिक होता. साध्या भाषेत, AI-प्रधान लेखन खूपच upbeat होते.

लेखक या pattern ला सध्याच्या मोठ्या भाषा मॉडेल्सच्या “sycophantic and overoptimistic nature” चे लक्षण मानतात. हे खरे असेल, तर त्याचे परिणाम फक्त त्रासदायक marketing copy किंवा ठरावीक blog posts पुरते मर्यादित नाहीत. याचा अर्थ AI systems सार्वजनिक वेबचा भावनिक सूर बदलत असावेत, ऑनलाइन भाषेला अधिक polished, अधिक approving, आणि कमी कठोर, कमी अनिश्चित, कमी संशयी बनवत असावेत.

असा tonal shift सूक्ष्म पण महत्त्वाचा असतो. लेखन केवळ माहिती पोहोचवत नाही. ते गांभीर्य, शंका, निर्णय, विनोद, संघर्ष, आणि दृष्टिकोन यांचे संकेत देते. AI-सहाय्यित मजकूर जर हे कडे सपाट करत असेल, तर परिणाम केवळ वेगळा style नाही. ती वेगळी atmosphere आहे. अभ्यासाचे त्या परिणामासाठीचे वर्णन लक्षात राहणारे आहे: इंटरनेट “artificially cheerful” होत आहे.

याचा अर्थ असा नाही की प्रत्येक सकारात्मक वेबसाइट मशीनने लिहिलेली आहे, किंवा प्रत्येक AI system एकच आवाज तयार करते. पण एकत्रित पातळीवर पाहिले, तर AI content वाढत जाईल तसा वेब अधिक मर्यादित भावनिक register कडे ढकलला जाऊ शकतो. आधीच optimization, branding, आणि algorithmic pressure ने भरलेल्या medium मध्ये अशी एकसारखी सकारात्मकता डिजिटल जागा अधिक सपाट आणि कमी विश्वासार्ह वाटू शकते.

वेब विचारसरणीच्या दृष्टीनेही कमी विविध होत असावा

संशोधकांना आणखी एक pattern सापडला, जो काळानुसार अधिक महत्त्वाचा ठरू शकतो. AI-निर्मित किंवा AI-सहाय्यित वेबसाइट्सने मानवनिर्मित वेबसाइट्सच्या तुलनेत semantic similarity मापांवर सुमारे 33 टक्के अधिक गुण मिळवले. त्यांचा निष्कर्ष असा की AI वापरामुळे ऑनलाइन प्रतिनिधित्व होणाऱ्या अनोख्या कल्पना आणि विविध दृष्टिकोनांची व्याप्ती कमी होत असल्यासारखे दिसते.

Semantic similarity म्हणजे अक्षरशः नक्कल नाही, पण ते convergence दाखवते. जर AI systems एकमेकांवर ओव्हरलॅप होणाऱ्या corpora वर प्रशिक्षित असतील आणि broadly acceptable answers साठी optimize केलेले असतील, तर त्यांच्या output मधून एकसारखे ऐकू येणे, एकसारखे विचार येणे स्वाभाविक आहे. त्यामुळे वेबवर अधिक पृष्ठे थोड्या वेगळ्या शब्दांत, पण संकल्पनात्मकदृष्ट्या सारखेच विषय कव्हर करू लागतात.

हा निष्कर्ष generative AI बाबतच्या दीर्घकालीन काळजीच्या केंद्राला स्पर्श करतो: फक्त इंटरनेटवर content चा पूर येण्याबद्दल नाही, तर difference कमी करत ते घडण्याबद्दल. पहिल्या नजरेत वेगवेगळी वाटणारी, पण त्याच rhetorical patterns आणि assumptions च्या भोवती गटबद्ध असलेली पृष्ठे असलेला वेब, प्रत्येक पृष्ठ वाचनीय आणि search-friendly असले तरी, बौद्धिकदृष्ट्या गरीब वातावरण ठरेल.

AI content संदर्भातील सर्व भीती खरी ठरल्या नाहीत

हा अभ्यास फक्त काय आढळले यासाठीच नव्हे, तर काय आढळले नाही यासाठीही महत्त्वाचा आहे. संशोधकांनी AI-लिखित वेब कंटेंटबाबत सहा सिद्धांतांची चाचणी घेतली, आणि चार सिद्ध झाले नाहीत. विशेषतः, AI misinformation वाढवेल अशी त्यांची अपेक्षा होती, पण विश्लेषणाने त्या गृहितकाला पाठिंबा दिला नाही.

हा नकारात्मक निष्कर्ष महत्त्वाचा आहे. AI slop बद्दलची सार्वजनिक चर्चा अनेकदा असे गृहित धरते की machine-generated content म्हणजे अधिक खोटेपणा. हा अभ्यास त्याच्या विरुद्ध गोष्ट सिद्ध करत नाही, पण चित्र अधिक गुंतागुंतीचे आहे हे दाखवतो. AI वेबमध्ये मोजता येतील अशा पद्धतीने बदल घडवू शकते, पण संशोधकांना ज्या प्रकारचे misinformation शोधायचे होते, त्या पद्धतीने ते आवश्यकच वाढवत नाही.

ही सूक्ष्मता काम अधिक उपयुक्त बनवते. ऑनलाइन quality मधील प्रत्येक घसरणीसाठी AI ला सार्वत्रिक स्पष्टीकरण मानण्याच्या मोहाला हे आव्हान देते. त्याऐवजी, हे अधिक विशिष्ट निदान देते: या अभ्यासातील सर्वात मजबूत पुरावे tone आणि sameness यांच्याबाबत आहेत, साध्या detect करण्याजोग्या misinformation च्या स्फोटाबाबत नाहीत.

बदलत असलेले इंटरनेट आता डेटामध्ये दिसते

या study चे मोठे मूल्य म्हणजे AI slop वादाला anecdote च्या पलीकडे नेणे. 2022 मध्ये ChatGPT सुरू झाल्यानंतर अनेक internet user ला डिजिटल लेखन अधिक सर्वसामान्य, अधिक सतत upbeat, आणि अधिक पुनरावृत्तीपूर्ण झाल्यासारखे वाटले. हा अभ्यास त्या भावना अंतिम करत नाही, पण त्यांना विश्लेषणात्मक चौकट देतो.

जर सुमारे 35 टक्के नवीन वेबसाइट्स आता AI-generated किंवा AI-assisted content वापरत असतील, तर generative systems ऑनलाइन publishing मधील उपघटक राहिलेले नाहीत. त्या वेब कसा लिहिला जातो, यातील एक मोठी ताकद आहेत. आणि जर ती systems content ला cheerfulness आणि semantic sameness कडे ढकलत असतील, तर बदल केवळ संख्यात्मक नाही. तो सांस्कृतिक आहे.

कदाचित हीच या अभ्यासाची सर्वात अस्वस्थ करणारी सूचना आहे. AI slop चा धोका केवळ वेबला कमी मूल्याच्या content ने भरून टाकणे नाही. तो वेबचा आवाजच बदलू शकतो, disagreement, unpredictability, आणि expressive range घासून काढून, अधिक smooth, safe, आणि pleasing मजकूर पुढे आणू शकतो. fake-happy internet हेही बदललेले internetच असते, आणि तो बदल दुर्लक्षित करणे आता अधिक कठीण होत चालले आहे.

हा लेख Wired च्या अहवालावर आधारित आहे. मूळ लेख वाचा.

Originally published on wired.com