AI डेटा संकलन जेव्हा प्रारंभिक बालशिक्षणाला भेटते
वॉशिंग्टन विद्यापीठाच्या एका प्रस्तावित संशोधन उपक्रमाने एक कठीण प्रश्न सार्वजनिकपणे पुढे आणला आहे: तो डेटा प्रीस्कूल वर्गखोल्यांतून येणार असेल, तर कृत्रिम बुद्धिमत्ता प्रणालींसाठी प्रत्यक्ष जगातील डेटा गोळा करताना संशोधकांनी किती दूर जावे?
404 Media नुसार, संशोधकांनी प्रीस्कूल शिक्षकांना लहान कॅमेरे घालण्यास सांगण्याची योजना आखली होती, जे नियमित वर्गातील क्रियाकलापांच्या वेळी शिक्षकाच्या अंदाजे प्रथम-व्यक्ती दृष्टीकोनाचे चित्रण करतील. या चित्रफितीत शिकवले जाणारे मुलेही दिसतील, आणि त्यानंतर ती AI मॉडेल विकसित करण्यासाठी वापरली जाईल. प्रकल्प दस्तऐवजांमध्ये असेही म्हटले होते की अभ्यासाचा भाग म्हणून संशोधक वर्गखोलीत एक स्थिर व्हिडिओ कॅमेरा बसवू शकतात.
AI कामाच्या तांत्रिक तपशीलांवर लक्ष केंद्रित होण्यापूर्वीच, हा प्रस्ताव समृद्ध प्रशिक्षण डेटाच्या मागणी आणि असा डेटा कुठून यावा याभोवतीच्या सामाजिक मर्यादा यांमधील वाढती तणावपूर्ण स्थिती उघड करतो.
पालकांना काय सांगितले गेले
पालकांसोबत सामायिक केलेल्या आणि नंतर 404 Media ने मिळवलेल्या एका दस्तऐवजात म्हटले होते की, परवानगी असल्यास, एखाद्या मुलाचा मुख्य शिक्षक शिक्षकाने परिधान केलेला कॅमेरा घालून शिक्षकाचा अंदाजे प्रथम-व्यक्ती दृष्टीकोन टिपू शकतो, आणि संशोधक वर्गखोलीत एक स्थिर कॅमेरा देखील बसवू शकतात. त्या रेकॉर्डिंग्जमध्ये नेहमीच्या वर्गातील क्रियाकलापांदरम्यान शिक्षक आणि मुलांमधील सामान्य परस्परसंवाद टिपला जाणार असल्याचे वर्णन होते. प्रस्तावित वेळापत्रक सकाळच्या कार्यक्रमाच्या वेळेत 150 मिनिटांपर्यंत, एका महिन्यात जास्तीत जास्त चार भेटींपर्यंत असे होते.
दस्तऐवजात ठळकपणे सांगितले होते की मुलांना काही नवीन किंवा वेगळे करण्यास सांगितले जाणार नाही आणि त्यांची दैनंदिन दिनचर्या तशीच राहील. एका अर्थाने, हे आश्वासन समजण्यासारखे आहे: प्रयोगात्मक हस्तक्षेपामुळे वर्तन बदललेले नसून नैसर्गिक स्वरूपाचा डेटा संशोधकांना अधिक आवडतो. दुसऱ्या अर्थाने, हे अस्वस्थता अधिक तीव्र करते. डेटा संकलन जितके सामान्य जीवनाच्या जवळ जाते, तितके निरीक्षण आणि देखरेख यांमधील फरक करणे कठीण होते.
संमतीची समस्या
404 Media शी बोललेल्या एका पालकाने हा कार्यक्रम opt-in ऐवजी opt-out असा समजला होता. विद्यापीठाने त्या अर्थनिर्णयाला विरोध केला आणि सांगितले की वर्गखोलीतील सहभाग सर्व संबंधित मुलांसाठी पालकांची परवानगी मिळण्यावर अवलंबून होता. हा मतभेद किरकोळ प्रशासकीय तपशील नाही. तो संपूर्ण अभ्यासरचनेच्या वैधतेला स्पर्श करतो.
अतिशय लहान मुलांचा समावेश असलेल्या वातावरणात, संमतीची यंत्रणा औपचारिक संमतीपत्राइतकीच महत्त्वाची असते. काय रेकॉर्ड केले जात आहे, ते किती काळ ठेवले जाईल, कोणाला त्यावर प्रवेश असेल, आणि फुटेज कोणत्या प्रकारच्या AI प्रणालीला मदत करण्यासाठी आहे, हे पालकांनी समजून घेतले पाहिजे. त्या साखळीतील कोणताही भाग अस्पष्ट असल्यास, सार्वजनिक विश्वास पटकन कोसळू शकतो.
या अहवालात पूर्ण तांत्रिक प्रोटोकॉल दिलेला नाही, परंतु उपलब्ध तपशील हे दाखवण्यासाठी पुरेसे आहेत की संमती मॉडेलचे अर्थ लावणे लगेचच केंद्रस्थानी का आले. opt-in चौकट अत्यंत संवेदनशील वातावरणात स्पष्ट, माहितीपूर्ण संमती सूचित करते. opt-out ची धारणा अधिक कमकुवत मानक सूचित करते, जरी तो विद्यापीठाचा हेतू नसला तरी.
वर्गखोलीतील फुटेज इतके मौल्यवान का आहे
मशीन लर्निंगच्या दृष्टीने, वर्गखोलीची वातावरणे माहितीने समृद्ध असतात. त्यामध्ये सतत परस्परसंवाद, भाषा वापर, हातवारे, लक्षातील बदल, वस्तू हाताळणे, आणि सामाजिक समन्वय यांचा समावेश असतो. शिक्षकाचा प्रथम-व्यक्ती व्हिडिओ यांपैकी अनेक गोष्टी अशा कोनातून टिपेल की ज्याची नक्कल करणे कठीण आहे. embodied systems, instructional modeling, किंवा scene understanding मध्ये रस असलेल्या AI विकासकांसाठी, असा डेटा अपवादात्मक आकर्षक ठरू शकतो.
पण ज्याच्यामुळे फुटेज उपयुक्त ठरते, त्याच गुणधर्मांमुळे ते संवेदनशीलही बनते. प्रीस्कूल वर्गखोल्यांमध्ये अशी मुले असतात जी अर्थपूर्ण संमती देऊ शकत नाहीत, शिस्त आणि काळजी सांभाळताना रेकॉर्ड केले जाणारे शिक्षक असतात, आणि संरक्षित वातावरण देण्याची अपेक्षा असलेल्या संस्था असतात. तिथे गोळा केलेला डेटा रस्त्यावरील फुटेज, सार्वजनिक वेब मजकूर, किंवा सर्वसाधारण कामाच्या ठिकाणचे व्हिडिओ यांच्याशी विनिमययोग्य नसतो.
विस्तृत कारभारातील तफावत
ही घटना AI विकासातील व्यापक नमुना प्रतिबिंबित करते: उच्च-गुणवत्तेच्या, अधिक वास्तववादी प्रशिक्षण डेटाच्या शोधामुळे अधिक कठोर नैतिक बंधने असलेल्या संदर्भांकडे वाढता कल दिसत आहे. आरोग्यसेवा, शिक्षण, रोजगार, आणि घरगुती जीवन या सर्वांमध्ये प्रगत मॉडेल्सना फायदा होईल असा सूक्ष्म वर्तन डेटा असतो. हेच असे क्षेत्र आहेत जिथे गैरवापर, गैरसमज, किंवा कमकुवत कारभार यांचे मोठे परिणाम होऊ शकतात.
याचा अर्थ असा नाही की असे संशोधन कधीच होऊ नये. याचा अर्थ असा की स्पष्टतेची मर्यादा सामान्य सॉफ्टवेअर चाचण्यांपेक्षा खूप जास्त असली पाहिजे. संस्थांनी केवळ अभ्यास किमान प्रक्रियात्मक अटी पूर्ण करतो का हेच नाही, तर लोकांना प्रणाली कशासाठी आहे हे समजल्यानंतरही डेटा संकलन पद्धत समर्थनीय राहील का हेही आधीच विचारात घ्यायला हवे.
AI च्या पुढील डेटा सीमारेषेबद्दल हे काय उघड करते
AI बद्दलची सार्वजनिक चर्चा बहुतेकदा मॉडेल्स प्रसिद्ध झाल्यानंतर त्यांच्यावरच केंद्रित राहते: ते काय करू शकतात, कसे अपयशी ठरतात, ते पक्षपाती आहेत का, आणि त्यांचे नियमन कसे करावे. सोपे इंटरनेट-स्तरीय स्रोत पुरेसे नसताना प्रशिक्षण डेटा कुठून येतो, या upstream प्रश्नाकडे फारसे लक्ष दिले जात नाही.
प्रीस्कूल-कॅमेरा प्रस्ताव एक ठोस उत्तर देतो. प्रयोगशाळा आणि विद्यापीठे अधिक समृद्ध संकेत शोधत असताना, ती परस्परसंवाद आणि संदर्भांनी भरलेल्या संरचित प्रत्यक्ष-जगातील वातावरणांकडे अधिकाधिक वळू शकतात. या हालचालीमुळे अधिक चांगल्या प्रणाली तयार होऊ शकतात. पण डेटा संकलन संस्थांना जेवढ्या वेगाने स्पष्ट करता आणि न्याय्य ठरवता येईल त्यापेक्षा वेगाने विस्तारल्यास, त्यातून विरोधाचाही चक्राकार परिणाम होऊ शकतो.
मानके ठरायच्या आधीचा इशारा
या प्रकरणाचे महत्त्व केवळ विशिष्ट अभ्यास पुढे जातो की नाही यापुरते मर्यादित नाही. शैक्षणिक जागा AI पाइपलाइनमध्ये कशा ओढल्या जाऊ शकतात याबद्दल ते एक सुरुवातीचा इशारा देते. एकदा संशोधन पथकांनी अत्यंत संवेदनशील वातावरणे मॉडेल विकासासाठी खुली आहेत असे ठरवले, की अशा प्रकारच्या उपक्रमांना इतरत्र सामान्य मानण्याचा दबाव वाढेल.
पालकांना सांगितलेल्या दस्तऐवजांमध्ये रेकॉर्डिंग सत्रे सामान्य आणि कमीत कमी व्यत्यय आणणारी अशी मांडली होती. एका अर्थाने, जबाबदार निरीक्षणात्मक संशोधनाचे लक्ष्यही तेच असते. दुसऱ्या अर्थाने, अधिक कठोर तपासणी का आवश्यक आहे हे नेमके त्यातूनच दिसते. दैनंदिन जीवनात AI डेटा संकलन जितके अदृश्य होईल, तितके ते आपोआप वाढण्याआधी सीमारेषा कुठे असावी हे ठरवणे अधिक आवश्यक ठरते.
प्रीस्कूल वर्गखोल्या ही सीमारेषा काळजीपूर्वक आखण्यासाठी सर्वात स्पष्ट ठिकाणांपैकी एक आहेत. हा प्रस्ताव दाखवतो की चर्चा आधीच सुरू झाली आहे.
हा लेख 404 Media च्या अहवालावर आधारित आहे. मूळ लेख वाचा.
Originally published on 404media.co

