कॅम्पबेल ब्राउनचे Forum AI उच्च-दांव AI उत्तरांसाठी तज्ज्ञ बेंचमार्क पुढे रेटते

कॅम्पबेल ब्राउन यांना AI चा माहिती स्तर engagement metrics ने नव्हे, तज्ज्ञांनीच न्यायावा असे वाटते

कॅम्पबेल ब्राउन यांनी ऑनलाइन माहिती कशी समोर येते, तपासली जाते, आणि विश्वासार्ह ठरते याचे निर्णय घेण्यात वर्षे घालवली आहेत. आता त्या असा युक्तिवाद करतात की पुढचा माहिती-अडथळा सोशल मीडियाचे फीड्स नाहीत, तर जनरेटिव्ह AI प्रणाली आहेत, आणि उद्योग अजूनही या समस्येला पुरेशा गांभीर्याने घेत नाही. त्यांची नवीन कंपनी Forum AI एका साध्या तत्त्वावर उभी आहे: जर मोठे मॉडेल लोक जग समजून घेण्यासाठीचा प्राथमिक मार्ग बनत असतील, तर संवेदनशील विषयांवरील त्यांची उत्तरे domain experts यांनी डिझाइन केलेल्या मानकांशी तपासली पाहिजेत.

ब्राउनची चिंता काल्पनिक नाही. TechCrunch मध्ये चर्चिलेल्या टिप्पण्यांमध्ये त्यांनी AI ला माहितीचा increasingly central funnel म्हटले आणि “high-stakes topics” वरील कामगिरी अजूनही कमकुवत असल्याचा युक्तिवाद केला. त्या विषयांमध्ये geopolitics, mental health, finance, आणि hiring यांचा समावेश आहे, जिथे अपूर्ण किंवा विकृत प्रतिसादांचे प्रत्यक्ष परिणाम होऊ शकतात आणि जिथे बरोबर उत्तर अनेकदा binary नसते. हीच अस्पष्टता कारण आहे की ब्राउन यांना वाटते उद्योगाला model intuition पेक्षा चांगल्या evaluation tools ची गरज आहे.

Forum AI चे मॉडेल म्हणजे expert consensus ला scalable testing मध्ये रूपांतरित करणे

Forum AI ची पद्धत मान्यताप्राप्त तज्ज्ञांची भरती करून benchmarks डिझाइन करण्यापासून सुरू होते. ब्राउन म्हणाल्या की कंपनी एखाद्या क्षेत्रातील आघाडीच्या तज्ज्ञांची ओळख पटवते, त्यांना evaluation framework तयार करण्यास सांगते, आणि मग AI judges ला model outputs मोठ्या प्रमाणावर स्कोअर करण्यासाठी प्रशिक्षित करते. geopolitics च्या कामात Forum AI ने एक उल्लेखनीय उच्च-प्रोफाइल roster एकत्र केला आहे, ज्यात Niall Ferguson, Fareed Zakaria, माजी Secretary of State Tony Blinken, माजी House Speaker Kevin McCarthy, आणि Obama administration मधील माजी cybersecurity अधिकारी Anne Neuberger यांचा समावेश आहे.

कार्यात्मक उद्दिष्ट मतभेद पूर्णपणे नाहीसे करणे नाही. ब्राउन म्हणाल्या की Forum AI चे उद्दिष्ट त्यांचे AI judges मानवी तज्ज्ञांशी सुमारे 90% consensus पर्यंत नेणे आहे. त्यांच्या मते, कंपनी त्या टप्प्यापर्यंत पोहोचू शकली आहे. याचा अर्थ Forum AI मूल्यांकनालाच एक technical product मानते: अशी प्रणाली जी तज्ज्ञांचा निर्णय, जो सामान्यतः महाग आणि संथ असतो, अनेक model outputs वर पुन्हा वापरता येणाऱ्या testing मध्ये रूपांतरित करू शकते.

हे महत्त्वाचे आहे कारण सर्वात प्रभावी model कंपन्या coding आणि math सारख्या क्षेत्रांमध्ये मोठ्या प्रमाणावर मोजल्या जातात, जिथे automated benchmarking सोपे असते. ब्राउन यांची टीका अशी आहे की दैनंदिन आयुष्यात वापरकर्त्यांना येणाऱ्या समस्या बहुतेकदा इतरत्र असतात. राजकारण, आरोग्य, पैसा, किंवा नोकरीबद्दलचे प्रश्न context, perspective, आणि value conflicts ने भरलेले असतात. त्यांचे ग्रेडिंग कठीण असते, पण त्यांना गौण मानून फेकून देणेही कठीण असले पाहिजे.

Two drones, one yellow, one grey, almost identical otherwise.

संशयित DJI फ्रंट कंपन्यांवर मागील तारखेपासून बंदी घालण्याकडे FCC

DJI उत्पादने अमेरिकन बाजारात ठेवण्यासाठी त्यांना लपवले, असे ज्या कंपन्यांबद्दल ते म्हणते, त्यांच्याविरुद्ध नवीन अंमलबजावणी साधन वापरण्याची अमेरिकेची संचार नियामक संस्था तयारी करत आहे.

Read article

चुकीच्या परिणामासाठी optimize झालेल्या social platforms पाहिलेल्या व्यक्तीचा इशारा

ब्राउन यांच्या युक्तिवादाला त्यांच्या Facebook अनुभवामुळे अतिरिक्त वजन मिळते, जिथे त्या कंपनीच्या पहिल्या आणि एकमेव dedicated news chief होत्या. त्यांनी TechCrunch ला सांगितले की Meta मध्ये असतानाच ChatGPT च्या public release नंतर लवकरच त्यांना stakes जाणवले. त्यांच्या मते, बदल तात्काळ होता: AI tools लोक माहिती शोधण्याचा आणि मिळवण्याचा प्रमुख मार्ग बनणार होते.

तीच दृष्टीकोन स्पष्ट करते की त्या incentives वर का लक्ष केंद्रित करतात. accuracy फाउंडेशन model कंपन्यांसाठी leading priority वाटत नव्हती, यामुळेच आपल्याला सर्वाधिक निराशा झाली, असे ब्राउन म्हणाल्या. त्यांच्या मते, मोठ्या labs coding आणि math performance वर खूप लक्ष देतात, तर informational accuracy standardize करणे कठीण असल्याने ते पुढे ढकलणे सोपे असते. त्यांचे उत्तर असे की, कठीण असल्याने समस्या ऐच्छिक ठरत नाही.

सोशल मीडियाशी तुलना थेट आहे. चुकीच्या goal साठी optimize झालेल्या platform मध्ये काय होते हे आपण प्रत्यक्ष पाहिले, असे ब्राउन म्हणाल्या, आणि news आणि fact-checking मधील Meta चे आधीचे प्रयत्न महत्त्वाच्या प्रकारे अपयशी ठरल्याचे त्यांनी वर्णन केले. त्यातून त्या घेत असलेला धडा केवळ moderation कठीण आहे असा नाही. engagement वर आधारित system सामाजिक मूल्यापासून दूर जाऊ शकतात, नुकसान hindsight मध्ये स्पष्ट झाले तरीही.

सध्याचे model काय चुकवत आहेत, असे Forum AI म्हणते

सध्याच्या model वर्तणुकीवरील ब्राउनची टीका इतकी विशिष्ट आहे की कंपनी एकल hallucinations पेक्षा सततच्या pattern पाहत असल्याचे सूचित होते. त्यांनी Gemini चा चीनशी असंबंधित कथांसाठी Chinese Communist Party websites वरून संदर्भ घेण्याचा उल्लेख केला आणि जवळपास सर्व प्रमुख model मध्ये left-leaning राजकीय bias दिसतो असे सांगितले. त्यांनी अधिक सूक्ष्म अपयशांकडेही लक्ष वेधले: context नसणे, perspectives नसणे, आणि विरोधी मतांना स्पष्टपणे दुर्बल दाखवण्याशिवाय त्यांचा straw-man करणारे युक्तिवाद.

त्या तक्रारी AI evaluation मधील व्यापक समस्येकडे निर्देश करतात. एखादे model fluent, fast, आणि useful वाटू शकते, तरीही माहिती संकुचित किंवा अस्थिर lens मधून सादर करू शकते. output संबंधित framing वगळत असेल, गंभीर viewpoints ची व्याप्ती दाखवत नसेल, किंवा कमकुवत sourcing वर अवलंबून असेल, तर वापरकर्त्यांना authoritative वाटणारे पण संरचनात्मकदृष्ट्या दिशाभूल करणारे काही मिळू शकते. हे cosmetic flaws नाहीत, असा ब्राउन यांचा दावा आहे. उच्च-दांवाच्या विषयांवर, या product failures आहेत.

त्या असेही म्हणाल्या की अनेक fixes तुलनेने सरळ आहेत. उद्धृत चर्चेत त्यांनी संपूर्ण technical blueprint दिले नाही, पण टिप्पणी सूचित करते की quality gap चा काही भाग priorities, testing design, आणि feedback loops मधून येतो, केवळ unsolved frontier research मधून नाही.

$A fractured image of a person speaking into a microphone.$

30,000 गाण्यांवरील नव्या खटल्यामुळे Sony ने Udioविरुद्धची लढाई तीव्र केली

30,000 हून अधिक गाण्यांचे उल्लंघन केल्याचा आरोप करत Sony Music ने Udioविरुद्ध नवीन खटला दाखल केला आहे, ज्यामुळे जनरेटिव्ह AI संगीताभोवती सुरू असलेल्या सर्वात महत्त्वाच्या कॉपीराइट संघर्षांपैकी एक अधिक तीव्र झाला आहे.

Read article

AI स्पर्धेतील नवा मोर्चा

Forum AI ची स्थापना 17 महिन्यांपूर्वी New York मध्ये झाली, ज्यामुळे ते AI governance infrastructure साठी वेगाने तयार होत असलेल्या बाजाराच्या मध्यभागी येते. foundation models तयार करणाऱ्या कंपन्यांवर regulators, enterprise customers, आणि लोकांचा दबाव आहे की त्यांनी दाखवावे की त्यांची प्रणाली उपजीविका, राजकारण, आरोग्य, आणि सुरक्षेला प्रभावित करणाऱ्या क्षेत्रांमध्ये जबाबदारीने वागते. ब्राउन Forum AI ला अशी कंपनी म्हणून मांडत आहेत जी ते तसे करतात की नाही हे मोजू शकते.

हे AI stack मध्ये मूल्य कुठे जमा होऊ शकते यातील एक लक्षवेधी बदल आहे. सर्वात मोठ्या labs अजूनही model training आणि distribution वर वर्चस्व राखतात, पण auditing, benchmarking, आणि independent evaluation भोवती एक parallel layer तयार होत आहे. जर ब्राउन बरोबर असतील की AI systems अनेक वापरकर्त्यांसाठी माहिती वापरण्याचा default route बनत आहेत, तर contested विषयांवरील गुणवत्ता मोजणारी साधने models इतकीच strategically महत्त्वाची ठरू शकतात.

त्यांच्या टिप्पण्यांमध्ये एक सांस्कृतिक दरीही दडलेली आहे. ब्राउन म्हणाल्या की Silicon Valley मध्ये एक conversation चालू आहे, तर consumers मध्ये अगदी वेगळी conversation सुरू आहे. याचा अर्थ असा की builders अजूनही अशा performance metrics मध्ये अडकले असू शकतात जे ordinary users, विशेषतः parents, voters, patients, आणि workers यांच्या चिंता यांच्याशी थेट जुळत नाहीत. Forum AI चे म्हणणे आहे की त्या चिंता एक measurable standard मध्ये रूपांतरित करता येतात.

“चांगली” AI माहिती कोण ठरवतो हा मोठा प्रश्न आहे

ब्राउनची कंपनी AI information systems च्या केंद्रातील तात्त्विक समस्या सोडवत नाही: जिथे तज्ज्ञ असहमत असतात, तिथे balanced, accurate, किंवा पुरेशा context असलेले काय मानायचे हे कोण ठरवणार? त्याऐवजी Forum AI एक procedural उत्तर देते. मान्यताप्राप्त तज्ज्ञ निवडा, स्पष्ट benchmarks तयार करा, त्यांच्या निर्णयावर आधारित scoring systems प्रशिक्षित करा, आणि trade-offs दिसण्याजोगे करा.

हे मॉडेल व्यापकपणे स्वीकारले जाईल का, हा प्रश्न अजूनही उघडाच आहे. पण ब्राउन यांनी अशी एक कमजोरी ओळखली आहे जी उद्योगासाठी टाळणे दिवसेंदिवस कठीण होत आहे. Generative AI आता केवळ ते code किती चांगले लिहिते किंवा equations किती चांगले सोडवते यावरून मोजले जात नाही. ते जटिल, परिणामकारक क्षेत्रांमध्ये ते समज कशी मध्यस्थी करते यावरूनही मोजले जात आहे. जर तो स्तर सार्वजनिक ज्ञानाचा नवा gateway बनला, तर benchmark design भोवतीचा संघर्ष AI मधील सर्वात महत्त्वाच्या लढायांपैकी एक ठरू शकतो.

हा लेख TechCrunch च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

Originally published on techcrunch.com