Campbell Brown’s Forum AI उच्च-जोखिम वाले AI उत्तरों के लिए expert benchmarks पर जोर देती है

कैंपबेल ब्राउन चाहती हैं कि AI की सूचना-परत का मूल्यांकन engagement metrics से नहीं, बल्कि विशेषज्ञों से हो

कैंपबेल ब्राउन ने वर्षों तक यह तय करने के व्यवसाय में काम किया है कि जानकारी ऑनलाइन कैसे सामने लाई, जांची और भरोसेमंद बनाई जाती है। अब वह यह तर्क दे रही हैं कि अगली सूचना-रुकावट सोशल मीडिया फ़ीड नहीं, बल्कि जनरेटिव AI प्रणालियाँ हैं, और उद्योग अभी भी इस समस्या को पर्याप्त गंभीरता से नहीं ले रहा है। उनकी नई कंपनी, Forum AI, एक सरल सिद्धांत पर बनी है: अगर बड़े मॉडल एक प्रमुख माध्यम बनते जा रहे हैं जिसके जरिए लोग दुनिया को समझते हैं, तो संवेदनशील विषयों पर उनके उत्तरों की परीक्षा ऐसे मानकों के खिलाफ होनी चाहिए जिन्हें विषय-विशेषज्ञों ने तैयार किया हो।

ब्राउन की चिंता अमूर्त नहीं है। TechCrunch में चर्चा किए गए बयानों में, उन्होंने AI को जानकारी के लिए एक बढ़ते हुए केंद्रीय फ़नल के रूप में वर्णित किया और तर्क दिया कि “उच्च-जोखिम वाले विषयों” पर प्रदर्शन अभी भी कमजोर है। इन विषयों में भू-राजनीति, मानसिक स्वास्थ्य, वित्त और भर्ती शामिल हैं, जहाँ अधूरे या विकृत उत्तरों के वास्तविक दुनिया में परिणाम हो सकते हैं और जहाँ सही उत्तर अक्सर द्विआधारी नहीं होता। यही अस्पष्टता है, जिसके कारण ब्राउन मानती हैं कि उद्योग को मॉडल की सहज-बुद्धि पर अधिक भरोसा करने के बजाय बेहतर मूल्यांकन उपकरणों की ज़रूरत है।

Forum AI का मॉडल विशेषज्ञ-सहमति को स्केलेबल परीक्षण में बदलता है

Forum AI का तरीका मान्यता प्राप्त विशेषज्ञों को बेंचमार्क तैयार करने के लिए भर्ती करने से शुरू होता है। ब्राउन ने कहा कि कंपनी किसी क्षेत्र के प्रमुख विशेषज्ञों की पहचान करती है, उनसे मूल्यांकन ढांचा तैयार करवाती है, और फिर AI जजों को मॉडल आउटपुट को बड़े पैमाने पर स्कोर करने के लिए प्रशिक्षित करती है। अपने भू-राजनीति संबंधी काम में, Forum AI ने एक प्रभावशाली उच्च-प्रोफ़ाइल सूची जुटाई है जिसमें Niall Ferguson, Fareed Zakaria, पूर्व विदेश मंत्री Tony Blinken, पूर्व हाउस स्पीकर Kevin McCarthy, और Anne Neuberger, जो ओबामा प्रशासन में साइबरसुरक्षा अधिकारी रह चुकी हैं, शामिल हैं।

संचालनात्मक लक्ष्य असहमति को पूरी तरह खत्म करना नहीं है। ब्राउन ने कहा कि Forum AI का उद्देश्य अपने AI जजों को मानव विशेषज्ञों के साथ लगभग 90% सहमति तक पहुँचाना है। उनके अनुसार, कंपनी इस सीमा तक पहुँची है। इसका अर्थ यह है कि Forum AI मूल्यांकन को स्वयं एक तकनीकी उत्पाद के रूप में देखती है: एक ऐसी प्रणाली जो विशेषज्ञ निर्णय को, जो सामान्यतः महँगा और धीमा होता है, कई मॉडल आउटपुट्स के लिए दोहराए जा सकने वाले परीक्षण में बदल सकती है।

यह महत्वपूर्ण है क्योंकि सबसे प्रभावशाली मॉडल कंपनियों का मापन coding और math जैसे क्षेत्रों में भारी रूप से होता है, जहाँ स्वचालित benchmarking आसान है। ब्राउन की आलोचना यह है कि उपयोगकर्ता अपने दैनिक जीवन में जिन समस्याओं का सामना करते हैं, वे अक्सर कहीं और होती हैं। राजनीति, स्वास्थ्य, पैसा या रोजगार से जुड़े प्रश्न संदर्भ, दृष्टिकोण और मूल्य-संघर्षों से भरे होते हैं। उन्हें ग्रेड करना कठिन है, लेकिन उन्हें गौण मानकर खारिज करना और भी कठिन है।

Two drones, one yellow, one grey, almost identical otherwise.

FCC कथित DJI फ्रंट कंपनियों पर रेट्रोएक्टिव प्रतिबंध की ओर बढ़ रहा है

अमेरिकी संचार नियामक उन कंपनियों के खिलाफ एक नए प्रवर्तन उपकरण का उपयोग करने की तैयारी कर रहा है, जिनके बारे में उसका कहना है कि उन्होंने DJI उत्पादों को अमेरिकी बाजार में बनाए रखने के लिए उन्हें छिपाया था.

Read article

यह चेतावनी उस व्यक्ति से आती है जिसने सोशल प्लेटफ़ॉर्म को गलत परिणाम के लिए optimize होते देखा

ब्राउन के तर्क को अतिरिक्त महत्व उनके Facebook के अनुभव से मिलता है, जहाँ उन्होंने कंपनी की पहली और एकमात्र समर्पित news chief के रूप में काम किया। उन्होंने TechCrunch को बताया कि ChatGPT के सार्वजनिक रूप से आने के तुरंत बाद, जब वह अभी भी Meta में थीं, उन्हें दांव समझ में आ गए थे। उनके नजरिए में, बदलाव तुरंत था: AI उपकरण उस प्रमुख रास्ते के रूप में उभरने वाले थे जिसके जरिए लोग जानकारी खोजते और प्राप्त करते हैं।

यही दृष्टिकोण यह भी बताता है कि वह incentives पर क्यों ध्यान केंद्रित कर रही हैं। ब्राउन ने कहा कि उन्हें सबसे अधिक यह बात खलती थी कि accuracy foundation model कंपनियों की प्रमुख प्राथमिकता नहीं दिख रही थी। उनके अनुसार, बड़े labs coding और math performance पर अत्यधिक ध्यान दे रहे हैं, जबकि informational accuracy को मानकीकृत करना कठिन है और इसलिए उसे टालना आसान है। उनका उत्तर है कि कठिनाई किसी समस्या को वैकल्पिक नहीं बना देती।

सोशल मीडिया से तुलना सीधी है। ब्राउन ने कहा कि उन्होंने खुद देखा कि जब कोई प्लेटफ़ॉर्म गलत लक्ष्य के लिए optimize करता है तो क्या होता है, और उन्होंने Meta के समाचार और fact-checking के पहले के प्रयासों को महत्वपूर्ण तरीकों से विफल बताया। उनसे निकला सबक केवल यह नहीं है कि moderation कठिन है। यह है कि engagement पर आधारित प्रणालियाँ सामाजिक मूल्य से दूर खिसक सकती हैं, यहाँ तक कि जब नुकसान hindsight में साफ़ दिखाई देने लगे।

Forum AI के अनुसार मौजूदा मॉडल क्या गलत कर रहे हैं

वर्तमान model behavior पर ब्राउन की आलोचना इतनी विशिष्ट है कि लगता है कंपनी isolated hallucinations के बजाय लगातार patterns देखती है। उन्होंने कहा कि Gemini ने चीन से असंबंधित कहानियों के लिए Chinese Communist Party की वेबसाइटों से सामग्री ली, और यह भी कहा कि लगभग सभी प्रमुख मॉडल left-leaning political bias दिखाते हैं। उन्होंने अधिक सूक्ष्म विफलताओं की ओर भी इशारा किया: संदर्भ का अभाव, दृष्टिकोणों का अभाव, और ऐसे तर्क जो विरोधी विचारों का straw-man बनाते हैं, बिना यह स्पष्ट किए कि उस प्रस्तुति की कमजोरी क्या है।

ये शिकायतें AI evaluation की एक व्यापक समस्या को उजागर करती हैं। कोई मॉडल fluent, तेज़ और उपयोगी दिख सकता है, जबकि वह जानकारी को एक संकीर्ण या अस्थिर दृष्टिकोण से प्रस्तुत कर रहा हो। अगर आउटपुट प्रासंगिक framing छोड़ देता है, गंभीर दृष्टिकोणों की पूरी रेंज को नहीं दर्शाता, या कमजोर sourcing पर निर्भर करता है, तो उपयोगकर्ताओं को ऐसा कुछ मिल सकता है जो authoritative लगता है लेकिन संरचनात्मक रूप से भ्रामक होता है। ब्राउन का दावा है कि ये केवल cosmetic flaws नहीं हैं। उच्च-जोखिम वाले विषयों पर, ये product failures हैं।

उन्होंने यह भी तर्क दिया कि कई सुधार अपेक्षाकृत सीधे हैं। हालाँकि उन्होंने उद्धृत चर्चा में कोई पूर्ण तकनीकी blueprint नहीं दिया, उनका यह कथन संकेत देता है कि quality gap का कुछ हिस्सा priorities, testing design, और feedback loops से आता है, न कि केवल अनसुलझी frontier research से।

$A fractured image of a person speaking into a microphone.$

Sony ने 30,000 गानों पर नए मुकदमे के साथ Udio के खिलाफ लड़ाई को और बढ़ाया

Sony Music ने Udio पर 30,000 से अधिक गानों के उल्लंघन का आरोप लगाते हुए एक नया मुकदमा दायर किया है, जिससे जेनेरेटिव AI संगीत को लेकर सबसे महत्वपूर्ण कॉपीराइट लड़ाइयों में से एक और तेज हो गई है।

Read article

AI प्रतिस्पर्धा में एक नया मोर्चा

Forum AI की स्थापना 17 महीने पहले न्यूयॉर्क में हुई थी, जिससे यह AI governance infrastructure के तेज़ी से बनते बाजार के बीच में आता है। Foundation models बनाने वाली कंपनियाँ regulators, enterprise customers, और जनता के दबाव में हैं कि वे दिखाएँ कि उनकी प्रणालियाँ उन क्षेत्रों में जिम्मेदारी से व्यवहार करती हैं जो आजीविका, राजनीति, स्वास्थ्य और सुरक्षा को प्रभावित करते हैं। ब्राउन Forum AI को ऐसी कंपनी के रूप में स्थापित कर रही हैं जो यह माप सके कि वे ऐसा करती हैं या नहीं।

यह AI stack में मूल्य किस स्तर पर जमा हो सकता है, उसमें एक उल्लेखनीय बदलाव है। सबसे बड़े labs अभी भी model training और distribution पर हावी हैं, लेकिन auditing, benchmarking, और independent evaluation के इर्द-गिर्द एक समानांतर परत उभर रही है। अगर ब्राउन सही हैं कि AI प्रणालियाँ कई उपयोगकर्ताओं के लिए जानकारी उपभोग करने का डिफ़ॉल्ट रास्ता बनती जा रही हैं, तो contested topics पर गुणवत्ता का आकलन करने वाले tools स्वयं models जितने ही रणनीतिक रूप से महत्वपूर्ण हो सकते हैं।

उनकी टिप्पणियों में एक सांस्कृतिक विभाजन भी निहित है। ब्राउन ने कहा कि Silicon Valley में एक बातचीत चल रही है, जबकि उपभोक्ताओं के बीच बिल्कुल अलग बातचीत हो रही है। इसका संकेत यह है कि builders अभी भी उन performance metrics पर केंद्रित हो सकते हैं जो सामान्य उपयोगकर्ताओं, खासकर parents, voters, patients, और workers, की चिंताओं से सीधे मेल नहीं खाते। Forum AI का प्रस्ताव है कि उन चिंताओं को एक मापनीय मानक में बदला जा सकता है।

बड़ा प्रश्न यह है कि “अच्छी” AI जानकारी को परिभाषित कौन करेगा

ब्राउन की कंपनी AI information systems के केंद्र में मौजूद दार्शनिक समस्या का समाधान नहीं करती: जहाँ विशेषज्ञों में असहमति हो, उन विषयों पर balanced, accurate, या पर्याप्त contextualized क्या माना जाएगा, यह कौन तय करे? Forum AI इसके बजाय एक procedural उत्तर देती है। मान्यता प्राप्त विशेषज्ञों का चयन करें, स्पष्ट बेंचमार्क बनाएं, उनकी judgment के मुकाबले scoring systems को प्रशिक्षित करें, और tradeoffs को दृश्य बनाएं।

क्या यह मॉडल व्यापक रूप से स्वीकार किया जाएगा, यह अभी भी खुला प्रश्न है। लेकिन ब्राउन ने एक ऐसी कमजोरी पहचानी है जिससे उद्योग के लिए बचना increasingly कठिन होता जा रहा है। Generative AI का मूल्यांकन अब केवल इस बात से नहीं हो रहा कि वह code कितनी अच्छी तरह लिखता है या equations कैसे हल करता है। उसका मूल्यांकन इस बात से भी हो रहा है कि वह उलझे हुए, परिणाम-निर्धारक क्षेत्रों में समझ को कैसे मध्यस्थता करता है। अगर वह परत सार्वजनिक ज्ञान का नया द्वार बन जाती है, तो benchmark design को लेकर संघर्ष AI की सबसे महत्वपूर्ण लड़ाइयों में से एक साबित हो सकता है।

यह लेख TechCrunch की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on techcrunch.com