AI యొక్క సమాచార పొరను ఎంగేజ్‌మెంట్ మెట్రిక్స్‌తో కాదు, నిపుణులతో అంచనా వేయాలని క్యాంప్‌బెల్ బ్రౌన్ కోరుకుంటున్నారు

క్యాంప్‌బెల్ బ్రౌన్ ఆన్‌లైన్‌లో సమాచారం ఎలా వెలుగులోకి వస్తుంది, ఎలా తనిఖీ చేయబడుతుంది, ఎలా నమ్మకం పొందుతుంది అనే నిర్ణయాల్లో సంవత్సరాలు గడిపారు. ఇప్పుడు తదుపరి సమాచార bottleneck సోషల్ మీడియా ఫీడ్స్ కాదు, జనరేటివ్ AI వ్యవస్థలేనని, మరియు ఈ సమస్యను పరిశ్రమ ఇంకా తగినంత గంభీరంగా తీసుకోవడం లేదని ఆమె వాదిస్తున్నారు. ఆమె కొత్త కంపెనీ Forum AI ఒక సరళమైన ఆలోచనపై నిర్మితమైంది: పెద్ద మోడళ్లు ప్రజలు ప్రపంచాన్ని అర్థం చేసుకునే ప్రధాన మార్గంగా మారుతున్నట్లయితే, సున్నితమైన అంశాలపై వాటి సమాధానాలను రంగ-నిపుణులు రూపొందించిన ప్రమాణాలపై పరీక్షించాలి.

బ్రౌన్ ఆందోళన సిద్దాంతపరమైనది కాదు. TechCrunch‌లో చర్చించిన వ్యాఖ్యల్లో ఆమె AIని సమాచారానికి increasingly central funnel‌గా పేర్కొని, “high-stakes topics” పై పనితీరు ఇంకా బలహీనంగానే ఉందని వాదించారు. ఆ అంశాల్లో భౌగోళిక రాజకీయాలు, మానసిక ఆరోగ్యం, ఆర్థికం, మరియు నియామకం ఉన్నాయి; ఇవి అసంపూర్ణమైన లేదా వక్రీకృత సమాధానాలు నిజ జీవితంలో ప్రభావాలను కలిగించగల రంగాలు, మరియు సరైన సమాధానం చాలా సందర్భాల్లో ద్వంద్వంగా ఉండదు. ఆ స్పష్టతలేమే, మోడల్ intuitional confidence కంటే మెరుగైన evaluation tools పరిశ్రమకు అవసరమని బ్రౌన్ భావించడానికి కారణం.

Forum AI నమూనా అంటే నిపుణుల ఏకాభిప్రాయాన్ని స్థాయివారీ పరీక్షగా మార్చడం

Forum AI విధానం, గుర్తింపు పొందిన నిపుణులను తీసుకొచ్చి బెంచ్‌మార్కులను రూపకల్పన చేయడం ద్వారా మొదలవుతుంది. బ్రౌన్ చెప్పినట్లుగా, కంపెనీ ఒక రంగంలోని ప్రముఖ నిపుణులను గుర్తించి, evaluation frameworkను రూపొందించమని కోరుతుంది, ఆపై AI judges‌ను train చేసి model outputs‌ను పెద్ద స్థాయిలో స్కోర్ చేస్తుంది. భౌగోళిక రాజకీయాల పనిలో, Forum AI Niall Ferguson, Fareed Zakaria, మాజీ విదేశాంగ కార్యదర్శి Tony Blinken, మాజీ హౌస్ స్పీకర్ Kevin McCarthy, మరియు Obama administrationలో మాజీ cybersecurity అధికారి Anne Neuberger వంటి అత్యంత ప్రొఫైల్ కలిగిన పేర్లను సమీకరించింది.

ఆపరేషన్ లక్ష్యం అసమ్మతిని పూర్తిగా తొలగించడం కాదు. Forum AI తన AI judges‌ను మానవ నిపుణులతో సుమారు 90% ఏకాభిప్రాయానికి తీసుకురావాలని లక్ష్యంగా పెట్టుకుందని బ్రౌన్ చెప్పారు. ఆమె మాటల ప్రకారం, కంపెనీ ఆ స్థాయికి చేరుకుంది. దీనర్థం Forum AI మూల్యాంకనాన్ని ఒక technical productగా చూస్తోంది: సాధారణంగా ఖరీదైన, నెమ్మదిగా జరిగే expert judgmentను అనేక model outputs‌పై పునరావృతంగా చేయగల పరీక్షగా మార్చగల వ్యవస్థగా.

ఇది ముఖ్యమైనది, ఎందుకంటే అత్యంత ప్రభావశీలమైన model కంపెనీలు coding మరియు math వంటి రంగాల్లో అధికంగా కొలవబడుతుంటాయి, అక్కడ automated benchmarking సులభంగా ఉంటుంది. బ్రౌన్ విమర్శ ఏమిటంటే, రోజువారీ జీవితంలో వినియోగదారులు ఎదుర్కొనే సమస్యలు తరచుగా ఇంకెక్కడో ఉంటాయి. రాజకీయాలు, ఆరోగ్యం, డబ్బు, లేదా ఉద్యోగం గురించిన ప్రశ్నలు context, perspective, మరియు value conflicts‌తో నిండి ఉంటాయి. వాటిని గ్రేడ్ చేయడం కష్టం, కానీ అవి పక్కదారి సమస్యలుగా కొట్టివేయడం కూడా కష్టం.

తప్పు ఫలితానికి optimize అయిన social platforms‌ను చూసిన వ్యక్తి నుంచి వచ్చిన హెచ్చరిక

బ్రౌన్ వాదనకు ఆమె Facebook అనుభవం ప్రత్యేక బలం ఇస్తుంది; అక్కడ ఆమె కంపెనీకి మొదటి మరియు ఏకైక dedicated news chief‌గా పనిచేశారు. ChatGPT ప్రజా విడుదల జరిగిన కొద్దికాలానికే, Metaలో ఉన్నప్పుడే తనకు ఆ stakes స్పష్టమైనట్లు ఆమె TechCrunch‌కు చెప్పారు. ఆమె దృష్టిలో, మార్పు తక్షణమే కనిపించింది: AI tools ప్రజలు సమాచారాన్ని వెతుక్కుని పొందే ప్రధాన మార్గంగా మారబోతున్నాయి.

ఆ దృక్కోణమే ఆమె incentives‌పై దృష్టి పెట్టడానికి కారణం. accuracy foundation model కంపెనీలకు leading priorityగా కనిపించలేదని తాను ఎక్కువగా నిరాశ చెందానని బ్రౌన్ చెప్పారు. ప్రధాన labs coding మరియు math performance‌పై బాగా దృష్టి పెట్టాయని, కానీ informational accuracyని standardize చేయడం కష్టమవడం వల్ల దాన్ని వాయిదా వేయడం సులభమని ఆమె వివరించారు. ఆమె ప్రతిస్పందన ఏమిటంటే, కష్టం ఒక సమస్యను optional చేయదు.

సోషల్ మీడియాతో పోలిక నేరుగా ఉంది. తప్పు లక్ష్యానికి optimize చేసిన platformలో ఏమి జరుగుతుందో తాను ప్రత్యక్షంగా చూశానని బ్రౌన్ చెప్పారు, అలాగే వార్తలు మరియు fact-checkingలో Meta చేసిన మునుపటి ప్రయత్నాలు కీలక మార్గాల్లో విఫలమయ్యాయని వివరించారు. ఆమె తీసుకునే పాఠం moderation కష్టం అనే విషయం మాత్రమే కాదు. engagement చుట్టూ నిర్మించిన వ్యవస్థలు social value నుంచి దూరమవుతాయి, నష్టం hindsightలో స్పష్టమైనా కూడా.

ప్రస్తుత modelలు ఏమి తప్పుగా చేస్తున్నాయో Forum AI చెబుతోంది

ప్రస్తుత model ప్రవర్తనపై బ్రౌన్ విమర్శ, సంస్థ ఒకే ఒక్క hallucinationల కంటే స్థిరమైన patternలను చూస్తోంది అనిపించేంత స్పష్టంగా ఉంది. Chinaతో సంబంధం లేని కథల కోసం Gemini Chinese Communist Party websites‌ను ఉపయోగిస్తోందని ఆమె పేర్కొన్నారు, అలాగే దాదాపు అన్ని ప్రధాన modelలు left-leaning political bias చూపుతున్నాయని అన్నారు. ఆమె మరింత సూక్ష్మ వైఫల్యాలను కూడా సూచించారు: context లేకపోవడం, perspectives లేకపోవడం, మరియు opposing viewsను బలహీనంగా చూపుతూ, ఆ ప్రతినిధిత్వం బలహీనంగా ఉందని స్పష్టంగా తెలియజేయని arguments.

ఈ ఫిర్యాదులు AI evaluation అనే విస్తృత సమస్యను సూచిస్తున్నాయి. ఒక model fluently, fast, మరియు usefulగా కనిపించవచ్చు, అయినప్పటికీ సమాచారాన్ని సంకుచితమైన లేదా అస్థిరమైన lens ద్వారా ప్రదర్శించవచ్చు. output సంబంధిత framingను విడిచిపెడితే, తీవ్రమైన viewpoints పరిధిని ప్రతిబింబించడంలో విఫలమైతే, లేదా బలహీనమైన sourcingపై ఆధారపడితే, వినియోగదారులు అధికారికంగా వినిపించే కానీ నిర్మాణపరంగా తప్పుదారి పట్టించే దాన్ని పొందవచ్చు. ఇవి cosmetic flaws కాదని బ్రౌన్ వాదిస్తున్నారు. high-stakes topicsలో, ఇవి product failures.

చాలా fixes సాపేక్షంగా straightforward అని కూడా ఆమె వాదించారు. cited discussionలో పూర్తి technical blueprintను ఆమె ఇవ్వలేదు, కానీ ఈ quality gapలో కొంత భాగం priorities, testing design, మరియు feedback loops నుంచి వస్తుందని, కేవలం unsolved frontier research నుంచే కాదని ఆ వ్యాఖ్య సూచిస్తుంది.

AI పోటీలో కొత్త ముందుజట్టు

Forum AI 17 నెలల క్రితం New Yorkలో స్థాపించబడింది, ఇది వేగంగా రూపుదిద్దుకుంటున్న AI governance infrastructure మార్కెట్ మధ్యలో ఉంచుతుంది. foundation models నిర్మిస్తున్న కంపెనీలపై regulators, enterprise customers, మరియు ప్రజలు తమ వ్యవస్థలు జీవనోపాధులు, రాజకీయాలు, ఆరోగ్యం, మరియు భద్రతను ప్రభావితం చేసే రంగాల్లో బాధ్యతాయుతంగా ప్రవర్తిస్తున్నాయని చూపించాలని ఒత్తిడి పెరుగుతోంది. Forum AIని, అవి అలా చేస్తున్నాయా లేదా అన్నది కొలవగల కంపెనీగా బ్రౌన్ స్థానం కల్పిస్తున్నారు.

ఇది AI stack‌లో value ఎక్కడ చేరవచ్చో అనే దానిలో గమనించదగిన మార్పు. అతిపెద్ద labs ఇంకా model training మరియు distributionలో ఆధిపత్యం కలిగి ఉన్నప్పటికీ, auditing, benchmarking, మరియు independent evaluation చుట్టూ ఒక parallel layer ఎదుగుతోంది. AI వ్యవస్థలు చాలా వినియోగదారులు సమాచారం వినియోగించే default routeగా మారుతున్నాయన్న బ్రౌన్ భావన నిజమైతే, contested topicsపై qualityను అంచనా వేసే tools modelsకే సమానంగా strategic significance పొందవచ్చు.

ఆమె వ్యాఖ్యల్లో ఒక cultural split కూడా నిక్షిప్తమై ఉంది. Silicon Valleyలో ఒక conversation జరుగుతోందని, వినియోగదారుల మధ్య మాత్రం పూర్తిగా వేరే conversation జరుగుతోందని బ్రౌన్ చెప్పారు. దీని అర్థం builders ఇంకా ordinary users, ముఖ్యంగా parents, voters, patients, మరియు workers ఆందోళనలకు సూటిగా సరిపోని performance metrics‌తో మునిగిపోయి ఉండవచ్చు. Forum AI చెప్పేది ఏమిటంటే, ఆ ఆందోళనలను ఒక measurable standardగా మార్చవచ్చు.

“మంచి” AI సమాచారాన్ని ఎవరు నిర్వచిస్తారు అన్నదే పెద్ద ప్రశ్న

AI సమాచార వ్యవస్థల హృదయంలో ఉన్న తాత్విక సమస్యను బ్రౌన్ సంస్థ పరిష్కరించదు: experts విభేదించే అంశాల్లో balanced, accurate, లేదా sufficiently contextualized అనేది ఏమిటో ఎవరు నిర్ణయించాలి? దానికి బదులుగా Forum AI ఒక procedural answer ఇస్తుంది. గుర్తింపు పొందిన expertsను ఎంచుకోండి, explicit benchmarks నిర్మించండి, వారి judgmentకి వ్యతిరేకంగా scoring systemsను train చేయండి, మరియు trade-offs‌ను కనిపించేలా చేయండి.

ఈ మోడల్ విస్తృతంగా అంగీకరించబడుతుందా అన్నది ఇంకా తెరిచి ఉన్న ప్రశ్నే. కానీ పరిశ్రమ తప్పించుకోడం మరింత కష్టమవుతున్న ఒక బలహీనతను బ్రౌన్ గుర్తించారు. Generative AI ఇకపై అది codeను ఎంత బాగా రాస్తుంది లేదా సమీకరణాలను ఎలా పరిష్కరిస్తుంది అనే ఆధారంతో మాత్రమే అంచనా వేయబడటం లేదు. గజిబిజిగా, ప్రభావం కలిగిన రంగాల్లో అది అర్థాన్ని ఎలా మాధ్యస్థం చేస్తుందనే దానిపైనా అది అంచనా వేయబడుతోంది. ఆ layer ప్రజా జ్ఞానానికి కొత్త gatewayగా మారితే, benchmark design చుట్టూ జరిగే పోరాటం AIలో అత్యంత ముఖ్యమైన fights‌లో ఒకటిగా మారవచ్చు.

ఈ వ్యాసం TechCrunch నివేదిక ఆధారంగా రూపొందించబడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on techcrunch.com