క్యాంప్‌బెల్ బ్రౌన్ యొక్క Forum AI, అధిక-ప్రమాద AI సమాధానాల కోసం నిపుణుల బెంచ్‌మార్కులను ముందుకు తీసుకెళ్తోంది

AI యొక్క సమాచార పొరను ఎంగేజ్‌మెంట్ మెట్రిక్స్‌తో కాదు, నిపుణులతో అంచనా వేయాలని క్యాంప్‌బెల్ బ్రౌన్ కోరుకుంటున్నారు

క్యాంప్‌బెల్ బ్రౌన్ ఆన్‌లైన్‌లో సమాచారం ఎలా వెలుగులోకి వస్తుంది, ఎలా తనిఖీ చేయబడుతుంది, ఎలా నమ్మకం పొందుతుంది అనే నిర్ణయాల్లో సంవత్సరాలు గడిపారు. ఇప్పుడు తదుపరి సమాచార bottleneck సోషల్ మీడియా ఫీడ్స్ కాదు, జనరేటివ్ AI వ్యవస్థలేనని, మరియు ఈ సమస్యను పరిశ్రమ ఇంకా తగినంత గంభీరంగా తీసుకోవడం లేదని ఆమె వాదిస్తున్నారు. ఆమె కొత్త కంపెనీ Forum AI ఒక సరళమైన ఆలోచనపై నిర్మితమైంది: పెద్ద మోడళ్లు ప్రజలు ప్రపంచాన్ని అర్థం చేసుకునే ప్రధాన మార్గంగా మారుతున్నట్లయితే, సున్నితమైన అంశాలపై వాటి సమాధానాలను రంగ-నిపుణులు రూపొందించిన ప్రమాణాలపై పరీక్షించాలి.

బ్రౌన్ ఆందోళన సిద్దాంతపరమైనది కాదు. TechCrunch‌లో చర్చించిన వ్యాఖ్యల్లో ఆమె AIని సమాచారానికి increasingly central funnel‌గా పేర్కొని, “high-stakes topics” పై పనితీరు ఇంకా బలహీనంగానే ఉందని వాదించారు. ఆ అంశాల్లో భౌగోళిక రాజకీయాలు, మానసిక ఆరోగ్యం, ఆర్థికం, మరియు నియామకం ఉన్నాయి; ఇవి అసంపూర్ణమైన లేదా వక్రీకృత సమాధానాలు నిజ జీవితంలో ప్రభావాలను కలిగించగల రంగాలు, మరియు సరైన సమాధానం చాలా సందర్భాల్లో ద్వంద్వంగా ఉండదు. ఆ స్పష్టతలేమే, మోడల్ intuitional confidence కంటే మెరుగైన evaluation tools పరిశ్రమకు అవసరమని బ్రౌన్ భావించడానికి కారణం.

Forum AI నమూనా అంటే నిపుణుల ఏకాభిప్రాయాన్ని స్థాయివారీ పరీక్షగా మార్చడం

Forum AI విధానం, గుర్తింపు పొందిన నిపుణులను తీసుకొచ్చి బెంచ్‌మార్కులను రూపకల్పన చేయడం ద్వారా మొదలవుతుంది. బ్రౌన్ చెప్పినట్లుగా, కంపెనీ ఒక రంగంలోని ప్రముఖ నిపుణులను గుర్తించి, evaluation frameworkను రూపొందించమని కోరుతుంది, ఆపై AI judges‌ను train చేసి model outputs‌ను పెద్ద స్థాయిలో స్కోర్ చేస్తుంది. భౌగోళిక రాజకీయాల పనిలో, Forum AI Niall Ferguson, Fareed Zakaria, మాజీ విదేశాంగ కార్యదర్శి Tony Blinken, మాజీ హౌస్ స్పీకర్ Kevin McCarthy, మరియు Obama administrationలో మాజీ cybersecurity అధికారి Anne Neuberger వంటి అత్యంత ప్రొఫైల్ కలిగిన పేర్లను సమీకరించింది.

ఆపరేషన్ లక్ష్యం అసమ్మతిని పూర్తిగా తొలగించడం కాదు. Forum AI తన AI judges‌ను మానవ నిపుణులతో సుమారు 90% ఏకాభిప్రాయానికి తీసుకురావాలని లక్ష్యంగా పెట్టుకుందని బ్రౌన్ చెప్పారు. ఆమె మాటల ప్రకారం, కంపెనీ ఆ స్థాయికి చేరుకుంది. దీనర్థం Forum AI మూల్యాంకనాన్ని ఒక technical productగా చూస్తోంది: సాధారణంగా ఖరీదైన, నెమ్మదిగా జరిగే expert judgmentను అనేక model outputs‌పై పునరావృతంగా చేయగల పరీక్షగా మార్చగల వ్యవస్థగా.

ఇది ముఖ్యమైనది, ఎందుకంటే అత్యంత ప్రభావశీలమైన model కంపెనీలు coding మరియు math వంటి రంగాల్లో అధికంగా కొలవబడుతుంటాయి, అక్కడ automated benchmarking సులభంగా ఉంటుంది. బ్రౌన్ విమర్శ ఏమిటంటే, రోజువారీ జీవితంలో వినియోగదారులు ఎదుర్కొనే సమస్యలు తరచుగా ఇంకెక్కడో ఉంటాయి. రాజకీయాలు, ఆరోగ్యం, డబ్బు, లేదా ఉద్యోగం గురించిన ప్రశ్నలు context, perspective, మరియు value conflicts‌తో నిండి ఉంటాయి. వాటిని గ్రేడ్ చేయడం కష్టం, కానీ అవి పక్కదారి సమస్యలుగా కొట్టివేయడం కూడా కష్టం.

Two drones, one yellow, one grey, almost identical otherwise.

సందేహాస్పద DJI ఫ్రంట్ కంపెనీలపై వెనుకడుగు తల్లినిషేధం దిశగా FCC

DJI ఉత్పత్తులను అమెరికా మార్కెట్లో ఉంచడానికి వాటిని దాచిపెట్టాయని అది చెప్పే కంపెనీలపై కొత్త అమలు సాధనాన్ని ఉపయోగించేందుకు అమెరికా కమ్యూనికేషన్స్ నియంత్రణ సంస్థ సిద్ధమవుతోంది.

Read article

తప్పు ఫలితానికి optimize అయిన social platforms‌ను చూసిన వ్యక్తి నుంచి వచ్చిన హెచ్చరిక

బ్రౌన్ వాదనకు ఆమె Facebook అనుభవం ప్రత్యేక బలం ఇస్తుంది; అక్కడ ఆమె కంపెనీకి మొదటి మరియు ఏకైక dedicated news chief‌గా పనిచేశారు. ChatGPT ప్రజా విడుదల జరిగిన కొద్దికాలానికే, Metaలో ఉన్నప్పుడే తనకు ఆ stakes స్పష్టమైనట్లు ఆమె TechCrunch‌కు చెప్పారు. ఆమె దృష్టిలో, మార్పు తక్షణమే కనిపించింది: AI tools ప్రజలు సమాచారాన్ని వెతుక్కుని పొందే ప్రధాన మార్గంగా మారబోతున్నాయి.

ఆ దృక్కోణమే ఆమె incentives‌పై దృష్టి పెట్టడానికి కారణం. accuracy foundation model కంపెనీలకు leading priorityగా కనిపించలేదని తాను ఎక్కువగా నిరాశ చెందానని బ్రౌన్ చెప్పారు. ప్రధాన labs coding మరియు math performance‌పై బాగా దృష్టి పెట్టాయని, కానీ informational accuracyని standardize చేయడం కష్టమవడం వల్ల దాన్ని వాయిదా వేయడం సులభమని ఆమె వివరించారు. ఆమె ప్రతిస్పందన ఏమిటంటే, కష్టం ఒక సమస్యను optional చేయదు.

సోషల్ మీడియాతో పోలిక నేరుగా ఉంది. తప్పు లక్ష్యానికి optimize చేసిన platformలో ఏమి జరుగుతుందో తాను ప్రత్యక్షంగా చూశానని బ్రౌన్ చెప్పారు, అలాగే వార్తలు మరియు fact-checkingలో Meta చేసిన మునుపటి ప్రయత్నాలు కీలక మార్గాల్లో విఫలమయ్యాయని వివరించారు. ఆమె తీసుకునే పాఠం moderation కష్టం అనే విషయం మాత్రమే కాదు. engagement చుట్టూ నిర్మించిన వ్యవస్థలు social value నుంచి దూరమవుతాయి, నష్టం hindsightలో స్పష్టమైనా కూడా.

ప్రస్తుత modelలు ఏమి తప్పుగా చేస్తున్నాయో Forum AI చెబుతోంది

ప్రస్తుత model ప్రవర్తనపై బ్రౌన్ విమర్శ, సంస్థ ఒకే ఒక్క hallucinationల కంటే స్థిరమైన patternలను చూస్తోంది అనిపించేంత స్పష్టంగా ఉంది. Chinaతో సంబంధం లేని కథల కోసం Gemini Chinese Communist Party websites‌ను ఉపయోగిస్తోందని ఆమె పేర్కొన్నారు, అలాగే దాదాపు అన్ని ప్రధాన modelలు left-leaning political bias చూపుతున్నాయని అన్నారు. ఆమె మరింత సూక్ష్మ వైఫల్యాలను కూడా సూచించారు: context లేకపోవడం, perspectives లేకపోవడం, మరియు opposing viewsను బలహీనంగా చూపుతూ, ఆ ప్రతినిధిత్వం బలహీనంగా ఉందని స్పష్టంగా తెలియజేయని arguments.

ఈ ఫిర్యాదులు AI evaluation అనే విస్తృత సమస్యను సూచిస్తున్నాయి. ఒక model fluently, fast, మరియు usefulగా కనిపించవచ్చు, అయినప్పటికీ సమాచారాన్ని సంకుచితమైన లేదా అస్థిరమైన lens ద్వారా ప్రదర్శించవచ్చు. output సంబంధిత framingను విడిచిపెడితే, తీవ్రమైన viewpoints పరిధిని ప్రతిబింబించడంలో విఫలమైతే, లేదా బలహీనమైన sourcingపై ఆధారపడితే, వినియోగదారులు అధికారికంగా వినిపించే కానీ నిర్మాణపరంగా తప్పుదారి పట్టించే దాన్ని పొందవచ్చు. ఇవి cosmetic flaws కాదని బ్రౌన్ వాదిస్తున్నారు. high-stakes topicsలో, ఇవి product failures.

చాలా fixes సాపేక్షంగా straightforward అని కూడా ఆమె వాదించారు. cited discussionలో పూర్తి technical blueprintను ఆమె ఇవ్వలేదు, కానీ ఈ quality gapలో కొంత భాగం priorities, testing design, మరియు feedback loops నుంచి వస్తుందని, కేవలం unsolved frontier research నుంచే కాదని ఆ వ్యాఖ్య సూచిస్తుంది.

$A fractured image of a person speaking into a microphone.$

30,000 పాటలపై కొత్త దావాతో Udioపై Sony పోరాటాన్ని విస్తరించింది

30,000కు పైగా పాటలను ఉల్లంఘించిందని ఆరోపిస్తూ Sony Music Udioపై కొత్త దావా దాఖలు చేసింది, జనరేటివ్ AI సంగీతానికి సంబంధించిన అత్యంత కీలక కాపీరైట్ పోరాటాల్లో ఒకటిని మరింత వేడెక్కించింది.

Read article

AI పోటీలో కొత్త ముందుజట్టు

Forum AI 17 నెలల క్రితం New Yorkలో స్థాపించబడింది, ఇది వేగంగా రూపుదిద్దుకుంటున్న AI governance infrastructure మార్కెట్ మధ్యలో ఉంచుతుంది. foundation models నిర్మిస్తున్న కంపెనీలపై regulators, enterprise customers, మరియు ప్రజలు తమ వ్యవస్థలు జీవనోపాధులు, రాజకీయాలు, ఆరోగ్యం, మరియు భద్రతను ప్రభావితం చేసే రంగాల్లో బాధ్యతాయుతంగా ప్రవర్తిస్తున్నాయని చూపించాలని ఒత్తిడి పెరుగుతోంది. Forum AIని, అవి అలా చేస్తున్నాయా లేదా అన్నది కొలవగల కంపెనీగా బ్రౌన్ స్థానం కల్పిస్తున్నారు.

ఇది AI stack‌లో value ఎక్కడ చేరవచ్చో అనే దానిలో గమనించదగిన మార్పు. అతిపెద్ద labs ఇంకా model training మరియు distributionలో ఆధిపత్యం కలిగి ఉన్నప్పటికీ, auditing, benchmarking, మరియు independent evaluation చుట్టూ ఒక parallel layer ఎదుగుతోంది. AI వ్యవస్థలు చాలా వినియోగదారులు సమాచారం వినియోగించే default routeగా మారుతున్నాయన్న బ్రౌన్ భావన నిజమైతే, contested topicsపై qualityను అంచనా వేసే tools modelsకే సమానంగా strategic significance పొందవచ్చు.

ఆమె వ్యాఖ్యల్లో ఒక cultural split కూడా నిక్షిప్తమై ఉంది. Silicon Valleyలో ఒక conversation జరుగుతోందని, వినియోగదారుల మధ్య మాత్రం పూర్తిగా వేరే conversation జరుగుతోందని బ్రౌన్ చెప్పారు. దీని అర్థం builders ఇంకా ordinary users, ముఖ్యంగా parents, voters, patients, మరియు workers ఆందోళనలకు సూటిగా సరిపోని performance metrics‌తో మునిగిపోయి ఉండవచ్చు. Forum AI చెప్పేది ఏమిటంటే, ఆ ఆందోళనలను ఒక measurable standardగా మార్చవచ్చు.

“మంచి” AI సమాచారాన్ని ఎవరు నిర్వచిస్తారు అన్నదే పెద్ద ప్రశ్న

AI సమాచార వ్యవస్థల హృదయంలో ఉన్న తాత్విక సమస్యను బ్రౌన్ సంస్థ పరిష్కరించదు: experts విభేదించే అంశాల్లో balanced, accurate, లేదా sufficiently contextualized అనేది ఏమిటో ఎవరు నిర్ణయించాలి? దానికి బదులుగా Forum AI ఒక procedural answer ఇస్తుంది. గుర్తింపు పొందిన expertsను ఎంచుకోండి, explicit benchmarks నిర్మించండి, వారి judgmentకి వ్యతిరేకంగా scoring systemsను train చేయండి, మరియు trade-offs‌ను కనిపించేలా చేయండి.

ఈ మోడల్ విస్తృతంగా అంగీకరించబడుతుందా అన్నది ఇంకా తెరిచి ఉన్న ప్రశ్నే. కానీ పరిశ్రమ తప్పించుకోడం మరింత కష్టమవుతున్న ఒక బలహీనతను బ్రౌన్ గుర్తించారు. Generative AI ఇకపై అది codeను ఎంత బాగా రాస్తుంది లేదా సమీకరణాలను ఎలా పరిష్కరిస్తుంది అనే ఆధారంతో మాత్రమే అంచనా వేయబడటం లేదు. గజిబిజిగా, ప్రభావం కలిగిన రంగాల్లో అది అర్థాన్ని ఎలా మాధ్యస్థం చేస్తుందనే దానిపైనా అది అంచనా వేయబడుతోంది. ఆ layer ప్రజా జ్ఞానానికి కొత్త gatewayగా మారితే, benchmark design చుట్టూ జరిగే పోరాటం AIలో అత్యంత ముఖ్యమైన fights‌లో ఒకటిగా మారవచ్చు.

ఈ వ్యాసం TechCrunch నివేదిక ఆధారంగా రూపొందించబడింది. మూల వ్యాసాన్ని చదవండి.

Originally published on techcrunch.com