Campbell Brown は、AI の情報層はエンゲージメント指標ではなく専門家に評価されるべきだと考えている
Campbell Brown は長年、情報がオンラインでどのように表示され、確認され、信頼されるかを決める仕事に携わってきた。今彼女は、次の情報のボトルネックはソーシャルメディアのフィードではなく生成AIシステムであり、業界はいまだにこの問題を十分に गंभीरに扱っていないと主張している。彼女の新会社 Forum AI は、単純な前提に基づいている。大規模モデルが人々が世界を理解する主要な経路になりつつあるなら、センシティブな विषयに関する回答は、ドメイン専門家が設計した基準に照らしてテストされるべきだというものだ。
Brown の懸念は抽象的ではない。TechCrunch で取り上げられた発言で彼女は、AI をますます中心的な情報の導線だと表現し、「高リスクなトピック」での性能は依然として弱いと述べた。そうしたトピックには地政学、メンタルヘルス、金融、採用などが含まれ、不完全または歪んだ回答は現実世界に影響を及ぼしうるうえ、正解が二者択一ではないことも多い。この曖昧さこそが、業界にはモデルの直感にもっと自信を持つことではなく、より良い評価ツールが必要だと Brown が考える理由だ。
Forum AI のモデルは、専門家の合意をスケーラブルなテストに変換することだ
Forum AI のアプローチは、まず著名な専門家を集めてベンチマークを設計することから始まる。Brown によると、同社はその分野の第一線の専門家を特定し、評価フレームワークの設計を依頼し、そのうえで AI 審査員を訓練してモデル出力を大規模に採点する。地政学の取り組みでは、Forum AI は Niall Ferguson、Fareed Zakaria、元国務長官 Tony Blinken、元下院議長 Kevin McCarthy、そしてオバマ政権でサイバーセキュリティを担当した元高官 Anne Neuberger らを含む、非常に注目度の高い顔ぶれを集めている。
運用上の目標は、意見の相違を完全になくすことではない。Brown は、Forum AI が AI 審査員を人間の専門家と約 90% の一致まで到達させることを目指していると述べた。彼女の説明によれば、同社はその水準に達することができたという。これが意味するのは、Forum AI が評価そのものを技術製品として捉えているということだ。通常は高価で遅い専門家の判断を、多数のモデル出力に対する反復可能なテストへと変換するシステムである。
これは重要だ。なぜなら、最も影響力のあるモデル企業は、コードや数学のような自動ベンチマークが容易な分野で主に評価されているからだ。Brown の批判は、ユーザーが日常で直面する問題はしばしば別の場所にあるという点にある。政治、健康、金銭、雇用に関する質問は、文脈、視点、価値観の衝突を多く含む。採点は難しいが、周辺的なものとして片づけるのも難しい。
この警告は、ソーシャルプラットフォームが間違った成果を最適化していたのを見た人物から来ている
Brown の主張に重みがあるのは、彼女の Facebook での経験に裏打ちされているからだ。彼女は同社で最初で唯一の専任ニュース責任者を務めた。TechCrunch に対し、まだ Meta にいた ChatGPT 公開直後に、その重大さを認識したと語っている。彼女の見方では、その変化は即座に起きた。AI ツールは、人々が情報を探し受け取る支配的な経路になろうとしていた。
その視点は、彼女がインセンティブに注目している理由も説明する。Brown によると、最も苛立たしかったのは、正確性が基盤モデル企業にとって主要な優先事項のように見えなかったことだ。彼女の説明では、大手ラボはコーディングと数学の性能に強く注力する一方で、情報の正確さは標準化が難しく、先送りしやすい。彼女の答えは、難しいからといってその問題が任意になるわけではないということだ。
ソーシャルメディアとの比較は直接的だ。Brown は、プラットフォームが間違った目標を最適化すると何が起こるかを身をもって見たと述べ、Meta のニュースとファクトチェックに関する以前の取り組みは重要な点で失敗していたと語った。彼女が導く教訓は、単にモデレーションが難しいということではない。エンゲージメントを中心に構築されたシステムは、被害が事後的には明らかになっても、社会的価値から逸脱しうるということだ。
Forum AI が現在のモデルの問題点として挙げるもの
Brown の現行モデルに対する批判は、単発の幻覚ではなく一貫したパターンがあると会社が見ていることを示すのに十分具体的だ。彼女は、Gemini が中国と無関係な記事で中国共産党のサイトを参照していたことを挙げ、主要モデルのほぼすべてが左寄りの政治的バイアスを示していると述べた。さらに、より微妙な失敗として、文脈の欠如、視点の欠如、そして反対意見の弱い形だけを示して明確にその弱さを示さないストローマン的な議論も指摘した。
これらの不満は、AI 評価におけるより広い問題を示している。モデルは流暢で速く有用に見えながら、狭い、あるいは不安定なレンズを通して情報を提示してしまうことがある。出力が関連する枠組みを欠き、重要な見解の幅を反映せず、弱い情報源に依存していれば、ユーザーは権威があるように聞こえるが構造的には誤解を招くものを受け取るかもしれない。Brown の主張では、これは見た目だけの欠陥ではない。高リスクなトピックでは、製品の失敗なのだ。
彼女はまた、多くの修正は比較的単純だとも述べた。引用された議論の中で完全な技術的設計図は示していないものの、そのコメントは、品質ギャップの一部が未解決の最先端研究だけでなく、優先順位、テスト設計、フィードバックループに起因していることを示唆している。
AI 競争における新たな前線
Forum AI は 17 か月前にニューヨークで設立されており、急速に形を成しつつある AI ガバナンス基盤市場の中心に位置している。基盤モデルを構築する企業は、規制当局、法人顧客、そして一般から、自身のシステムが生活、政治、健康、安全に影響を与える領域で責任ある振る舞いをしていることを示すよう圧力を受けている。Brown は Forum AI を、その実態を定量化できる会社として位置づけている。
これは AI スタックのどこに価値が生まれるかにおける注目すべき変化だ。最大手の研究所は依然としてモデルの学習と配布を支配しているが、監査、ベンチマーク、独立評価をめぐる並行層が立ち上がりつつある。もし Brown の言うとおり、AI システムが多くのユーザーにとって情報消費の標準経路になっているのなら、争点のあるトピックで品質を評価するツールは、モデルそのものと同じくらい戦略的に重要になるかもしれない。
彼女のコメントには文化的な分断も織り込まれている。Brown は、シリコンバレーではある会話が進んでおり、消費者の間ではまったく別の会話が起きていると言った。つまり、構築側は、一般ユーザー、特に親、投票者、患者、労働者の不安とうまく対応しない性能指標にまだとらわれているかもしれない。Forum AI の主張は、その不安を測定可能な基準に変えられるというものだ。
より大きな問いは、「良い」AI 情報を誰が定義するのかだ
Brown の会社は、AI 情報システムの核心にある哲学的問題を解決しているわけではない。専門家の間で意見が分かれるテーマで、何がバランスが取れていて、正確で、十分に文脈化されていると見なされるのかを、誰が決めるべきかという問題だ。Forum AI が代わりに提供するのは手続き的な答えだ。認知された専門家を選び、明示的なベンチマークを構築し、その判断に基づいて採点システムを訓練し、トレードオフを可視化する。
このモデルが広く受け入れられるかは、まだ未解決の問いだ。しかし Brown は、業界が避けにくくなっている弱点を突き止めている。生成AI は、もはやコードを書く能力や方程式を解く能力だけで評価されるものではない。混乱を伴い、結果の重い領域で理解をどう媒介するかで評価されている。その層が公共知識への新たな入口になるなら、ベンチマーク設計をめぐる争いは、AI における最も重要な戦いの一つになる可能性がある。
この記事は TechCrunch の報道に基づいています。原文を読む。
Originally published on techcrunch.com






