Forum AI de Campbell Brown mise sur des benchmarks d’experts pour les réponses IA à fort enjeu

Campbell Brown veut que la couche d’information de l’IA soit jugée par des experts, pas par des métriques d’engagement

Campbell Brown a passé des années à décider comment l’information est mise en avant, vérifiée et considérée comme fiable en ligne. Elle soutient désormais que le prochain goulot d’étranglement de l’information n’est pas le fil des réseaux sociaux, mais les systèmes d’IA générative, et que le secteur ne traite toujours pas le problème avec assez de sérieux. Sa nouvelle société, Forum AI, repose sur une idée simple : si les grands modèles deviennent un canal principal par lequel les gens comprennent le monde, alors leurs réponses sur des sujets sensibles doivent être testées à l’aune de critères conçus par des experts du domaine.

L’inquiétude de Brown n’a rien d’abstrait. Dans des propos relayés par TechCrunch, elle a décrit l’IA comme un entonnoir de plus en plus central pour l’information et a estimé que les performances sur les “sujets à fort enjeu” restent faibles. Ces sujets incluent la géopolitique, la santé mentale, la finance et le recrutement, des domaines où des réponses incomplètes ou déformées peuvent avoir des conséquences concrètes et où la bonne réponse n’est souvent pas binaire. C’est précisément cette ambiguïté qui conduit Brown à penser que le secteur a besoin de meilleurs outils d’évaluation, pas de davantage de confiance dans l’intuition des modèles.

Le modèle de Forum AI traduit le consensus d’experts en tests à grande échelle

L’approche de Forum AI commence par recruter des spécialistes reconnus pour concevoir les benchmarks. Brown a expliqué que l’entreprise identifie des experts de premier plan dans un domaine, leur demande d’architecturer le cadre d’évaluation, puis entraîne des juges IA à noter les sorties des modèles à grande échelle. Dans son travail sur la géopolitique, Forum AI a réuni un ensemble particulièrement prestigieux comprenant Niall Ferguson, Fareed Zakaria, l’ancien secrétaire d’État Tony Blinken, l’ancien président de la Chambre Kevin McCarthy et Anne Neuberger, ancienne responsable de la cybersécurité de l’administration Obama.

L’objectif opérationnel n’est pas d’éliminer complètement les désaccords. Brown a indiqué que Forum AI vise environ 90 % de consensus entre ses juges IA et les experts humains. D’après elle, l’entreprise a réussi à atteindre ce seuil. L’idée est que Forum AI considère l’évaluation elle-même comme un produit technique : un système capable de transformer le jugement d’experts, normalement coûteux et lent, en tests répétables sur un grand nombre de sorties de modèles.

Cela compte parce que les entreprises de modèles les plus influentes sont largement évaluées sur des domaines comme le code et les mathématiques, où l’étalonnage automatisé est plus facile. La critique de Brown est que les problèmes que rencontrent les utilisateurs au quotidien se situent souvent ailleurs. Les questions de politique, de santé, d’argent ou d’emploi sont chargées de contexte, de perspective et de conflits de valeurs. Elles sont plus difficiles à noter, mais aussi plus difficiles à écarter comme marginales.

Two drones, one yellow, one grey, almost identical otherwise.

La FCC se dirige vers une interdiction rétroactive visant des sociétés écrans soupçonnées de DJI

Le régulateur américain des télécommunications prépare un nouvel outil d’application contre des entreprises qui, selon lui, auraient dissimulé des produits DJI pour les maintenir sur le marché américain.

Read article

L’avertissement vient de quelqu’un qui a vu les plateformes sociales optimiser la mauvaise cible

L’argument de Brown a d’autant plus de poids qu’il est façonné par son expérience chez Facebook, où elle a été la première et unique responsable de l’actualité de l’entreprise. Elle a déclaré à TechCrunch avoir pris conscience des enjeux peu après le lancement public de ChatGPT, alors qu’elle était encore chez Meta. Le changement, selon elle, a été immédiat : les outils d’IA étaient sur le point de devenir la voie dominante par laquelle les gens recherchent et reçoivent l’information.

Cette perspective explique aussi pourquoi elle se concentre sur les incitations. Brown a dit que ce qui la frustrait le plus était que l’exactitude ne semblait pas être une priorité majeure pour les entreprises de modèles de fondation. Dans son récit, les grands laboratoires se concentrent fortement sur les performances en code et en mathématiques, tandis que la précision informationnelle est plus difficile à standardiser et donc plus facile à repousser. Sa réponse est que la difficulté ne rend pas le problème facultatif.

La comparaison avec les réseaux sociaux est directe. Brown a affirmé avoir vu de première main ce qui se passe lorsqu’une plateforme optimise le mauvais objectif, et elle a décrit les efforts antérieurs de Meta en matière d’actualité et de vérification des faits comme ayant échoué à des égards importants. La leçon qu’elle en tire n’est pas seulement que la modération est difficile. C’est que les systèmes construits autour de l’engagement peuvent s’éloigner de la valeur sociale, même lorsque les dégâts deviennent évidents avec le recul.

Ce que Forum AI estime que les modèles actuels font mal

La critique de Brown du comportement actuel des modèles est suffisamment précise pour suggérer que l’entreprise voit des schémas récurrents plutôt que des hallucinations isolées. Elle a cité le fait que Gemini puise dans des sites du Parti communiste chinois pour des sujets sans lien avec la Chine et a affirmé que presque tous les grands modèles affichent un biais politique de gauche. Elle a également pointé des échecs plus subtils : absence de contexte, absence de perspectives, et arguments qui caricaturent les positions opposées sans signaler clairement la faiblesse de la représentation.

Ces griefs renvoient à un problème plus large dans l’évaluation de l’IA. Un modèle peut paraître fluide, rapide et utile tout en présentant l’information à travers un prisme étroit ou instable. Si la sortie omet le cadrage pertinent, ne reflète pas l’éventail des opinions sérieuses ou s’appuie sur des sources fragiles, les utilisateurs peuvent recevoir quelque chose qui sonne comme une autorité mais qui est structurellement trompeur. Brown soutient que ce ne sont pas des défauts cosmétiques. Sur des sujets à fort enjeu, ce sont des défaillances produit.

Elle a également soutenu que nombre de correctifs sont relativement simples. Même si elle n’a pas exposé un plan technique complet dans l’échange cité, son commentaire suggère qu’une partie de l’écart de qualité tient aux priorités, à la conception des tests et aux boucles de rétroaction, et pas seulement à une recherche de pointe encore non résolue.

$A fractured image of a person speaking into a microphone.$

Sony élargit son bras de fer avec Udio avec une nouvelle plainte sur 30 000 chansons

Sony Music a déposé une nouvelle plainte accusant Udio d’avoir violé les droits de plus de 30 000 chansons, ce qui intensifie l’un des contentieux les plus importants autour du droit d’auteur appliqué à la musique générée par IA.

Read article

Un nouveau front dans la concurrence de l’IA

Forum AI a été fondée il y a 17 mois à New York, ce qui la place au cœur d’un marché en formation rapide pour l’infrastructure de gouvernance de l’IA. Les entreprises qui construisent des modèles de fondation subissent la pression des régulateurs, des clients entreprises et du public pour démontrer que leurs systèmes se comportent de manière responsable dans des domaines qui touchent aux moyens de subsistance, à la politique, à la santé et à la sécurité. Brown positionne Forum AI comme une société capable de quantifier si c’est le cas.

Cela marque un déplacement notable de la valeur potentielle dans la pile IA. Les plus grands laboratoires dominent encore l’entraînement et la distribution des modèles, mais une couche parallèle émerge autour de l’audit, du benchmarking et de l’évaluation indépendante. Si Brown a raison et que les systèmes d’IA deviennent la voie par défaut par laquelle de nombreux utilisateurs consomment l’information, alors les outils qui évaluent la qualité sur les sujets disputés pourraient devenir aussi stratégiquement importants que les modèles eux-mêmes.

Il y a aussi une fracture culturelle sous-entendue dans ses propos. Brown a dit qu’une conversation a lieu dans la Silicon Valley tandis qu’une tout autre se déroule chez les consommateurs. Cela suggère que les constructeurs peuvent rester obsédés par des métriques de performance qui ne correspondent pas bien aux inquiétudes des utilisateurs ordinaires, en particulier les parents, les électeurs, les patients et les travailleurs. La proposition de Forum AI est que ces inquiétudes peuvent être transformées en un standard mesurable.

La grande question est de savoir qui définit ce qu’est une “bonne” information IA

L’entreprise de Brown ne résout pas le problème philosophique au cœur des systèmes d’information fondés sur l’IA : qui doit décider ce qui compte comme équilibré, exact ou suffisamment contextualisé sur des sujets où les experts ne sont pas d’accord. Forum AI propose plutôt une réponse procédurale. Choisir des experts reconnus, construire des benchmarks explicites, entraîner des systèmes de notation selon leur jugement, et rendre visibles les compromis.

Reste à savoir si ce modèle sera largement accepté. Mais Brown a identifié une faiblesse de plus en plus difficile à éviter pour le secteur. L’IA générative n’est plus jugée seulement à sa capacité à écrire du code ou à résoudre des équations. Elle est jugée à sa manière de médiatiser la compréhension dans des domaines complexes et lourds de conséquences. Si cette couche devient la nouvelle porte d’accès au savoir public, alors la bataille autour de la conception des benchmarks pourrait s’avérer l’un des combats les plus importants de l’IA.

Cet article est basé sur un reportage de TechCrunch. Lire l’article original.

Originally published on techcrunch.com

Forum AI de Campbell Brown parie que des benchmarks conçus par des experts peuvent assainir les réponses des modèles sur les sujets à fort enjeu