Forum AI de Campbell Brown impulsa benchmarks expertos para respuestas de IA de alto riesgo

Campbell Brown quiere que la capa informativa de la IA sea juzgada por expertos, no por métricas de interacción

Campbell Brown ha pasado años en el negocio de decidir cómo se presenta, verifica y en quién se confía la información en línea. Ahora sostiene que el próximo cuello de botella informativo no son los feeds de las redes sociales, sino los sistemas de IA generativa, y que la industria aún no trata el problema con suficiente seriedad. Su nueva empresa, Forum AI, se construye sobre una premisa sencilla: si los grandes modelos se están convirtiendo en un canal principal a través del cual las personas entienden el mundo, entonces sus respuestas sobre asuntos sensibles deben probarse frente a estándares diseñados por expertos del dominio.

La preocupación de Brown no es abstracta. En comentarios discutidos por TechCrunch, describió a la IA como un embudo cada vez más central para la información y afirmó que el rendimiento en “temas de alto riesgo” sigue siendo débil. Esos temas incluyen la geopolítica, la salud mental, las finanzas y la contratación, áreas donde respuestas incompletas o distorsionadas pueden tener consecuencias en el mundo real y donde la respuesta correcta a menudo no es binaria. Esa ambigüedad es precisamente por la que Brown cree que la industria necesita mejores herramientas de evaluación, no más confianza en la intuición de los modelos.

El modelo de Forum AI traduce el consenso de expertos en pruebas escalables

El enfoque de Forum AI comienza reclutando especialistas reconocidos para diseñar los benchmarks. Brown dijo que la empresa identifica a los principales expertos en un campo, les pide que diseñen el marco de evaluación y luego entrena jueces de IA para calificar los resultados de los modelos a escala. En su trabajo sobre geopolítica, Forum AI ha reunido una lista notablemente destacada que incluye a Niall Ferguson, Fareed Zakaria, al ex secretario de Estado Tony Blinken, al ex presidente de la Cámara Kevin McCarthy y a Anne Neuberger, ex funcionaria de ciberseguridad de la administración Obama.

El objetivo operativo no es eliminar por completo el desacuerdo. Brown dijo que Forum AI aspira a que sus jueces de IA alcancen alrededor del 90% de consenso con los expertos humanos. Según su versión, la empresa ha podido llegar a ese umbral. La implicación es que Forum AI ve la evaluación en sí misma como un producto técnico: un sistema que puede convertir el juicio experto, normalmente caro y lento, en pruebas repetibles sobre muchos resultados de modelos.

Eso importa porque las compañías de modelos más influyentes se miden mucho en áreas como programación y matemáticas, donde el benchmarking automatizado es más fácil. La crítica de Brown es que los problemas que los usuarios encuentran en la vida diaria suelen estar en otra parte. Las preguntas sobre política, salud, dinero o empleo están cargadas de contexto, perspectiva y conflictos de valores. Son más difíciles de calificar, pero también más difíciles de descartar como periféricas.

Two drones, one yellow, one grey, almost identical otherwise.

FCC moves toward retroactive ban on suspected DJI front companies

The U.S. communications regulator is preparing to use a new enforcement tool against companies it says disguised DJI products to keep them on the American market.

Read article

La advertencia viene de alguien que vio a las plataformas sociales optimizar para el resultado equivocado

El argumento de Brown tiene peso adicional porque está moldeado por su experiencia en Facebook, donde fue la primera y única directora de noticias dedicada de la empresa. Dijo a TechCrunch que reconoció lo que estaba en juego poco después del lanzamiento público de ChatGPT, mientras aún estaba en Meta. El cambio, en su opinión, fue inmediato: las herramientas de IA estaban a punto de convertirse en una vía dominante a través de la cual las personas buscan y reciben información.

Esa perspectiva también explica por qué se centra en los incentivos. Brown dijo que lo que más la frustraba era que la precisión no parecía ser una prioridad principal para las empresas de modelos fundacionales. En su relato, los grandes laboratorios están muy centrados en el rendimiento en programación y matemáticas, mientras que la precisión informativa es más difícil de estandarizar y, por tanto, más fácil de posponer. Su respuesta es que la dificultad no convierte el problema en opcional.

La comparación con las redes sociales es directa. Brown dijo que vio de primera mano lo que ocurre cuando una plataforma optimiza para el objetivo equivocado, y describió los esfuerzos anteriores de Meta en noticias y verificación de hechos como fallidos en aspectos importantes. La lección que extrae no es simplemente que moderar sea difícil. Es que los sistemas construidos en torno a la interacción pueden alejarse del valor social, incluso cuando el daño se vuelve obvio en retrospectiva.

Lo que Forum AI dice que los modelos actuales están haciendo mal

La crítica de Brown al comportamiento actual de los modelos es lo bastante específica como para sugerir que la empresa ve patrones consistentes más que alucinaciones aisladas. Citó que Gemini toma contenido de sitios del Partido Comunista Chino para historias no relacionadas con China y dijo que casi todos los modelos importantes muestran un sesgo político hacia la izquierda. También señaló fallos más sutiles: falta de contexto, falta de perspectivas y argumentos que caricaturizan las posturas contrarias sin señalar claramente la debilidad de la representación.

Esas quejas apuntan a un problema más amplio en la evaluación de IA. Un modelo puede parecer fluido, rápido y útil mientras presenta la información a través de una lente estrecha o inestable. Si la respuesta omite el encuadre relevante, no refleja el rango de puntos de vista serios o se apoya en fuentes débiles, los usuarios pueden recibir algo que suena autoritativo pero es estructuralmente engañoso. La afirmación de Brown es que esos no son defectos cosméticos. En temas de alto riesgo, son fallos de producto.

También argumentó que muchas de las soluciones son relativamente sencillas. Aunque no expuso un plan técnico completo en la conversación citada, el comentario sugiere que parte de la brecha de calidad proviene de prioridades, diseño de pruebas y circuitos de retroalimentación, no solo de investigación fronteriza sin resolver.

$A fractured image of a person speaking into a microphone.$

Sony expands Udio fight with new lawsuit over 30,000 songs

Sony Music has filed a new lawsuit accusing Udio of infringing more than 30,000 songs, escalating one of the most consequential copyright fights around generative AI music.

Read article

Un nuevo frente en la competencia de IA

Forum AI fue fundada hace 17 meses en Nueva York, lo que la sitúa en el centro de un mercado que se está formando rápidamente para la infraestructura de gobernanza de IA. Las empresas que construyen modelos fundacionales están bajo presión de reguladores, clientes empresariales y del público para demostrar que sus sistemas actúan de manera responsable en áreas que afectan los medios de vida, la política, la salud y la seguridad. Brown está posicionando a Forum AI como una empresa que puede cuantificar si lo hacen.

Ese es un cambio notable en dónde puede acumularse el valor dentro de la pila de IA. Los laboratorios más grandes siguen dominando el entrenamiento y la distribución de modelos, pero está surgiendo una capa paralela en torno a la auditoría, el benchmarking y la evaluación independiente. Si Brown tiene razón en que los sistemas de IA se están convirtiendo en la ruta predeterminada por la que muchos usuarios consumen información, entonces las herramientas que evalúan la calidad en temas disputados podrían volverse tan importantes estratégicamente como los propios modelos.

También hay una división cultural implícita en sus comentarios. Brown dijo que en Silicon Valley se está dando una conversación y que entre los consumidores se está produciendo otra muy distinta. La sugerencia es que los constructores pueden seguir obsesionados con métricas de rendimiento que no se alinean bien con las ansiedades de los usuarios comunes, especialmente padres, votantes, pacientes y trabajadores. La propuesta de Forum AI es que esas ansiedades pueden convertirse en un estándar medible.

La pregunta más grande es quién define qué es una “buena” información de IA

La empresa de Brown no resuelve el problema filosófico en el corazón de los sistemas de información de IA: quién debe decidir qué cuenta como equilibrado, preciso o suficientemente contextualizado en temas donde los expertos discrepan. Lo que Forum AI ofrece, en cambio, es una respuesta procedimental. Elegir expertos reconocidos, construir benchmarks explícitos, entrenar sistemas de puntuación según su juicio y hacer visibles las compensaciones.

Si ese modelo será ampliamente aceptado sigue siendo una pregunta abierta. Pero Brown ha identificado una debilidad que cada vez es más difícil para la industria evitar. La IA generativa ya no se juzga solo por lo bien que escribe código o resuelve ecuaciones. Se la juzga por cómo media la comprensión en dominios desordenados y con consecuencias. Si esa capa se convierte en la nueva puerta de entrada al conocimiento público, entonces la disputa sobre el diseño de benchmarks podría resultar una de las batallas más importantes en IA.

Este artículo se basa en una cobertura de TechCrunch. Lee el artículo original.

“The Turning Point: To Be Destroyed” Premiere - 2024 Tribeca Festival

Dave Eggers Used an OpenAI Talk to Warn About Writing and Education

Author Dave Eggers reportedly told OpenAI staff that ChatGPT has made teachers’ lives harder and risks undermining students’ ability to learn how to write in their own voice.

Read article

Originally published on techcrunch.com

Forum AI de Campbell Brown apuesta a que los benchmarks creados por expertos pueden limpiar las respuestas de alto riesgo de los modelos

Campbell Brown quiere que la capa informativa de la IA sea juzgada por expertos, no por métricas de interacción

El modelo de Forum AI traduce el consenso de expertos en pruebas escalables

FCC moves toward retroactive ban on suspected DJI front companies

La advertencia viene de alguien que vio a las plataformas sociales optimizar para el resultado equivocado

Lo que Forum AI dice que los modelos actuales están haciendo mal

Sony expands Udio fight with new lawsuit over 30,000 songs

Un nuevo frente en la competencia de IA

La pregunta más grande es quién define qué es una “buena” información de IA

Dave Eggers Used an OpenAI Talk to Warn About Writing and Education

Comments (0)

Related Articles

Apple Maps Ads Will Exclude Home Services

France orders ISPs to block Polymarket access

Truth Social to sell real-time API access to top accounts

OMB Grant Proposal Draws Fierce Backlash From Space Science Advocates

Joolca Hottap Go Review: A $700 Portable Shower for the Adventurous

Keep Reading