Campbell Browns Forum AI setzt auf Experten-Benchmarks für hochriskante KI-Antworten

Campbell Brown will, dass die Informationsschicht der KI von Experten beurteilt wird, nicht von Engagement-Metriken

Campbell Brown hat Jahre damit verbracht zu entscheiden, wie Informationen online sichtbar gemacht, überprüft und als vertrauenswürdig eingestuft werden. Jetzt argumentiert sie, dass der nächste Engpass bei Informationen nicht in Social-Media-Feeds liegt, sondern in generativen KI-Systemen, und dass die Branche das Problem noch immer nicht mit ausreichender Ernsthaftigkeit behandelt. Ihr neues Unternehmen Forum AI basiert auf einer einfachen Prämisse: Wenn große Modelle zu einem primären Kanal werden, über den Menschen die Welt verstehen, dann müssen ihre Antworten zu sensiblen Themen an Standards gemessen werden, die von Fachexperten entworfen wurden.

Browns Sorge ist nicht abstrakt. In bei TechCrunch diskutierten Aussagen beschrieb sie KI als zunehmend zentralen Informationskanal und argumentierte, dass die Leistung bei „Hochrisikothemen“ weiterhin schwach sei. Zu diesen Themen gehören Geopolitik, psychische Gesundheit, Finanzen und Personalbeschaffung, also Bereiche, in denen unvollständige oder verzerrte Antworten reale Folgen haben können und die richtige Antwort oft nicht binär ist. Genau diese Unschärfe ist der Grund, warum Brown bessere Bewertungstools für nötig hält statt mehr Vertrauen in die Modellintuition.

Das Modell von Forum AI übersetzt Expertenkonsens in skalierbare Tests

Der Ansatz von Forum AI beginnt damit, anerkannte Spezialisten zu rekrutieren, um die Benchmarks zu entwerfen. Brown sagte, das Unternehmen identifiziere führende Experten in einem Feld, bitte sie, das Bewertungsframework zu entwickeln, und trainiere dann KI-Richter darauf, Modellausgaben in großem Maßstab zu bewerten. In seiner Arbeit zu Geopolitik hat Forum AI eine bemerkenswert prominente Gruppe versammelt, darunter Niall Ferguson, Fareed Zakaria, den ehemaligen Außenminister Tony Blinken, den früheren Sprecher des Repräsentantenhauses Kevin McCarthy und Anne Neuberger, eine frühere Cybersicherheitsbeamtin der Obama-Regierung.

Das operative Ziel ist nicht, Meinungsverschiedenheiten vollständig zu beseitigen. Brown sagte, Forum AI wolle bei seinen KI-Richtern eine Übereinstimmung von etwa 90 Prozent mit menschlichen Experten erreichen. Ihrer Darstellung nach hat das Unternehmen diese Schwelle erreicht. Die Konsequenz ist, dass Forum AI die Bewertung selbst als technisches Produkt sieht: ein System, das Expertenurteile, die normalerweise teuer und langsam sind, in wiederholbare Tests über viele Modellausgaben verwandeln kann.

Das ist wichtig, weil die einflussreichsten Modellunternehmen stark in Bereichen wie Coding und Mathematik gemessen werden, in denen automatisches Benchmarking leichter ist. Browns Kritik ist, dass die Probleme, denen Nutzer im Alltag begegnen, oft woanders liegen. Fragen zu Politik, Gesundheit, Geld oder Arbeit sind mit Kontext, Perspektive und Wertkonflikten aufgeladen. Sie sind schwerer zu bewerten, aber auch schwerer als peripher abzutun.

Two drones, one yellow, one grey, almost identical otherwise.

FCC steuert auf rückwirkendes Verbot gegen mutmaßliche DJI-Strohfirmen zu

Die US-Kommunikationsaufsicht bereitet ein neues Durchsetzungsinstrument gegen Unternehmen vor, die ihrer Darstellung nach DJI-Produkte verschleierten, um sie auf dem amerikanischen Markt zu halten.

Read article

Die Warnung kommt von jemandem, der gesehen hat, wie soziale Plattformen auf das falsche Ziel optimieren

Browns Argument hat zusätzliches Gewicht, weil es von ihrer Erfahrung bei Facebook geprägt ist, wo sie als erste und einzige dedizierte News-Chefin des Unternehmens fungierte. Sie sagte TechCrunch, sie habe kurz nach der öffentlichen Veröffentlichung von ChatGPT erkannt, worum es geht, während sie noch bei Meta war. Der Wandel sei aus ihrer Sicht unmittelbar gewesen: KI-Tools standen kurz davor, der dominante Weg zu werden, über den Menschen Informationen suchen und erhalten.

Diese Perspektive erklärt auch, warum sie sich auf Anreize konzentriert. Brown sagte, das Frustrierendste für sie sei gewesen, dass Genauigkeit für Unternehmen mit Foundation-Models offenbar keine führende Priorität gewesen sei. In ihrer Darstellung konzentrieren sich die großen Labore stark auf Leistung bei Coding und Mathematik, während Informationsgenauigkeit schwerer zu standardisieren und daher leichter aufzuschieben sei. Ihre Antwort lautet, dass Schwierigkeit ein Problem nicht optional macht.

Der Vergleich mit sozialen Medien ist direkt. Brown sagte, sie habe aus erster Hand gesehen, was passiert, wenn eine Plattform auf das falsche Ziel optimiert, und beschrieb Metas frühere Bemühungen in den Bereichen News und Faktenprüfung als in wichtigen Punkten gescheitert. Die Lehre daraus ist nicht nur, dass Moderation schwierig ist. Es ist, dass Systeme, die auf Engagement ausgerichtet sind, sich vom gesellschaftlichen Nutzen entfernen können, selbst wenn der Schaden im Rückblick offensichtlich wird.

Was Forum AI aktuellen Modellen vorwirft

Browns Kritik am Verhalten aktueller Modelle ist spezifisch genug, um zu zeigen, dass das Unternehmen konsistente Muster und nicht nur einzelne Halluzinationen sieht. Sie nannte, dass Gemini bei Geschichten ohne Bezug zu China auf Websites der Kommunistischen Partei Chinas zugreife, und sagte, fast alle großen Modelle zeigten eine linksgerichtete politische Voreingenommenheit. Sie verwies auch auf subtilere Fehler: fehlender Kontext, fehlende Perspektiven und Argumente, die Gegenpositionen als Strohmann verzerren, ohne die Schwäche der Darstellung klar zu kennzeichnen.

Diese Beschwerden weisen auf ein breiteres Problem der KI-Bewertung hin. Ein Modell kann flüssig, schnell und nützlich wirken und dennoch Informationen durch eine enge oder instabile Linse präsentieren. Wenn die Ausgabe den relevanten Rahmen auslässt, die Bandbreite ernsthafter Sichtweisen nicht widerspiegelt oder sich auf schwache Quellen stützt, erhalten Nutzer womöglich etwas, das autoritativ klingt, aber strukturell irreführend ist. Browns These ist, dass das keine kosmetischen Mängel sind. Bei Hochrisikothemen sind es Produktfehler.

Sie argumentierte außerdem, dass viele der Lösungen relativ straightforward seien. Auch wenn sie in der zitierten Diskussion keinen vollständigen technischen Bauplan vorlegte, deutet ihr Kommentar darauf hin, dass ein Teil der Qualitätslücke eher aus Prioritäten, Testdesign und Feedbackschleifen resultiert als allein aus ungelöster Frontier-Forschung.

$A fractured image of a person speaking into a microphone.$

Sony weitet Streit mit Udio mit neuer Klage über 30.000 Songs aus

Sony Music hat eine neue Klage eingereicht und wirft Udio vor, mehr als 30.000 Songs verletzt zu haben. Damit verschärft sich einer der folgenschwersten Urheberrechtsstreits rund um generative KI-Musik.

Read article

Eine neue Front im KI-Wettbewerb

Forum AI wurde vor 17 Monaten in New York gegründet, was das Unternehmen mitten in einen schnell entstehenden Markt für KI-Governance-Infrastruktur stellt. Firmen, die Foundation-Modelle bauen, stehen unter Druck von Regulierern, Unternehmenskunden und der Öffentlichkeit, zu zeigen, dass ihre Systeme in Bereichen verantwortungsvoll handeln, die Lebensgrundlagen, Politik, Gesundheit und Sicherheit betreffen. Brown positioniert Forum AI als ein Unternehmen, das quantifizieren kann, ob sie das tun.

Das ist eine bemerkenswerte Verschiebung dessen, wo im KI-Stack Wert entstehen kann. Die größten Labore dominieren weiterhin Training und Distribution von Modellen, aber eine parallele Schicht entsteht rund um Auditierung, Benchmarking und unabhängige Bewertung. Wenn Brown recht hat und KI-Systeme zur Standardroute werden, über die viele Nutzer Informationen konsumieren, dann könnten Werkzeuge zur Qualitätsbewertung bei umstrittenen Themen strategisch ebenso wichtig werden wie die Modelle selbst.

In ihren Kommentaren steckt auch eine kulturelle Spaltung. Brown sagte, im Silicon Valley finde ein Gespräch statt, während unter Verbrauchern ein ganz anderes geführt werde. Die Implikation ist, dass Entwickler möglicherweise weiterhin auf Leistungsmetriken fixiert sind, die nicht sauber zu den Sorgen normaler Nutzer passen, insbesondere Eltern, Wählern, Patienten und Arbeitenden. Der Anspruch von Forum AI ist, dass sich diese Sorgen in einen messbaren Standard übersetzen lassen.

Die größere Frage ist, wer definiert, was „gute“ KI-Information ist

Browns Unternehmen löst nicht das philosophische Problem im Kern von KI-Informationssystemen: Wer sollte entscheiden, was als ausgewogen, korrekt oder hinreichend kontextualisiert gilt, wenn Experten sich über Themen uneinig sind. Forum AI bietet stattdessen eine verfahrensbezogene Antwort. Anerkannte Experten auswählen, explizite Benchmarks aufbauen, Bewertungssysteme anhand ihres Urteils trainieren und die Abwägungen sichtbar machen.

Ob dieses Modell breite Akzeptanz finden wird, ist weiterhin offen. Aber Brown hat eine Schwäche benannt, der die Branche immer schwerer ausweichen kann. Generative KI wird nicht mehr nur danach beurteilt, wie gut sie Code schreibt oder Gleichungen löst. Sie wird danach beurteilt, wie sie Verständnis in unübersichtlichen, folgenreichen Bereichen vermittelt. Wenn diese Schicht zum neuen Zugangstor zu öffentlichem Wissen wird, könnte der Streit um das Design von Benchmarks zu einem der wichtigsten Kämpfe in der KI werden.

Dieser Artikel basiert auf einer Berichterstattung von TechCrunch. Den Originalartikel lesen.

Originally published on techcrunch.com

Campbell Browns Forum AI setzt darauf, dass von Experten entwickelte Benchmarks Antworten von Modellen in Hochrisikothemen bereinigen können