Stärkere Modelle schnitten besser ab, und die Nutzer bemerkten es nicht
Ein internes Experiment von Anthropic deutet darauf hin, dass bereits eine subtile, aber wichtige Form von KI-Ungleichheit entsteht: Menschen, die von stärkeren Modellen vertreten werden, können bessere Ergebnisse erzielen, ohne dass ihr Umfeld den Unterschied bemerkt. Dem bereitgestellten Quelltext zufolge führte Anthropic im Dezember 2025 einen einwöchigen internen Marktplatz namens „Project Deal“ durch, bei dem 69 Mitarbeitende Claude-basierte KI-Agenten nutzten, um über Slack echte Waren zu kaufen und zu verkaufen.
Jede teilnehmende Person erhielt ein Budget von 100 Dollar. Vor Öffnung des Marktplatzes befragte Claude die Freiwilligen dazu, was sie kaufen oder verkaufen wollten, welche Preisvorstellungen sie hatten und welchen Verhandlungsstil ihr Agent verwenden sollte. Anthropic nutzte diese Angaben anschließend, um maßgeschneiderte System-Prompts zu erzeugen. Danach übernahmen die KI-Agenten den gesamten Prozess: Angebote schreiben, Gegenparteien finden, Offerten machen, feilschen und Transaktionen abschließen. Menschen griffen erst am Ende wieder ein, um die Waren auszutauschen.
Der entscheidende experimentelle Kniff war den Teilnehmenden verborgen. Anthropic spielte parallele Versionen des Marktplatzes aus. In einigen wurde jede Person von Claude Opus 4.5 vertreten, der im Quelltext als das damalige Frontier-Modell von Anthropic beschrieben wird. In anderen hatten die Teilnehmenden eine 50-prozentige Chance, von Claude Haiku 4.5 vertreten zu werden, dem kleinsten Modell des Unternehmens.
Das Ergebnis war nicht nur technisch. Es war sozial.
Dem Quelltext zufolge sicherte sich das leistungsfähigere Opus-Modell im Durchschnitt konsequent bessere Preise und schloss mehr Deals ab als Haiku. Zugleich führten aggressivere Verhandlungsanweisungen nicht zu einem statistisch signifikanten Unterschied bei den Ergebnissen. Anders gesagt: Die Modellfähigkeit war wichtiger als bloß zu sagen, das System solle härter feilschen.
Das widerspricht einer verbreiteten Annahme bei der Einführung von KI in Unternehmen, wo Organisationen manchmal davon ausgehen, dass Prompt-Stil oder oberflächliches Verhalten den Großteil des Werts bestimmen. Anthropics Befunde deuten darauf hin, dass die eigentliche Modellstärke wichtiger sein kann als der Ton. Wenn sich dieses Muster verallgemeinert, könnte die Qualität des Agenten selbst stillschweigend bestimmen, wer in digitalen Transaktionen günstige Konditionen erhält.
Der auffälligste Befund ist womöglich eher Wahrnehmungs- als Wirtschaftsfrage. Anthropic sagt, dass Nutzer mit schwächeren Haiku-Agenten, die objektiv schlechtere Ergebnisse erzielten, ihre Transaktionen dennoch als genauso fair bewerteten wie Nutzer, die von Opus vertreten wurden. Diese Diskrepanz bezeichnet das Unternehmen als eine Form von „unsichtbarer Ungleichheit“ bei KI-gestützter Entscheidungsfindung.
Das ist ein folgenschwerer Gedanke. Traditionelle Formen von Ungleichheit zeigen sich oft bei Preisen, Zugang oder Servicequalität. Was Anthropic anspricht, ist schwerer zu erkennen: Zwei Menschen können sich gleichermaßen zufrieden fühlen, während einer von ihnen systematisch schlechter von der Maschine vertreten wurde, die in seinem Namen handelte.
KI-Agenten werden zu Vermittlern
Project Deal ist deshalb wichtig, weil es die Diskussion über Chatbots hinaus in den Bereich der Handlungsfähigkeit verschiebt. Diese Systeme beantworteten nicht nur Fragen. Sie vertraten Menschen in Verhandlungen mit anderen Maschinen. Damit ähneln sie eher Vermittlern, die in Märkten agieren, als reinen Produktivitätswerkzeugen.
Wenn diese Rolle wächst, könnten Modellunterschiede direkte Folgen für Handel, Beschaffung, Einstellung, Kundenservice und interne Geschäftsabläufe haben. Wenn stärkere Systeme regelmäßig besser verhandeln, Informationen effektiver ordnen oder bessere Gegenparteien finden, wird der Zugang zu einem Frontier-Modell zu einem praktischen Vorteil. Die Menschen auf der schwächeren Seite dieser Kluft bemerken womöglich nicht einmal, dass sie benachteiligt sind.
Der Quelltext behauptet nicht, dass dieses Ergebnis automatisch auf alle Märkte übertragbar ist. Das Experiment war intern, kurz und begrenzt. Dennoch liefert es eine konkrete Demonstration von etwas, womit sich Politik und Unternehmen künftig wahrscheinlich häufiger auseinandersetzen müssen: Sobald KI-Agenten für Nutzer handeln, können Fähigkeitsunterschiede zu Ergebnisunterschieden werden.
Prompting reicht vielleicht nicht aus
Eine der nützlichsten Erkenntnisse des Berichts ist, dass aggressive Verhandlungsanweisungen keine statistisch signifikante Verbesserung brachten. Das legt nahe, dass Organisationen nicht einfach davon ausgehen können, schwächere Modelle durch stärkere, härtere Prompts auszugleichen.
Für Entwickler und Käufer von KI-Systemen ist das eine praktische Warnung. Die Leistung eines Agenten hängt womöglich weniger vom Persönlichkeitsrahmen ab als von der eigentlichen Qualität von Schlussfolgerung und Entscheidung. Eine schicke Oberfläche oder ein harter Ton bedeuten nicht automatisch eine stärkere Vertretung.
Diese Unterscheidung ist wichtig, weil viele KI-Einsätze mit „ausreichend gut“ statt mit Exzellenz gerechtfertigt werden. Wenn ein billigeres oder kleineres Modell im Gespräch ausreichend gut wirkt, kann es dennoch deutlich schlechter abschneiden, sobald man ihm vertraut, im Namen eines Nutzers zu entscheiden oder zu verhandeln.
Die Regulierungsfrage ist schon da
Anthropics Formulierung der unsichtbaren Ungleichheit sollte weit über dieses eine Experiment hinaus nachhallen. Wenn Organisationen unterschiedliche Klassen von KI-Agenten über Mitarbeiterebenen, Kundensegmente oder öffentliche Dienste hinweg einsetzen, könnten sie ungleiche Behandlung erzeugen, ohne dass am Ort der Nutzung offensichtliche Fairnessprobleme sichtbar werden.
Das ist ein schwierigeres Governance-Problem als bloße Transparenz. Nutzern zu sagen, dass eine KI beteiligt war, beantwortet nicht, ob diese KI so leistungsfähig war wie die, die jemand anderes verwendet hat. Und wenn sich die Nutzererfahrung trotzdem fair anfühlt, entsteht womöglich kein unmittelbarer Druck auf Markt oder Institution, das Ungleichgewicht zu korrigieren.
Project Deal liest sich deshalb wie ein frühes Warnsignal. Es legt nahe, dass es beim Zugang zu KI nicht nur darum geht, ob jemand einen digitalen Assistenten bekommt, sondern welchen Assistenten er bekommt und wie leistungsfähig dieser ist, wenn an den Ergebnissen etwas hängt.
- Anthropic führte einen einwöchigen internen Slack-Marktplatz mit Claude-Agenten für reale Transaktionen durch.
- Claude Opus 4.5 erzielte im Durchschnitt bessere Preise und mehr Deals als Claude Haiku 4.5.
- Nutzer, die von schwächeren Agenten vertreten wurden, bemerkten den Nachteil nicht, obwohl ihre Ergebnisse schlechter waren.
Dieser Artikel basiert auf einer Berichterstattung von The Decoder. Den Originalartikel lesen.
Originally published on the-decoder.com







