Ein stärkeres Modell mit einem alten Problem im Gepäck

OpenAIs GPT-5.5 ist mit der Art von Schlagzeile erschienen, die normalerweise eine große Modellveröffentlichung prägt: Laut dem bereitgestellten Quellentext steht es jetzt an der Spitze des Artificial Analysis Intelligence Index, vor führenden Konkurrenten von Anthropic und Google. Auf der Leistungsseite lässt sich der Start damit leicht zusammenfassen. Schwieriger ist, dass derselbe Bericht eine anhaltende und ernste Schwäche beschreibt: Halluzinationen.

The Decoders Darstellung präsentiert GPT-5.5 als ein Modell, das das Preis-Leistungs-Verhältnis an der Spitze verbessert, ohne einen der hartnäckigsten Verhaltensfehler großer Sprachmodelle zu lösen. Diese Kombination wird immer zentraler dafür, wie fortgeschrittene KI-Systeme bewertet werden sollten. Bessere Ergebnisse und höhere Effizienz sind wichtig. Ebenso wichtig ist, ob ein Modell erkennt, wann es etwas nicht weiß.

Was sich verbessert hat

Die Quelle sagt, dass GPT-5.5 im Artificial Analysis Intelligence Index 60 Punkte erreicht und damit drei Punkte vor Claude Opus 4.7 und Gemini 3.1 Pro Preview liegt, die bei 57 gleichauf lagen. Außerdem heißt es, das Modell nutze etwa 40 Prozent weniger Tokens als GPT-5.4. Diese Token-Reduktion ist wichtig, weil sie die Ökonomie der Veröffentlichung verändert.

Nominal hat sich der API-Preis von GPT-5.5 auf 5 Dollar pro Million Input-Tokens und 30 Dollar pro Million Output-Tokens verdoppelt, verglichen mit GPT-5.4. Der geringere Token-Verbrauch mildert diesen Anstieg in der Praxis jedoch ab. Die Quelle schätzt den effektiven Kostenanstieg nach Berücksichtigung der Effizienzgewinne auf etwa 20 Prozent. In Benchmark-Begriffen argumentiert sie zudem, dass GPT-5.5 mit mittlerem Rechenaufwand Claude Opus 4.7-ähnliche Werte zu deutlich geringeren Kosten als das Modell von Anthropic bei maximalen Einstellungen erreichen kann.

Das ist genau die Art von Abwägung, die Entwickler tatsächlich wahrnehmen. Im Rennen um Frontier-Modelle geht es längst nicht mehr nur darum, wer eine Rangliste anführt. Es geht darum, ob Leistungsgewinne mit vernünftigem Token-Verbrauch, beherrschbarer Latenz und ausreichender Zuverlässigkeit kommen, um den Produktiveinsatz zu rechtfertigen. Unter diesen Gesichtspunkten scheint GPT-5.5 OpenAIs Position zu stärken.