OpenAIs neuestes Bildmodell scheint eine große Lücke geschlossen zu haben

Eine neue Runde von Bildgenerierungstests durch ZDNET deutet darauf hin, dass OpenAI einen deutlichen Sprung bei Bildqualität und Prompt-Verarbeitung gemacht hat. In einem am 27. April veröffentlichten Vergleich mit neun Tests erzielte ChatGPT Images 2.0 97 % und schlug damit Googles Gemini Nano Banana, das auf 85 % kam. Das Ergebnis ist wichtig, weil ein früherer Vergleich ChatGPT noch klar hinter Googles Bildsystem eingeordnet hatte. Diesmal drehte sich das Ranking um.

Der Ausgangsartikel stellt das Ergebnis als mehr dar als nur einen einfachen Modell-gegen-Modell-Wettstreit. Er argumentiert, dass OpenAIs Update nicht nur schrittweise besser ist, sondern sich in Bereichen, die für den Alltag zählen, dramatisch verbessert hat: Anweisungen befolgen, Text in Bildern verarbeiten und Ausgaben eng am ursprünglichen Prompt ausrichten. Genau diese Aufgaben trennen oft eine spektakuläre Demo von einem Werkzeug, auf das man sich bei echter Arbeit verlassen kann.

Warum dieses Ergebnis heraussticht

Bildgenerierung ist zu einem der am schnellsten voranschreitenden Felder der KI geworden. Viele Systeme können inzwischen ansprechende Bilder erzeugen, doch Konsistenz bleibt das schwierigere Problem. Nutzer wollen nicht nur etwas optisch Beeindruckendes. Sie wollen ein System, das den Kontext versteht, Vorgaben einhält und nicht vom Gewünschten abweicht.

Laut dem bereitgestellten Quelltext zeigte ChatGPT Images 2.0 genau dort die größten Fortschritte. ZDNET schrieb, das Modell habe sich “dramatically” verbessert, und hob insbesondere ein besseres Kontextverständnis hervor. Der Artikel betonte außerdem die Texterkennung bzw. Textdarstellung, ein Bereich, in dem Bildmodelle historisch zu kämpfen hatten. Wenn ein Modell lesbaren, passenden Text in ein Bild einfügen kann und dabei dem Prompt treu bleibt, wird es deutlich nützlicher für Präsentationen, Mockups, Diagramme, Bildungsvisualisierungen und leichte Designaufgaben.

Googles Nano Banana brach im Vergleich nicht ein. Eine Bewertung von 85 % spricht weiterhin für ein leistungsfähiges System. Der Bericht sagt jedoch, dass es bei Prompt-Disziplin und Textverarbeitung stolperte, zwei Schwächen, die außerhalb des lockeren Experimentierens schnell zum Ausschlusskriterium werden können. Praktisch heißt das: Ein Nutzer kann zwar weiterhin ein beeindruckendes Bild von Googles Modell erhalten, verbringt aber womöglich mehr Zeit mit Korrekturen oder erneuten Durchläufen.

Was sich seit der letzten Runde geändert hat

Das Auffälligste an dem Artikel ist nicht nur, dass ChatGPT gewonnen hat, sondern wie deutlich es im Vergleich zum vorherigen Benchmark gewonnen hat. ZDNET sagte, dass Nano Banana bei ähnlichen Tests im Dezember 2025 93 % erreichte, während ChatGPT nur 74 % schaffte, teilweise weil es einige Popkultur-Prompts ablehnte. Im neuesten Vergleich stieg OpenAIs Modell auf 97 %, während Geminis Wert auf 85 % fiel.

Diese Verschiebung legt nahe, dass zwei getrennte Entwicklungen gleichzeitig stattfinden könnten. Erstens scheint OpenAI die Kernqualität der Generierung und das Befolgen von Anweisungen verbessert zu haben. Zweitens sind Benchmark-Ergebnisse in dieser Kategorie fragil, weil sie stark von Prompt-Politik, Ablehnungsverhalten und Modell-Tuning abhängen. Ein Unternehmen kann das Produktverhalten so ändern, dass ein Modell intelligenter, permissiver, vorsichtiger oder alles zugleich wirkt.

Das ist für Nutzer wichtig, die Tools über die Zeit hinweg vergleichen. Bei KI-Bildern ist Leistung nicht statisch. Ein Modell, das vor ein paar Monaten klar hinterherhinkte, kann schnell zum Leader werden, wenn seine Schwächen eng begrenzt waren und die Produktteams sich auf deren Behebung konzentriert haben.

Über bloßen Augenreiz hinaus wird der Unternehmenswert klarer

Der Quelltext weist auf eine breitere Erkenntnis hin: Bildmodelle werden zunehmend nach ihrem Nutzen beurteilt, nicht nach ihrer Neuheit. OpenAI hatte bereits die Idee eingeführt, dass ChatGPT Images 2.0 Kontext und reale Daten effektiver nutzen könne als zuvor. Dieser Vergleich überträgt dieses Argument auf die üblichen Bildgenerierungsaufgaben und legt nahe, dass das neue Modell bei den Kernfähigkeiten keine Kompromisse zugunsten fortgeschrittener Funktionen eingeht.

Das ist wichtig, weil Unternehmen und Fachleute nicht für jede visuelle Aufgabe separate Werkzeuge wollen. Sie wollen ein System, das Ideenfindung, textlastige Grafiken und kontextreiche Generierung ohne ständiges Nachbessern der Prompts beherrscht. Wenn die ZDNET-Tests repräsentativ sind, bewegt sich ChatGPT Images 2.0 näher an diese Allzweckrolle heran.

Der Artikel weist außerdem darauf hin, dass Namensgebung und Verpackung selbst Teil des Problems werden. Nutzer sollen mit überlappenden Produktbezeichnungen, Modi und Versionen über mehrere KI-Plattformen hinweg Schritt halten. Diese Verwirrung mag kosmetisch wirken, hat aber reale Folgen. Käufer, Teams und nicht fachkundige Nutzer können schwerer erkennen, was tatsächlich verbessert wurde und welche Fähigkeit sie gerade testen.

Der Vorbehalt: Personalisierung kann zum Datenschutzproblem werden

Die ernsteste Warnung im Ausgangsartikel betrifft überhaupt nicht die Bildqualität. ZDNET schrieb, Geminis “personalization surprise” habe Datenschutzbedenken ausgelöst. Auch wenn der bereitgestellte Text kein konkretes Endbeispiel nennt, macht er klar, dass eines der auffälligsten Ergebnisse des Vergleichs ein Verhalten betraf, das als “freaky and uncool” empfunden wurde.

Diese Warnung verdient Aufmerksamkeit, weil Bildmodelle sich in Richtung stärkerer Kontextwahrnehmung und tieferer Integration mit Nutzerdaten bewegen. Dieselbe Fähigkeit, die einem Modell hilft, relevantere und besser zugeschnittene Ergebnisse zu liefern, kann Nutzer auch irritieren, wenn es zu viel zu wissen scheint, zu viel ableitet oder ohne klare Erwartung personalisiert.

Das dürfte zu einer der nächsten großen Bruchlinien im Wettbewerb um Consumer-KI werden. Genauigkeit und Kreativität bleiben wichtig, aber Vertrauen wird zunehmend ebenso wichtig. Ein Modell, das invasiv wirkt, kann an Boden verlieren, selbst wenn es technisch gut abschneidet.

Was der Test wirklich zeigt

Die größere Geschichte ist, dass die Bildgenerierung in eine reifere Phase eintritt. Der Wettbewerb dreht sich nicht mehr nur darum, wer das schönste Bild erzeugen kann. Es geht darum, welches System Absichten zuverlässig in Ergebnisse umsetzen, Vorgaben bewahren und das tun kann, ohne die Komfortgrenzen des Nutzers zu überschreiten.

Auf Basis des bereitgestellten Quelltexts hat OpenAI derzeit in diesem Bereich Rückenwind. ChatGPT Images 2.0 scheint genügend seiner früheren Schwächen behoben zu haben, um in diesem speziellen Vergleich einen starken Google-Rivalen zu überholen. Derselbe Test zeigt aber auch, wie schnell die Erwartungen der Nutzer steigen. Starke Visuals sind inzwischen die Baseline. Prompt-Disziplin, lesbarer Text, Kontextbewusstsein und Datenschutzverhalten werden zu den neuen Kriterien.

Das macht das Ganze weniger zu einem einmaligen Sieg als zu einem Hinweis darauf, wohin sich der Markt bewegt. Die Gewinner bei KI-Bildern werden nicht nur bessere Bilder erzeugen. Sie werden verlässlichere Ergebnisse liefern und den Nutzern zugleich Vertrauen darin geben, wie diese Ergebnisse zustande kommen.

Dieser Artikel basiert auf einer Berichterstattung von ZDNET. Den Originalartikel lesen.

Originally published on zdnet.com