Le dernier modèle d’image d’OpenAI semble avoir comblé un écart majeur
Une nouvelle série de tests de génération d’images menée par ZDNET suggère qu’OpenAI a franchi un cap important en matière de qualité d’image et de gestion des prompts. Dans une comparaison en neuf tests publiée le 27 avril, ChatGPT Images 2.0 a obtenu 97 %, battant Nano Banana de Google Gemini, qui a obtenu 85 %. Ce résultat compte, car une comparaison précédente plaçait ChatGPT nettement derrière le système d’image de Google. Cette fois, le classement s’est inversé.
L’article source présente ce résultat comme plus qu’un simple affrontement modèle contre modèle. Il avance que la mise à jour d’OpenAI n’est pas seulement un peu meilleure, mais qu’elle s’est nettement améliorée dans des domaines essentiels à l’usage quotidien : suivre les instructions, gérer le texte dans les images et conserver des sorties fidèles au prompt initial. Ce sont précisément les tâches qui séparent souvent une démo spectaculaire d’un outil sur lequel on peut compter pour de vrais travaux.
Pourquoi ce résultat ressort
La génération d’images est devenue l’un des secteurs les plus dynamiques de l’IA. Beaucoup de systèmes peuvent désormais produire de belles images, mais la cohérence reste un problème plus difficile. Les utilisateurs ne veulent pas seulement quelque chose de visuellement impressionnant. Ils veulent un système qui comprenne le contexte, respecte les contraintes et ne s’éloigne pas de ce qui a été demandé.
D’après le texte source fourni, c’est là que ChatGPT Images 2.0 a réalisé ses plus gros progrès. ZDNET a indiqué que le modèle s’était amélioré de façon “dramatic” et a souligné en particulier une meilleure prise en compte du contexte. L’article a également insisté sur le rendu du texte, un domaine dans lequel les modèles d’image ont historiquement eu des difficultés. Si un modèle peut intégrer un texte lisible et pertinent dans une image tout en restant fidèle au prompt, il devient beaucoup plus utile pour les présentations, les maquettes, les schémas, les visuels pédagogiques et les tâches de design légères.
Gemini Nano Banana n’a pas été disqualifié dans la comparaison. Un score de 85 % indique toujours un système capable. Mais le rapport précise qu’il a trébuché sur la discipline du prompt et sur le traitement du texte, deux faiblesses qui peuvent rapidement devenir bloquantes en dehors des expérimentations occasionnelles. En pratique, cela signifie qu’un utilisateur peut toujours obtenir une image frappante avec le modèle de Google, tout en passant plus de temps à la corriger ou à la régénérer.
Ce qui a changé depuis la précédente série
Le détail le plus frappant de l’article n’est pas seulement la victoire de ChatGPT, mais l’ampleur de son avance par rapport au benchmark précédent. ZDNET a indiqué que lors de tests similaires en décembre 2025, Nano Banana avait obtenu 93 % tandis que ChatGPT avait atteint 74 %, en partie parce qu’il refusait certains prompts liés à la culture pop. Dans la comparaison la plus récente, le modèle d’OpenAI est monté à 97 %, tandis que le score de Gemini est tombé à 85 %.
Ce basculement suggère que deux évolutions distinctes pourraient se produire en même temps. Premièrement, OpenAI semble avoir amélioré la qualité de génération de base et le suivi des instructions. Deuxièmement, les résultats de benchmark dans cette catégorie sont fragiles, car ils dépendent fortement de la politique de prompts, du comportement de refus et du réglage du modèle. Une entreprise peut modifier le comportement d’un produit d’une manière qui fait paraître le modèle plus intelligent, plus permissif, plus prudent, ou les trois à la fois.
Cela compte pour les utilisateurs qui comparent des outils dans le temps. Dans l’IA d’image, les performances ne sont pas figées. Un modèle qui semblait clairement en retard il y a quelques mois peut rapidement devenir le leader si ses faiblesses étaient limitées et si les équipes produit se sont concentrées sur leur correction.
Au-delà de l’effet visuel, la valeur pour l’entreprise devient plus claire
Le texte source met en avant une conclusion plus large : les modèles d’image sont de plus en plus jugés sur leur utilité, et non sur leur nouveauté. OpenAI avait déjà avancé l’idée que ChatGPT Images 2.0 pouvait utiliser le contexte et les données réelles plus efficacement qu’auparavant. Cette comparaison étend cet argument à des tâches de génération d’images plus standard et suggère que le nouveau modèle ne sacrifie pas la qualité de base au profit de fonctions avancées.
C’est important, car les entreprises et les professionnels ne veulent pas d’outils séparés pour chaque tâche visuelle. Ils veulent un seul système capable de gérer l’idéation, les graphiques riches en texte et la génération contextualisée sans correction constante des prompts. Si les tests de ZDNET sont représentatifs, ChatGPT Images 2.0 se rapproche de ce rôle polyvalent.
L’article note aussi que la dénomination et l’emballage deviennent eux-mêmes une partie du problème. Les utilisateurs sont censés suivre des étiquettes de produits, des modes et des versions qui se chevauchent sur plusieurs plateformes d’IA. Cette confusion peut sembler superficielle, mais elle a de vraies conséquences. Il devient plus difficile pour les acheteurs, les équipes et les non-spécialistes de savoir ce qui s’est réellement amélioré et quelle capacité ils testent.
La réserve: la personnalisation peut devenir un problème de vie privée
L’avertissement le plus sérieux de l’article source ne concerne pas la qualité de l’image. ZDNET a indiqué que la “personalization surprise” de Gemini avait soulevé des inquiétudes en matière de vie privée. Même si le texte fourni ne détaille pas l’exemple final, il précise clairement que l’un des résultats les plus notables de la comparaison concernait un comportement jugé “freaky and uncool”.
Cette mise en garde mérite l’attention, car les modèles d’image évoluent vers une meilleure prise en compte du contexte et une intégration plus profonde des données utilisateur. La même capacité qui aide un modèle à produire des résultats plus pertinents et mieux adaptés peut aussi déstabiliser les utilisateurs s’il semble en savoir trop, en déduire trop, ou personnaliser sans attente claire.
Cela pourrait devenir l’une des prochaines grandes lignes de fracture dans la compétition de l’IA grand public. La précision et la créativité restent importantes, mais la confiance compte de plus en plus autant. Un modèle perçu comme intrusif peut perdre du terrain même s’il est techniquement performant.
Ce que le test nous dit vraiment
L’histoire plus large, c’est que la génération d’images entre dans une phase plus mature. La compétition ne consiste plus seulement à savoir qui peut faire l’image la plus jolie. Il s’agit de savoir quel système peut convertir de manière fiable l’intention en résultat, préserver les contraintes et le faire sans franchir les limites de confort de l’utilisateur.
D’après le texte source fourni, OpenAI a actuellement l’avantage sur ce terrain. ChatGPT Images 2.0 semble avoir corrigé suffisamment de ses anciennes faiblesses pour dépasser un concurrent solide de Google dans cette comparaison précise. Mais ce même test montre aussi à quelle vitesse les attentes des utilisateurs augmentent. De fortes images sont désormais la base. La discipline des prompts, le texte lisible, la conscience du contexte et le comportement en matière de vie privée deviennent les nouveaux critères.
Il s’agit donc moins d’un triomphe d’un jour que d’un signal de la direction que prend le marché. Les gagnants de l’IA d’image ne se contenteront pas de générer de meilleures images. Ils produiront des résultats plus fiables tout en donnant aux utilisateurs confiance dans la manière dont ces résultats sont façonnés.
Cet article s’appuie sur un reportage de ZDNET. Lire l’article original.
Originally published on zdnet.com







