Le dernier modèle d’image d’OpenAI semble avoir comblé un écart majeur
Une nouvelle série de tests de génération d’images menée par ZDNET suggère qu’OpenAI a franchi un cap important en matière de qualité d’image et de gestion des prompts. Dans une comparaison en neuf tests publiée le 27 avril, ChatGPT Images 2.0 a obtenu 97 %, battant Nano Banana de Google Gemini, qui a obtenu 85 %. Ce résultat compte, car une comparaison précédente plaçait ChatGPT nettement derrière le système d’image de Google. Cette fois, le classement s’est inversé.
L’article source présente ce résultat comme plus qu’un simple affrontement modèle contre modèle. Il avance que la mise à jour d’OpenAI n’est pas seulement un peu meilleure, mais qu’elle s’est nettement améliorée dans des domaines essentiels à l’usage quotidien : suivre les instructions, gérer le texte dans les images et conserver des sorties fidèles au prompt initial. Ce sont précisément les tâches qui séparent souvent une démo spectaculaire d’un outil sur lequel on peut compter pour de vrais travaux.
Pourquoi ce résultat ressort
La génération d’images est devenue l’un des secteurs les plus dynamiques de l’IA. Beaucoup de systèmes peuvent désormais produire de belles images, mais la cohérence reste un problème plus difficile. Les utilisateurs ne veulent pas seulement quelque chose de visuellement impressionnant. Ils veulent un système qui comprenne le contexte, respecte les contraintes et ne s’éloigne pas de ce qui a été demandé.
D’après le texte source fourni, c’est là que ChatGPT Images 2.0 a réalisé ses plus gros progrès. ZDNET a indiqué que le modèle s’était amélioré de façon “dramatic” et a souligné en particulier une meilleure prise en compte du contexte. L’article a également insisté sur le rendu du texte, un domaine dans lequel les modèles d’image ont historiquement eu des difficultés. Si un modèle peut intégrer un texte lisible et pertinent dans une image tout en restant fidèle au prompt, il devient beaucoup plus utile pour les présentations, les maquettes, les schémas, les visuels pédagogiques et les tâches de design légères.
Gemini Nano Banana n’a pas été disqualifié dans la comparaison. Un score de 85 % indique toujours un système capable. Mais le rapport précise qu’il a trébuché sur la discipline du prompt et sur le traitement du texte, deux faiblesses qui peuvent rapidement devenir bloquantes en dehors des expérimentations occasionnelles. En pratique, cela signifie qu’un utilisateur peut toujours obtenir une image frappante avec le modèle de Google, tout en passant plus de temps à la corriger ou à la régénérer.







