El último modelo de imagen de OpenAI parece haber cerrado una brecha importante

Una nueva ronda de pruebas de generación de imágenes de ZDNET sugiere que OpenAI ha dado un salto significativo en calidad de imagen y manejo de prompts. En una comparación de nueve pruebas publicada el 27 de abril, ChatGPT Images 2.0 obtuvo un 97%, superando a Nano Banana de Google Gemini, que consiguió un 85%. El resultado importa porque una comparación anterior había dejado a ChatGPT claramente por detrás del sistema de imágenes de Google. Esta vez, la clasificación se invirtió.

El artículo de origen presenta el resultado como algo más que un simple duelo modelo contra modelo. Sostiene que la actualización de OpenAI no solo es mejor de forma incremental, sino que ha mejorado de manera espectacular en áreas que importan en el uso cotidiano: seguir instrucciones, manejar texto dentro de las imágenes y mantener las salidas alineadas con el prompt original. Son exactamente las tareas que suelen separar una demo llamativa de una herramienta en la que la gente puede confiar para trabajo real.

Por qué este resultado destaca

La generación de imágenes se ha convertido en uno de los frentes de más rápido avance en IA. Muchos sistemas ya pueden producir imágenes atractivas, pero la consistencia sigue siendo un problema más difícil. Los usuarios no solo quieren algo visualmente impactante. Quieren un sistema que entienda el contexto, obedezca las restricciones y no se desvíe de lo que se pidió.

Según el texto de la fuente proporcionada, ahí es donde ChatGPT Images 2.0 mostró sus mayores avances. ZDNET dijo que el modelo había mejorado de forma “dramática” y señaló específicamente una mejor conciencia del contexto. El artículo también destacó la renderización de texto, un área en la que históricamente los modelos de imagen han tenido dificultades. Si un modelo puede colocar texto legible y apropiado dentro de una imagen sin dejar de ser fiel al prompt, se vuelve mucho más útil para presentaciones, maquetas, diagramas, recursos visuales educativos y tareas ligeras de diseño.

Gemini Nano Banana no fracasó en la comparación. Una puntuación del 85% sigue sugiriendo un sistema capaz. Pero el informe dice que tropezó con la disciplina del prompt y el manejo del texto, dos debilidades que pueden convertirse rápidamente en un obstáculo fuera de la experimentación casual. En términos prácticos, eso significa que un usuario todavía podría obtener una imagen llamativa del modelo de Google mientras dedica más tiempo a corregirla o a volver a ejecutarla.