O mais recente modelo de imagem da OpenAI parece ter fechado uma lacuna importante
Uma nova rodada de testes de geração de imagens da ZDNET sugere que a OpenAI deu um salto significativo em qualidade de imagem e no tratamento de prompts. Em uma comparação de nove testes publicada em 27 de abril, o ChatGPT Images 2.0 marcou 97%, superando o Nano Banana do Google Gemini, que marcou 85%. O resultado importa porque uma comparação anterior havia colocado o ChatGPT bem atrás do sistema de imagens do Google. Desta vez, a classificação se inverteu.
O artigo original enquadra o resultado como algo mais do que uma simples disputa modelo contra modelo. Ele argumenta que a atualização da OpenAI não é apenas incrementalmente melhor, mas dramaticamente aprimorada em áreas que importam para o uso cotidiano: seguir instruções, lidar com texto dentro das imagens e manter as saídas alinhadas ao prompt original. Essas são exatamente as tarefas que costumam separar uma demonstração chamativa de uma ferramenta em que as pessoas podem confiar para trabalho real.
Por que este resultado se destaca
A geração de imagens se tornou uma das frentes de evolução mais rápida em IA. Muitos sistemas agora conseguem produzir imagens atraentes, mas a consistência continua sendo um problema mais difícil. Os usuários não querem apenas algo visualmente impressionante. Eles querem um sistema que entenda o contexto, obedeça a restrições e não se desvie do que foi pedido.
De acordo com o texto-fonte fornecido, foi aí que o ChatGPT Images 2.0 mostrou seus maiores ganhos. A ZDNET disse que o modelo havia melhorado “dramatically” e observou especificamente uma melhor consciência de contexto. O artigo também destacou a renderização de texto, uma área em que modelos de imagem historicamente enfrentam dificuldades. Se um modelo consegue inserir texto legível e apropriado em uma imagem, permanecendo fiel ao prompt, ele se torna muito mais útil para apresentações, mockups, diagramas, recursos visuais educacionais e tarefas leves de design.
O Nano Banana do Google não fracassou na comparação. Uma pontuação de 85% ainda sugere um sistema capaz. Mas o relatório diz que ele tropeçou na disciplina do prompt e no tratamento do texto, duas fraquezas que podem rapidamente se tornar impeditivas fora da experimentação casual. Na prática, isso significa que um usuário ainda pode obter uma imagem impressionante do modelo do Google enquanto gasta mais tempo corrigindo ou refazendo a geração.







