OpenAI 的最新图像模型似乎已经弥合了一大差距
ZDNET 最新一轮图像生成测试显示,OpenAI 在图像质量和提示词处理方面取得了显著进步。在 4 月 27 日发布的九项测试对比中,ChatGPT Images 2.0 得分为 97%,击败了 Google Gemini 的 Nano Banana,后者得分为 85%。这一结果意义重大,因为此前的一次对比中,ChatGPT 在图像系统表现上明显落后于 Google。这一次,排名发生了反转。
原文将这一结果描述为不只是简单的模型对模型竞争。文章认为,OpenAI 的更新并非只是小幅提升,而是在日常使用最关键的领域实现了大幅改进:遵循指令、处理图片中的文字,以及让输出与原始提示保持一致。这些正是一个炫酷演示与一个真正可用于实际工作的工具之间最常见的分水岭。
这一结果为何格外引人注目
图像生成已经成为 AI 发展最快的前沿之一。如今许多系统都能生成好看的图片,但一致性仍然更难。用户不只是想要视觉上令人印象深刻的内容,他们更希望系统能理解上下文、遵守限制,并且不偏离所要求的内容。
根据提供的原文,这正是 ChatGPT Images 2.0 进步最明显的地方。ZDNET 表示,该模型“显著”提升,并特别提到了更好的上下文感知能力。文章还强调了文字渲染,这是图像模型长期以来最薄弱的环节之一。如果模型能在忠实于提示词的同时,把可读且合适的文字放进图像中,它就会对演示文稿、样机、图表、教育类视觉内容以及轻量设计任务更有用得多。
Google 的 Nano Banana 并没有在对比中失去竞争力。85% 的成绩依然说明它是一个能力不俗的系统。但报告指出,它在提示词纪律和文字处理方面出现了问题,而这两点一旦在日常使用之外的场景中出错,就很容易变成致命缺陷。实际操作中,这意味着用户或许仍能从 Google 的模型得到一张惊艳图片,但往往需要花更多时间修正或重新生成。
与上一轮相比,变化在哪里
这篇文章最引人注意的细节,不只是 ChatGPT 取胜,而是它与上一轮基准测试相比,胜得更加明显。ZDNET 说,在 2025 年 12 月进行的类似测试中,Nano Banana 得分 93%,而 ChatGPT 只有 74%,部分原因是它拒绝了一些流行文化提示词。在最新对比中,OpenAI 的模型升至 97%,而 Gemini 的得分则降至 85%。
这种变化暗示可能同时发生了两种转变。第一,OpenAI 似乎提升了核心生成质量和对指令的遵循能力。第二,这类基准测试结果本身很脆弱,因为它们高度依赖提示词策略、拒绝行为和模型调参。公司可以通过调整产品行为,让模型看起来更聪明、更宽松、更谨慎,或者三者兼具。
这对长期比较工具的用户来说很重要。在图像 AI 领域,性能并不是静态的。几个月前看起来明显落后的模型,如果它的短板足够集中,而产品团队又专注于修复这些问题,很快就可能成为领先者。
不只是好看,企业价值也更清晰了
原文指出了一个更广泛的结论:图像模型越来越按实用性,而不是新奇感来接受评判。OpenAI 早已提出,ChatGPT Images 2.0 可以比以前更有效地利用上下文和真实数据。这次对比把这一论点延伸到了更标准的图像生成任务中,并表明新模型并没有为了高级功能而牺牲核心质量。
这一点很重要,因为企业和专业人士不想为每一种视觉任务都使用单独工具。他们希望一个系统就能同时处理创意发想、文字密集型图形和上下文丰富的生成,而不必反复修正提示词。如果 ZDNET 的测试具有代表性,那么 ChatGPT Images 2.0 正在更接近这种通用角色。
文章还提到,命名和包装本身也正在成为问题的一部分。用户被要求同时跟上多个 AI 平台上重叠的产品名称、模式和版本。这种混乱看似只是表面问题,但实际上后果不小。买家、团队和非专业用户会更难判断到底哪些地方真的有改进,以及他们正在测试的究竟是哪种能力。
但也有警告:个性化可能变成隐私问题
原文中最严重的警告并不是图像质量,而是隐私。ZDNET 说,Gemini 的“个性化惊喜”引发了隐私担忧。虽然提供的文字没有详细说明最终示例,但它明确指出,这次对比中最值得注意的发现之一,是一种让人感觉“诡异且不舒服”的行为。
这一警示值得重视,因为图像模型正朝着更强的上下文感知能力和更深度的用户数据整合方向发展。帮助模型生成更相关、更贴合个人需求结果的同一种能力,也可能让用户感到不安,如果它看起来知道得太多、推断得太多,或者在没有明确预期的情况下进行了个性化。
这很可能会成为下一阶段消费级 AI 竞争中的主要分界线之一。准确性和创造力依然重要,但信任正变得同样重要。即使技术表现很好,一个让人感觉侵入性的模型也可能失去市场。
这次测试真正说明了什么
更大的故事是,图像生成正在进入一个更成熟的阶段。竞争已不再只是看谁能生成最好看的图片,而是谁能更可靠地把意图转化为输出、保留约束条件,并且不越过用户的舒适边界。
根据提供的原文,OpenAI 目前在这方面占据了势头。ChatGPT Images 2.0 似乎已经修复了足够多的早期问题,从而在这次特定对比中超过了一个强劲的 Google 竞争对手。但同一场测试也表明,用户对模型的期待正在迅速提高。优秀视觉效果如今只是基础门槛。提示词纪律、可读文字、上下文感知和隐私表现,正在成为新的衡量标准。
因此,这更像是市场走向的信号,而不是某一天的胜利庆祝。图像 AI 的赢家不会只是生成更好的图片,而是要在让用户安心的前提下,生成更稳定、更可靠的结果,并且让用户对这些结果是如何形成的有信心。
本文基于 ZDNET 的报道。阅读原文。
Originally published on zdnet.com







