OpenAIの最新画像モデルは大きな差を埋めたようだ
ZDNETによる新たな画像生成テストの結果、OpenAIは画像品質とプロンプト処理の両面で大きな飛躍を遂げた可能性がある。4月27日に公開された9項目の比較では、ChatGPT Images 2.0が97%を獲得し、Google GeminiのNano Bananaは85%だった。この結果が重要なのは、以前の比較ではChatGPTがGoogleの画像システムに大きく後れを取っていたからだ。今回は順位が逆転した。
元記事は、この結果を単純なモデル対モデルの勝負以上のものとして位置づけている。OpenAIの更新は単に少し良くなっただけではなく、日常的な利用で重要な領域、つまり指示に従うこと、画像内のテキストを扱うこと、出力を元のプロンプトに沿わせ続けることにおいて、劇的に改善したと論じている。これらはまさに、派手なデモと実務で信頼できるツールとを分ける要素だ。
この結果が際立つ理由
画像生成は、AIの中でも最も急速に進化している分野の一つになった。多くのシステムは今や魅力的な画像を生成できるが、一貫性は依然として難しい課題だ。ユーザーが求めているのは、見た目が印象的なものだけではない。文脈を理解し、制約を守り、要求から逸脱しないシステムだ。
提供された原文によれば、ChatGPT Images 2.0 が最も大きく進歩したのはまさにそこだ。ZDNETは、このモデルが“dramatically”改善したと述べ、特に文脈認識の向上を指摘した。記事はまた、画像モデルが歴史的に苦手としてきた分野であるテキスト描画にも言及している。プロンプトに忠実でありながら、読みやすく適切なテキストを画像内に配置できるなら、そのモデルはプレゼン資料、モックアップ、図解、教育用ビジュアル、軽量なデザイン作業にとってはるかに有用になる。
GoogleのNano Bananaがこの比較で完全に崩れたわけではない。85%というスコアは、依然として十分に有能なシステムであることを示している。しかし報告によると、プロンプトへの忠実さとテキスト処理でつまずいた。これら2つの弱点は、軽い試用の段階を超えるとすぐに致命的な問題になり得る。実用上は、Googleのモデルでも印象的な画像は得られるかもしれないが、修正や再生成により多くの時間を費やすことになる。





