ChatGPT Images 2.0が新テストでGemini Nano Bananaを上回る

OpenAIの最新画像モデルは大きな差を埋めたようだ

ZDNETによる新たな画像生成テストの結果、OpenAIは画像品質とプロンプト処理の両面で大きな飛躍を遂げた可能性がある。4月27日に公開された9項目の比較では、ChatGPT Images 2.0が97%を獲得し、Google GeminiのNano Bananaは85%だった。この結果が重要なのは、以前の比較ではChatGPTがGoogleの画像システムに大きく後れを取っていたからだ。今回は順位が逆転した。

元記事は、この結果を単純なモデル対モデルの勝負以上のものとして位置づけている。OpenAIの更新は単に少し良くなっただけではなく、日常的な利用で重要な領域、つまり指示に従うこと、画像内のテキストを扱うこと、出力を元のプロンプトに沿わせ続けることにおいて、劇的に改善したと論じている。これらはまさに、派手なデモと実務で信頼できるツールとを分ける要素だ。

この結果が際立つ理由

画像生成は、AIの中でも最も急速に進化している分野の一つになった。多くのシステムは今や魅力的な画像を生成できるが、一貫性は依然として難しい課題だ。ユーザーが求めているのは、見た目が印象的なものだけではない。文脈を理解し、制約を守り、要求から逸脱しないシステムだ。

提供された原文によれば、ChatGPT Images 2.0 が最も大きく進歩したのはまさにそこだ。ZDNETは、このモデルが“dramatically”改善したと述べ、特に文脈認識の向上を指摘した。記事はまた、画像モデルが歴史的に苦手としてきた分野であるテキスト描画にも言及している。プロンプトに忠実でありながら、読みやすく適切なテキストを画像内に配置できるなら、そのモデルはプレゼン資料、モックアップ、図解、教育用ビジュアル、軽量なデザイン作業にとってはるかに有用になる。

GoogleのNano Bananaがこの比較で完全に崩れたわけではない。85%というスコアは、依然として十分に有能なシステムであることを示している。しかし報告によると、プロンプトへの忠実さとテキスト処理でつまずいた。これら2つの弱点は、軽い試用の段階を超えるとすぐに致命的な問題になり得る。実用上は、Googleのモデルでも印象的な画像は得られるかもしれないが、修正や再生成により多くの時間を費やすことになる。

Anthropic、米政府の命令を受けFable 5とMythos 5を停止

Anthropicは、国家安全保障上の懸念と報じられた脱獄リスクに関連する米政府の命令を受け、新モデルFable 5とMythos 5への顧客アクセスを停止した。

Read article

前回から何が変わったのか

この記事で最も印象的なのは、ChatGPTが勝ったことだけでなく、前回のベンチマークと比べてどれほど決定的に上回ったかという点だ。ZDNETによれば、2025年12月に同様のテストを行った際、Nano Bananaは93%、ChatGPTは74%で、これは一部にポップカルチャー関連のプロンプトを拒否したためだった。最新の比較では、OpenAIのモデルが97%まで上昇した一方、Geminiは85%に下がった。

この変化は、2つの別々の変化が同時に起きている可能性を示している。第一に、OpenAIはコアの生成品質と指示追従を改善したようだ。第二に、この分野のベンチマーク結果は、プロンプト方針、拒否動作、モデル調整に強く依存するため脆弱だ。企業は製品の振る舞いを変えることで、モデルをより賢く、より寛容に、より慎重に、あるいはその3つすべてに見せることができる。

これは、時間をかけてツールを比較するユーザーにとって重要だ。画像AIの性能は静的ではない。数か月前には明らかに遅れていたモデルでも、弱点が限定的で、製品チームがそれを改善することに注力すれば、すぐにリーダーになることがある。

見栄えを超えて、企業価値がより明確になっている

原文は、より大きな示唆を指摘している。画像モデルは、もはや新規性ではなく実用性で評価されつつある。OpenAIはすでに、ChatGPT Images 2.0が以前よりも文脈や実データをより効果的に使えるという考え方を打ち出していた。今回の比較はその主張をより標準的な画像生成タスクにまで広げ、新モデルが高度な機能のためにコア品質を犠牲にしていないことを示唆している。

これは重要だ。企業や専門職のユーザーは、あらゆる視覚タスクごとに別々のツールを望んでいるわけではない。発想、文字量の多いグラフィック、文脈豊かな生成を、頻繁なプロンプト修正なしにこなせる単一のシステムを求めている。ZDNETのテストが代表的なら、ChatGPT Images 2.0はその汎用的な役割に近づいている。

記事はまた、名称やパッケージング自体が問題の一部になっているとも指摘する。ユーザーは、複数のAIプラットフォームにまたがる重複した製品名、モード、バージョンを追いかけることを求められている。その混乱は表面的に見えるかもしれないが、実際には大きな影響がある。購入者、チーム、非専門ユーザーが、何が実際に改善されたのか、どの機能を試しているのかを把握しにくくなる。

Congress lets decades-old spying law lapse amid Trump

議会が延長を可決できず、セクション702が失効へ

2008年以降初めて、外国情報監視法のセクション702が、議会が短期延長すら通せなかったことで失効する見込みだ。

Read article

注意点: パーソナライゼーションはプライバシー問題になり得る

元記事で最も深刻な警告は、画像品質そのものではない。ZDNETは、Geminiの“personalization surprise”がプライバシー上の懸念を招いたと述べた。提供された本文には最終的な具体例は書かれていないが、比較で特に注目された振る舞いの一つが“freaky and uncool”に感じられるものだったことは明確だ。

この警告が重要なのは、画像モデルがより高い文脈認識と、ユーザーデータとの深い統合へ向かっているからだ。より関連性の高い、より個別化された結果を出すのに役立つ能力は、同時に、知りすぎているように見えたり、推測しすぎたり、期待なくパーソナライズされたりすると、ユーザーを不安にさせる可能性がある。

これは、消費者向けAI競争における次の主要な分岐点の一つになる可能性が高い。正確性と創造性は依然として重要だが、信頼はそれらと同じくらい重要になりつつある。技術的には優れていても、侵入的だと感じられるモデルは後退することがある。

このテストが本当に示していること

より大きな流れとして、画像生成は成熟段階に入っている。競争はもはや、誰が最もきれいな画像を作れるかだけではない。意図を確実に出力へ変換し、制約を保ち、しかもユーザーの心理的な許容範囲を超えないことができるシステムはどれか、という問題になっている。

提供された原文に基づけば、現在その面ではOpenAIに勢いがある。ChatGPT Images 2.0は、これまでの弱点を十分に修正し、この特定の比較では強力なGoogleの競合を上回ったようだ。しかし同じテストは、ユーザーの期待がどれほど速く高まっているかも示している。強いビジュアルはもはや最低ラインだ。プロンプトへの忠実さ、読みやすいテキスト、文脈認識、プライバシー上の挙動が、新しい評価基準になりつつある。

つまり、これは一日の勝利というより、市場が向かっている方向を示すサインだ。画像AIの勝者は、より良い画像を生成するだけではない。結果の形成方法に対してユーザーが信頼を持てるようにしながら、より確実な結果を生み出す存在になる。

この記事はZDNETの報道に基づいています。元記事を読む。