GPT-5.5 が AI ベンチマークで首位に立つも、幻覚がなお影を落とす

古い問題を抱えたままの、より強力なモデル

OpenAI の GPT-5.5 は、大型モデルのリリースを象徴する典型的な見出しとともに登場した。提供された出典テキストによれば、現在このモデルは Artificial Analysis Intelligence Index の首位に立ち、Anthropic や Google の主要競合を上回っている。性能面だけ見れば、このリリースは簡単に要約できる。だが、同じ報告が持続的かつ深刻な弱点として挙げているのは、幻覚だ。

The Decoder の報道は、GPT-5.5 を、大規模言語モデルの最も頑固な行動上の欠陥の一つを解決せずに、最前線の価格対性能を改善したモデルとして描いている。この組み合わせは、先端 AI システムをどう評価すべきかを考えるうえで、ますます中心的になっている。より高いスコアとより高い効率は重要だ。だが、モデルが「知らないことを知っているか」も同じくらい重要である。

何が改善したか

出典によれば、GPT-5.5 は Artificial Analysis Intelligence Index で 60 点を獲得し、57 点で並んだ Claude Opus 4.7 と Gemini 3.1 Pro Preview を 3 点上回った。また、このモデルは GPT-5.4 より約 40 パーセント少ない token しか使わないという。token 消費の削減は、このリリースの経済性を変えるため重要だ。

表面的には、GPT-5.5 の API 価格は入力 token 100 万あたり 5 ドル、出力 token 100 万あたり 30 ドルへと、GPT-5.4 に比べて倍増した。しかし、実際には token 消費が減ることで、その上昇は和らげられる。出典は、効率改善を織り込むと実効的なコスト増は約 20 パーセントだと見積もっている。ベンチマーク面では、Anthropic のモデルを最大設定で使うよりもはるかに低コストで、GPT-5.5 は中程度の compute で Claude Opus 4.7 級のスコアに到達できるとも述べている。

これは開発者が実際に気にする種類のトレードオフだ。フロンティアモデル競争は、単に誰がランキングの首位に立つかだけではなくなっている。性能向上が、妥当な token 使用量、管理可能な latency、そして本番導入に見合うだけの信頼性を伴っているかどうかが問われている。その意味で、GPT-5.5 は OpenAI の立場を強めたように見える。

OpenAI says "chat is dead" and plans to rebuild ChatGPT as a full-blown agent app

OpenAI Declares 'Chat is Dead,' Plans to Rebuild ChatGPT as a Full-Blown Agent App

OpenAI is overhauling ChatGPT into a 'superapp' that bundles coding tools, AI agents, and partner integrations like Canva and Booking.com, moving beyond simple chat.

Read article

幻覚の問題がなお重要な理由

より懸念されるのは、GPT-5.5 が Artificial Analysis の AA Omniscience ベンチマークでなお 86 パーセントの幻覚率を示すという主張だ。事実重視のこのベンチマークで高い精度を示していても、モデルは一貫して情報の不足を認めるのではなく、回答を捏造し続けているとされる。

この違いは決定的だ。モデルは集約的な事実タスクで競合を上回りながら、本来は控えるべき場面で自信をもって答えすぎることがある。特に技術的、あるいは運用上の環境では、ユーザーにとってそれは些細な注記ではない。役立つアシスタントと危険なアシスタントを分ける境目であることが多い。

より広い教訓は、知能ランキングと信頼性は同じではないということだ。ベンチマークの成績向上は、推論力の向上、知識の拡大、あるいは推論時 compute のより効果的な使用を示しているのかもしれない。しかし、それだけで不確実性に対してモデルが慎重になったとは言えない。ここで述べられている GPT-5.5 は、その差を埋めるというより、むしろ再確認しているように見える。

今回のリリースが市場全体で占める位置

出典は GPT-5.5 を Anthropic の Claude Opus 4.7 だけでなく、Google の Gemini 3.1 Pro Preview とも比較している。その構図は、Gemini がコストと汎用性、とりわけ Google 製品群や視覚タスクでなお魅力的である一方、最新の OpenAI と Anthropic のシステムはコーディングや agentic な作業で優位になりがちだと示している。これは商用 AI 競争の現在地を示す有用なスナップショットだ。買い手は抽象的な意味での単一の最良モデルを選ぶのではなく、モデルの強みをワークフローに合わせている。

したがって、GPT-5.5 のリリースは決定的な一撃というより、最前線の再調整に近い。OpenAI はベンチマークの首位を取り戻し、token 効率も改善したようだが、トレードオフは依然として見えている。価格はなお上がったままだ。幻覚も高いままだ。そしてベンチマークでの首位は、特定タスクにより安く、あるいはより適切に最適化された競合からの圧力を消すわけではない。

ユーザーにとっての意味

開発者は、実務上の token コストを比例して増やすことなく、より良い最前線性能を得られる可能性がある。
ベンチマークの向上を、事実面の信頼性が解決した証拠と見なすべきではない。
高リスク用途では、依然としてガードレール、検証、または棄権を重視したワークフローが必要だ。

つまり GPT-5.5 は重要だが、未完成の一歩だ。性能の最前線を押し広げ、商業的に意味のあるほど効率も改善している。同時に、現代の生成 AI が当初から抱えてきた核心的な緊張関係、すなわちシステムは賢くなっているが、信頼できるほど謙虚にはなっていないという問題を残している。それが変わるまでは、新しいベンチマーク勝利のたびに、運用上の但し書きが付くことになる。

この記事は The Decoder の報道に基づいています。元記事を読む。

Microsoft Hacked to Deliver Malware to Claude and Gemini Users

Microsoft Shuts Down 70+ GitHub Repos After Hackers Plant Malware Targeting AI Coding Agents

Microsoft disabled over 70 GitHub repositories after hackers injected malware that steals credentials from AI coding tools like Claude Code and Gemini CLI.

Read article

Originally published on the-decoder.com