古い問題を抱えたままの、より強力なモデル

OpenAI の GPT-5.5 は、大型モデルのリリースを象徴する典型的な見出しとともに登場した。提供された出典テキストによれば、現在このモデルは Artificial Analysis Intelligence Index の首位に立ち、Anthropic や Google の主要競合を上回っている。性能面だけ見れば、このリリースは簡単に要約できる。だが、同じ報告が持続的かつ深刻な弱点として挙げているのは、幻覚だ。

The Decoder の報道は、GPT-5.5 を、大規模言語モデルの最も頑固な行動上の欠陥の一つを解決せずに、最前線の価格対性能を改善したモデルとして描いている。この組み合わせは、先端 AI システムをどう評価すべきかを考えるうえで、ますます中心的になっている。より高いスコアとより高い効率は重要だ。だが、モデルが「知らないことを知っているか」も同じくらい重要である。

何が改善したか

出典によれば、GPT-5.5 は Artificial Analysis Intelligence Index で 60 点を獲得し、57 点で並んだ Claude Opus 4.7 と Gemini 3.1 Pro Preview を 3 点上回った。また、このモデルは GPT-5.4 より約 40 パーセント少ない token しか使わないという。token 消費の削減は、このリリースの経済性を変えるため重要だ。

表面的には、GPT-5.5 の API 価格は入力 token 100 万あたり 5 ドル、出力 token 100 万あたり 30 ドルへと、GPT-5.4 に比べて倍増した。しかし、実際には token 消費が減ることで、その上昇は和らげられる。出典は、効率改善を織り込むと実効的なコスト増は約 20 パーセントだと見積もっている。ベンチマーク面では、Anthropic のモデルを最大設定で使うよりもはるかに低コストで、GPT-5.5 は中程度の compute で Claude Opus 4.7 級のスコアに到達できるとも述べている。

これは開発者が実際に気にする種類のトレードオフだ。フロンティアモデル競争は、単に誰がランキングの首位に立つかだけではなくなっている。性能向上が、妥当な token 使用量、管理可能な latency、そして本番導入に見合うだけの信頼性を伴っているかどうかが問われている。その意味で、GPT-5.5 は OpenAI の立場を強めたように見える。