Un modèle plus fort avec un vieux problème toujours présent

Le GPT-5.5 d’OpenAI est arrivé avec le genre de titre qui définit généralement la sortie d’un modèle majeur : il occupe désormais la première place de l’Artificial Analysis Intelligence Index, devant les principaux concurrents d’Anthropic et de Google, selon le texte source fourni. Sur le plan des performances, cela rend le lancement facile à résumer. La partie la plus difficile est que le même rapport décrit une faiblesse persistante et sérieuse : l’hallucination.

Le compte rendu de The Decoder présente GPT-5.5 comme un modèle qui améliore le rapport prix-performance à la frontière sans résoudre l’un des défauts comportementaux les plus tenaces des grands modèles de langage. Cette combinaison devient de plus en plus centrale dans l’évaluation des systèmes d’IA avancés. De meilleurs scores et une meilleure efficacité comptent. Mais il compte aussi de savoir si un modèle sait quand il ne sait pas.

Ce qui s’est amélioré

La source indique que GPT-5.5 atteint 60 points sur l’Artificial Analysis Intelligence Index, le plaçant trois points devant Claude Opus 4.7 et Gemini 3.1 Pro Preview, qui étaient à égalité à 57. Elle précise aussi que le modèle utilise environ 40 pour cent de tokens en moins que GPT-5.4. Cette réduction de tokens est importante, car elle modifie l’économie du lancement.

Nominalement, le prix de l’API de GPT-5.5 a doublé pour atteindre 5 dollars par million de tokens d’entrée et 30 dollars par million de tokens de sortie, par rapport à GPT-5.4. Mais une consommation de tokens plus faible atténue cette hausse en pratique. La source estime que l’augmentation effective du coût est d’environ 20 pour cent une fois les gains d’efficacité pris en compte. En termes de benchmarks, elle soutient aussi que GPT-5.5 peut atteindre des scores du niveau de Claude Opus 4.7 avec un calcul moyen pour un coût bien inférieur à celui du modèle d’Anthropic au réglage maximal.

C’est le genre d’arbitrage que les développeurs remarquent réellement. La course aux modèles de pointe ne consiste plus seulement à savoir qui domine un classement. Il s’agit de déterminer si les gains de performance arrivent avec une consommation de tokens raisonnable, une latence maîtrisable et une fiabilité suffisante pour justifier un déploiement en production. À ces critères, GPT-5.5 semble renforcer la position d’OpenAI.