GPT-5.5 Domine les Benchmarks IA, mais les Hallucinations Restent un Problème

Un modèle plus fort avec un vieux problème toujours présent

Le GPT-5.5 d’OpenAI est arrivé avec le genre de titre qui définit généralement la sortie d’un modèle majeur : il occupe désormais la première place de l’Artificial Analysis Intelligence Index, devant les principaux concurrents d’Anthropic et de Google, selon le texte source fourni. Sur le plan des performances, cela rend le lancement facile à résumer. La partie la plus difficile est que le même rapport décrit une faiblesse persistante et sérieuse : l’hallucination.

Le compte rendu de The Decoder présente GPT-5.5 comme un modèle qui améliore le rapport prix-performance à la frontière sans résoudre l’un des défauts comportementaux les plus tenaces des grands modèles de langage. Cette combinaison devient de plus en plus centrale dans l’évaluation des systèmes d’IA avancés. De meilleurs scores et une meilleure efficacité comptent. Mais il compte aussi de savoir si un modèle sait quand il ne sait pas.

Ce qui s’est amélioré

La source indique que GPT-5.5 atteint 60 points sur l’Artificial Analysis Intelligence Index, le plaçant trois points devant Claude Opus 4.7 et Gemini 3.1 Pro Preview, qui étaient à égalité à 57. Elle précise aussi que le modèle utilise environ 40 pour cent de tokens en moins que GPT-5.4. Cette réduction de tokens est importante, car elle modifie l’économie du lancement.

Nominalement, le prix de l’API de GPT-5.5 a doublé pour atteindre 5 dollars par million de tokens d’entrée et 30 dollars par million de tokens de sortie, par rapport à GPT-5.4. Mais une consommation de tokens plus faible atténue cette hausse en pratique. La source estime que l’augmentation effective du coût est d’environ 20 pour cent une fois les gains d’efficacité pris en compte. En termes de benchmarks, elle soutient aussi que GPT-5.5 peut atteindre des scores du niveau de Claude Opus 4.7 avec un calcul moyen pour un coût bien inférieur à celui du modèle d’Anthropic au réglage maximal.

C’est le genre d’arbitrage que les développeurs remarquent réellement. La course aux modèles de pointe ne consiste plus seulement à savoir qui domine un classement. Il s’agit de déterminer si les gains de performance arrivent avec une consommation de tokens raisonnable, une latence maîtrisable et une fiabilité suffisante pour justifier un déploiement en production. À ces critères, GPT-5.5 semble renforcer la position d’OpenAI.

Pourquoi la question des hallucinations reste importante

La partie la plus préoccupante de la source est l’affirmation selon laquelle GPT-5.5 affiche encore un taux d’hallucination de 86 pour cent sur le benchmark AA Omniscience d’Artificial Analysis. Même avec une précision de premier plan sur ce benchmark centré sur les faits, le modèle continuerait à inventer des réponses plutôt qu’à reconnaître systématiquement ses lacunes.

Cette distinction est cruciale. Un modèle peut surpasser ses rivaux sur des tâches factuelles agrégées tout en restant trop enclin à répondre avec assurance lorsqu’il devrait s’abstenir. Pour les utilisateurs, surtout dans des contextes techniques ou opérationnels, ce comportement n’est pas un détail. C’est souvent la différence entre un assistant utile et un assistant risqué.

La leçon plus large est que les classements d’intelligence et la fiabilité ne sont pas interchangeables. Un meilleur profil de benchmark peut indiquer un meilleur raisonnement, des connaissances plus larges ou une utilisation plus efficace du calcul à l’inférence. Cela ne signifie pas automatiquement que le modèle est devenu discipliné face à l’incertitude. GPT-5.5, tel qu’il est décrit ici, semble plutôt accentuer cet écart que le combler.

Comment cette sortie s’inscrit dans le marché plus large

La source compare GPT-5.5 non seulement à Claude Opus 4.7 d’Anthropic, mais aussi à Gemini 3.1 Pro Preview de Google. Son cadrage suggère que Gemini reste attractif en termes de coût et de polyvalence, notamment dans les produits Google et les tâches de vision, tandis que les derniers systèmes d’OpenAI et d’Anthropic tendent à mener sur le code et le travail agentique. C’est un instantané utile de l’état de la course commerciale à l’IA : les acheteurs ne choisissent pas un modèle unique et abstraitement meilleur, ils associent les points forts d’un modèle à des flux de travail précis.

La sortie de GPT-5.5 ressemble donc moins à un coup décisif qu’à un réajustement de la frontière. OpenAI semble avoir repris l’avantage sur les benchmarks et amélioré l’efficacité en tokens, mais les compromis restent visibles. Le prix a encore augmenté. Les hallucinations restent élevées. Et la suprématie sur les benchmarks n’efface pas la pression concurrentielle de rivaux qui peuvent être moins chers ou mieux calibrés pour certaines tâches.

Ce que cela signifie pour les utilisateurs

Les développeurs peuvent obtenir de meilleures performances de pointe sans hausse proportionnelle des coûts réels en tokens.

Les gains de benchmark ne doivent pas être confondus avec une fiabilité factuelle résolue.

Les cas d’usage à fort enjeu ont toujours besoin de garde-fous, de vérification ou de flux de travail fondés sur l’abstention.

GPT-5.5 constitue donc une étape importante, mais incomplète. Il repousse la frontière des performances et améliore l’efficacité à un niveau qui compte commercialement. En même temps, il conserve la tension fondamentale qui accompagne l’IA générative moderne depuis ses débuts : les systèmes deviennent plus intelligents, mais pas de manière fiable plus humbles. Tant que cela n’évolue pas, chaque nouvelle victoire sur les benchmarks s’accompagnera d’une réserve opérationnelle.

Cet article s’appuie sur le travail de The Decoder. Lire l’article original.

GPT-5.5 Rehausse le Plafond des Benchmarks IA, mais Conserve une Faiblesse Connue

Un modèle plus fort avec un vieux problème toujours présent

Ce qui s’est amélioré

Keep Reading

La Chine durcit l’accès au capital américain pour les opérations technologiques nationales

Pourquoi la question des hallucinations reste importante

Comment cette sortie s’inscrit dans le marché plus large

Ce que cela signifie pour les utilisateurs

Comments (0)

Pourquoi « l’infrastructure d’interaction » pourrait devenir le prochain champ de bataille de l’IA d’entreprise