Un modelo más fuerte con un problema antiguo todavía presente
GPT-5.5 de OpenAI ha llegado con el tipo de titular que suele definir el lanzamiento de un modelo importante: ahora ocupa el primer puesto en el Artificial Analysis Intelligence Index, por delante de competidores líderes de Anthropic y Google, según el texto fuente proporcionado. En términos de rendimiento, eso hace que el lanzamiento sea fácil de resumir. La parte más difícil es que el mismo informe describe una debilidad persistente y grave: la alucinación.
La cobertura de The Decoder presenta a GPT-5.5 como un modelo que mejora la relación precio-rendimiento en la frontera sin resolver uno de los fallos de comportamiento más obstinados de los grandes modelos de lenguaje. Esa combinación es cada vez más central para evaluar cómo deben juzgarse los sistemas avanzados de IA. Importan las mejores puntuaciones y la mayor eficiencia. También importa si un modelo sabe cuándo no sabe.
Qué mejoró
La fuente afirma que GPT-5.5 alcanza 60 puntos en el Artificial Analysis Intelligence Index, lo que lo sitúa tres puntos por delante de Claude Opus 4.7 y Gemini 3.1 Pro Preview, que empataron con 57. También indica que el modelo usa alrededor de un 40 por ciento menos de tokens que GPT-5.4. Esa reducción de tokens es importante porque cambia la economía del lanzamiento.
Nominalmente, el precio de la API de GPT-5.5 se duplicó a 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida, en comparación con GPT-5.4. Pero el menor consumo de tokens suaviza ese aumento en la práctica. La fuente estima que el incremento real de coste es de alrededor del 20 por ciento una vez que se tienen en cuenta las mejoras de eficiencia. En términos de benchmarks, también sostiene que GPT-5.5 puede alcanzar puntuaciones del nivel de Claude Opus 4.7 con cómputo medio por mucho menos coste que el modelo de Anthropic en ajustes máximos.
Ese es el tipo de intercambio que los desarrolladores realmente notan. La carrera de los modelos de frontera ya no consiste solo en quién encabeza una clasificación. Se trata de si las mejoras de rendimiento llegan con un uso razonable de tokens, una latencia manejable y suficiente fiabilidad como para justificar su despliegue en producción. En esos términos, GPT-5.5 parece fortalecer la posición de OpenAI.

