Google añade niveles de inferencia Flex y Priority a la Gemini API

Google está reorganizando la Gemini API en torno al trabajo en segundo plano y al trabajo interactivo

Google ha introducido dos nuevos niveles de servicio para la Gemini API, llamados Flex y Priority, en un movimiento que refleja una división cada vez más marcada en la forma en que los desarrolladores usan los sistemas de IA generativa. Según Google, las aplicaciones modernas de IA incorporan cada vez más dos clases distintas de trabajo: tareas en segundo plano que pueden tolerar retrasos y tareas orientadas al usuario que requieren mayor fiabilidad. Los nuevos niveles están diseñados para permitir a los desarrolladores enrutar ambos tipos de tráfico a través de la misma interfaz síncrona.

Puede parecer una actualización de precios, pero es algo más que eso. Es una declaración de infraestructura sobre hacia dónde va el diseño de aplicaciones de IA.

Qué hacen los nuevos niveles

Flex Inference es la opción optimizada en coste. Google afirma que ofrece un ahorro del 50% frente a la Standard API al reducir la criticidad de las solicitudes, lo que significa que los desarrolladores aceptan menor fiabilidad y más latencia a cambio de un coste más bajo. La compañía posiciona Flex para actualizaciones de CRM en segundo plano, simulaciones de investigación a gran escala y flujos de trabajo agentivos en los que un modelo puede «navegar» o «pensar» entre bastidores sin presión inmediata del usuario.

Priority Inference va en la otra dirección. Google afirma que ofrece el nivel más alto de garantía a un precio premium, pensado para aplicaciones interactivas críticas como chatbots y copilotos, donde la fiabilidad de la respuesta importa más que minimizar el coste.

La decisión clave de diseño es que ambos niveles usan endpoints síncronos estándar. Google dice explícitamente que esto busca eliminar la complejidad de dividir la arquitectura entre el servicio convencional y la Batch API asíncrona.

Por qué esto importa para los desarrolladores

La parte más importante del anuncio no es simplemente un menor coste o una mayor garantía. Es el intento de simplificar la arquitectura. Hasta ahora, los desarrolladores a menudo tenían que gestionar patrones distintos para distintos trabajos de IA, usando API síncronas para el trabajo interactivo y flujos batch asíncronos para tareas más baratas y menos urgentes.

Google está intentando cerrar esa brecha. Ahora los desarrolladores pueden ajustar el nivel de servicio mediante una sola interfaz en lugar de rediseñar flujos de trabajo en torno a modelos de solicitud separados. Esto es especialmente relevante a medida que los sistemas de IA se vuelven más agentivos y empiezan a mezclar acciones visibles para el usuario con procesamiento oculto en segundo plano dentro del mismo producto.

En efecto, la Gemini API se está ajustando para reflejar una nueva realidad de las aplicaciones. Algunas solicitudes forman parte de la conversación. Otras son el trabajo invisible que prepara, investiga, enriquece o evalúa en segundo plano. Tratar esas tareas como categorías de servicio de primera clase tiene sentido práctico.

La economía de la IA agentiva

El mensaje de precios de Google también es revelador. Un nivel 50% más barato para el trabajo tolerante a la latencia reconoce que muchos desarrolladores quieren escalar el uso de IA, pero no pueden justificar pagar tarifas de nivel interactivo por cada tarea. A medida que las aplicaciones se vuelven más autónomas, el volumen de llamadas al modelo no urgentes puede crecer rápidamente.

Eso hace que la segmentación por niveles sea estratégicamente económica. Las empresas necesitan una forma de gastar menos en cognición en segundo plano sin dejar de pagar más donde el fallo o el retraso son inaceptables. Flex y Priority formalizan efectivamente esa separación.

Por ello, el anuncio habla de un mercado más maduro. Los primeros productos de IA generativa a menudo trataban el acceso al modelo como un único servicio premium. Los despliegues más avanzados están obligando a los proveedores a segmentar por urgencia, fiabilidad y presupuesto.

Una superficie de control más explícita

Google describe el cambio como una forma de dar a los desarrolladores «control granular sobre el coste y la fiabilidad». Ese es el enfoque correcto. La compañía no solo está vendiendo acceso a modelos. Está vendiendo control operativo sobre cómo se consumen esos modelos dentro de distintas partes de una aplicación.

Es probable que esto se convierta en un estándar en la industria. A medida que las cargas de trabajo de IA se diversifiquen, los desarrolladores esperarán cada vez más opciones de inferencia que encajen con la lógica del producto, no solo con la identidad del modelo. Los nuevos niveles de Google son una de las señales más claras hasta ahora de que los proveedores ven ya el software agentivo como una mezcla de inteligencia urgente y no urgente, cada una con requisitos de servicio distintos.

Para los equipos que construyen sobre Gemini, la ventaja práctica es inmediata. Ahora pueden elegir inferencia de fondo más barata e inferencia interactiva premium sin salir de la misma superficie síncrona de la API. Para el mercado en general, la conclusión es mayor: la competencia en plataformas de IA está yendo más allá de la calidad del modelo y entrando más a fondo en la economía de las cargas de trabajo y la ingeniería de fiabilidad.

Este artículo se basa en la cobertura de Google AI Blog. Lee el artículo original.

Originally published on blog.google

Google agrega los niveles Flex y Priority a la Gemini API mientras las cargas de trabajo de IA se dividen en dos

Google está reorganizando la Gemini API en torno al trabajo en segundo plano y al trabajo interactivo

Qué hacen los nuevos niveles

Por qué esto importa para los desarrolladores

La economía de la IA agentiva

Una superficie de control más explícita

Comments (0)

Related Articles

Anthropic prohíbe las herramientas de IA en las entrevistas para evaluar a los candidatos

Los modelos de IA separan la lógica de las recetas de la química del sabor

Keep Reading