De una imagen a un mundo 3D navegable

Investigadores de Nvidia han presentado Lyra 2.0, un sistema diseñado para generar entornos 3D grandes y coherentes a partir de una sola fotografía. La empresa dice que las escenas resultantes pueden explorarse en tiempo real y exportarse a plataformas de simulación como Isaac Sim, donde pueden utilizarse para entrenar robots.

La propuesta es ambiciosa, pero encaja bien con un problema central de la IA moderna para robótica: entrenar agentes en simulación es mucho más fácil, barato y seguro que entrenarlos exclusivamente en el mundo físico, pero una simulación útil sigue dependiendo de construir entornos lo bastante grandes, estables y realistas como para importar de verdad. Si una sola imagen puede dar lugar a una escena coherente que se extiende durante decenas de metros, eso podría reducir de forma material el coste de crear contenido para simulación.

Según el informe, Lyra 2.0 puede generar escenas que abarcan unos 90 metros. Más importante que el tamaño bruto, sin embargo, es la afirmación de que el modelo aborda dos debilidades comunes de métodos anteriores: olvidar lo que ya ha generado y acumular pequeños errores visuales que, con el tiempo, se convierten en distorsiones mayores.

Por qué es difícil generar 3D en trayectorias largas

Los sistemas de IA existentes para generar escenas 3D suelen degradarse a medida que la cámara virtual se aleja del punto de partida. Los colores derivan, la geometría cambia y el entorno pierde consistencia. Si la cámara vuelve más tarde a un área que ya había visto, el modelo puede acabar inventando de nuevo ese lugar en lugar de preservar la continuidad con la vista anterior.

Para la robótica, esos fallos no son cosméticos. Un entorno de simulación que se remodela sutilmente durante la exploración es una base débil para entrenar sistemas encarnados que dependen de una estructura espacial estable. La navegación, la manipulación y la planificación se vuelven menos fiables si el propio mundo no es persistente.

Por eso la coherencia de la escena importa más que la novedad. Un mundo de entrenamiento utilizable necesita suficiente consistencia para que un agente pueda moverse por él como si fuera un lugar, no solo una secuencia de imágenes plausibles.