Un nouveau fournisseur de données parie que les mondes de jeux peuvent entraîner l’intelligence machine pour le monde réel
Origin Lab a levé un tour seed de 8 millions de dollars pour construire une place de marché reliant les entreprises de jeux vidéo aux laboratoires d’IA développant ce que l’on appelle des modèles du monde. L’idée est simple, mais potentiellement importante : à mesure que les systèmes d’IA s’éloignent du texte pour entrer dans la robotique, la simulation et le raisonnement physique, ils ont besoin de données d’entraînement qui capturent la manière dont les objets, les espaces et le mouvement se comportent. Origin Lab estime qu’une grande partie de ces données structurées existe déjà dans l’industrie du jeu vidéo.
Le tour a été mené par Lightspeed Ventures, avec la participation de SV Angel, Eniac, Seven Stars et FPV, ainsi qu’un soutien d’anges investisseurs comprenant Kevin Lin, cofondateur de Twitch, et Kyle Vogt, fondateur de Cruise. Cette liste d’investisseurs est importante, car elle suggère que l’entreprise est perçue moins comme un simple business de licence de contenu de niche que comme une infrastructure pour une chaîne d’approvisionnement IA en expansion.
Pourquoi les bâtisseurs de modèles du monde ont besoin de données différentes
Les grands modèles de langage ont été construits sur l’abondance du texte internet. Les systèmes conçus pour raisonner sur des environnements physiques ne disposent pas d’un réservoir de données aussi pratique. Selon la cofondatrice d’Origin Lab, Anne-Margot Rodde, les systèmes d’IA en cours de développement doivent comprendre comment le monde physique fonctionne et comment les choses se déplacent. Cela crée un goulot d’étranglement autour de données de haute qualité, aux droits clairs, utiles pour le raisonnement spatial plutôt que pour la simple complétion de texte.
Les jeux vidéo constituent une source séduisante parce qu’ils contiennent des environnements numériques, des objets, des interactions et des schémas de mouvement qui peuvent être rendus, enregistrés ou transformés en formats prêts pour les modèles. Dans la vision d’Origin Lab, l’industrie détient des actifs précieux mais manque de l’infrastructure nécessaire pour les empaqueter et les concéder sous licence aux laboratoires d’IA de manière efficace. La startup dit qu’elle jouera ce rôle de passerelle, en transformant des actifs de jeux existants en données d’entraînement allant de scènes rendues à des séquences de gameplay automatisées.
Le modèle économique dépend de la licence et de la qualité des données
Le concept n’est pas entièrement nouveau. Les laboratoires d’IA s’intéressent depuis longtemps aux images de jeux et aux environnements de simulation de type jeu. Ce qui manquait, c’était une couche commerciale robuste capable de résoudre à la fois les problèmes d’accès juridique et d’utilisabilité. Le texte source souligne que les questions de licence et de qualité des données ont souvent freiné un usage plus large. C’est là qu’Origin Lab tente de se différencier.
Pour les laboratoires d’IA, des entrées sous licence réduisent l’ambiguïté juridique qui peut entourer des données récupérées ou issues de sources informelles. Pour les studios de jeux, le modèle offre une nouvelle source de revenus à partir d’actifs numériques qu’ils ont déjà créés. Si la plateforme fonctionne, elle pourrait convertir des contenus auparavant monétisés par les ventes et l’engagement en un marché secondaire pour l’entraînement des modèles.
C’est aussi pourquoi le calendrier de l’entreprise compte. L’article note qu’OpenAI a fait l’objet de critiques fin 2024 lorsqu’une première version de Sora semblait reproduire des images de jeux vidéo et de streamers, ce qui montrait que la provenance des données d’entraînement devenait sensible sur les plans commercial et réputationnel. Origin Lab propose en quelque sorte une voie plus propre : obtenir les droits, standardiser les données et les vendre à des laboratoires capables de payer pour un approvisionnement fiable.
Les fournisseurs de données deviennent une infrastructure stratégique
Faraz Fatemi, partenaire chez Lightspeed, a présenté l’opportunité dans des termes déjà familiers dans d’autres activités liées à l’IA : les grands laboratoires sont bien capitalisés, et les données restent un goulot d’étranglement. Cela fait écho à la trajectoire de croissance observée chez les entreprises qui fournissent de l’évaluation, de l’annotation ou des opérations de données. Le pari d’Origin Lab est que le développement des modèles du monde créera une catégorie de fournisseurs comparable, axée sur des jeux de données de type simulation et riches en mouvement.
L’importance de ce changement dépasse une seule startup. Il suggère que l’économie de l’IA entre dans une phase où les jeux de données propriétaires ou structurés peuvent être aussi stratégiquement précieux que les architectures de modèles. Dans cet environnement, les entreprises capables de sourcer, légaliser et opérationnaliser des données difficiles à obtenir peuvent devenir des intermédiaires puissants, même sans construire elles-mêmes de modèles de frontière.
Ce que cela dit de la prochaine bataille de l’IA
La proposition d’Origin Lab reflète une transition plus large dans les priorités de l’IA. La question n’est plus seulement de faire passer la génération de texte à l’échelle. Il s’agit de plus en plus de construire des systèmes capables de percevoir des environnements, de raisonner sur des objets et, à terme, d’interagir avec le monde physique. Cela pousse le marché vers de nouveaux types de données, et vers des entreprises capables de les débloquer.
Reste à démontrer si les actifs de jeux deviendront une entrée fondamentale pour les modèles du monde. Les environnements synthétiques sont utiles, mais ils ne sont pas le monde réel, et les laboratoires devront encore décider dans quelle mesure les données dérivées des jeux se transfèrent vers des applications concrètes de robotique ou d’intelligence incarnée. Même ainsi, la startup cible une contrainte réelle. Si la recherche sur les modèles du monde s’accélère, la demande de jeux de données obtenus légalement et techniquement adaptables devrait augmenter elle aussi.
Cela fait d’Origin Lab bien plus qu’un simple pari de licence. C’est un indicateur précoce du niveau de spécialisation croissant de la chaîne d’approvisionnement de l’IA. Dans la prochaine phase du secteur, les entreprises qui compteront ne seront peut-être pas seulement celles qui entraînent les modèles. Elles pourront aussi être celles qui décident ce que les modèles ont le droit de voir.
Cet article est basé sur un reportage de TechCrunch. Lire l’article original.
Originally published on techcrunch.com





