Le Premier Coup de l'Équipe de Superintelligence

L'équipe de superintelligence récemment établie par Microsoft — un groupe interne chargé de développer des capacités d'AI au-delà des performances actuelles des grands modèles de langage — a livré son premier produit : MAI-Image-2, un modèle de génération de texte en image que Microsoft intègre dans toute sa suite de produits et met à disposition des développeurs via sa plateforme Azure AI par API.

L'annonce marque le début d'un résultat concret de ce qui a été une division quelque peu mystérieuse au sein de Microsoft — une qui a attiré des talents et des ressources importants alors que l'entreprise se positionne pour ce qu'elle décrit comme la prochaine phase du développement de l'AI. MAI-Image-2 entre sur un marché concurrentiel de génération d'images qui comprend déjà DALL-E 3 (que Microsoft autorise auprès d'OpenAI), Midjourney, Stable Diffusion et la série Imagen de Google.

Qu'est-ce que MAI-Image-2

MAI-Image-2 est un modèle génératif de texte en image — les utilisateurs saisissent une description textuelle et le modèle produit une image correspondante. La qualité, la cohérence et la flexibilité stylistique de telles sorties se sont considérablement améliorées au cours des trois dernières années, et l'état de l'art englobe maintenant l'imagerie photorréaliste, les styles artistiques allant de la peinture à l'huile au pixel art, et les scènes de composition complexes qui étaient impossibles à générer automatiquement il y a seulement quelques années.

Microsoft n'a pas publié de spécifications techniques détaillées pour MAI-Image-2, mais le déploiement du modèle dans les produits Microsoft suggère qu'il sera intégré dans des outils tels que Microsoft Designer, Image Creator dans Bing et potentiellement des assistants Copilot intégrés dans les applications Office. La disponibilité de l'API indique que Microsoft souhaite également concourir pour l'adoption par les développeurs — en construisant un pipeline d'applications tierces qui utilisent MAI-Image-2 comme backend de génération.

Pourquoi Microsoft a Besoin de Son Propre Modèle

La capacité principale actuelle de génération d'images de Microsoft provient de son partenariat avec OpenAI, via DALL-E 3. Construire des capacités de génération propriétaires offre à Microsoft plusieurs avantages : l'indépendance vis-à-vis d'un partenaire dont les priorités peuvent ne pas toujours s'aligner, des coûts d'inférence plus faibles à grande échelle, la capacité à affiner les modèles pour des cas d'usage spécifiques de Microsoft et le pouvoir de négociation qui vient avec l'existence d'alternatives viables.

Le mandat de l'équipe de superintelligence est plus large que la génération d'images — il englobe la recherche sur les futures architectures d'AI qui pourraient éventuellement surpasser les modèles actuels basés sur transformer. Mais le lancement d'un produit signale que l'équipe fonctionne selon des calendriers de produit pratiques plutôt que des horizons purement de recherche, ce qui change la façon dont le reste de l'industrie de l'AI devrait considérer les capacités internes de Microsoft.

Le Paysage Concurrentiel

L'avantage de Microsoft est la distribution : l'écosystème Office atteint des centaines de millions d'utilisateurs, et l'intégration de la génération d'images directement dans Word, PowerPoint et Teams crée un point d'entrée accessible qui ne nécessite pas que les utilisateurs cherchent un service de génération d'images autonome. Si MAI-Image-2 fonctionne de manière compétitive avec l'état actuel de l'art, l'avantage de distribution pourrait importer plus que toute différenciation technique.

La signification plus large de MAI-Image-2 peut être moins sur la capacité spécifique et plus sur ce qu'elle signale : que Microsoft investit dans le développement de capacités d'AI qui ne passent pas par OpenAI, et que le travail de l'équipe de superintelligence produit maintenant des résultats visibles pour le monde extérieur.

Cet article est basé sur des reportages de The Decoder. Lire l'article original.

Originally published on the-decoder.com