超级智能团队的首个动作

微软最近成立的超级智能团队——一个负责开发超越当前大语言模型性能的AI能力的内部组织——已经交付了首款产品:MAI-Image-2,这是一个文本生成图像的生成模型,微软正在其整个产品套件中集成,并通过其Azure AI平台的API向开发者提供。

这一公告标志着从某种程度上神秘的微软内部部门取得了具体成果——这个部门吸引了大量人才和资源,因为微软将自己定位在所谓AI发展的下一阶段。MAI-Image-2进入一个竞争激烈的图像生成市场,该市场已包括DALL-E 3(微软从OpenAI获得许可)、Midjourney、Stable Diffusion和Google的Imagen系列。

MAI-Image-2是什么

MAI-Image-2是一个文本生成图像的生成模型——用户输入文本描述,模型生成相应的图像。这类输出的质量、连贯性和风格灵活性在过去三年中戏剧性地提高,现在的技术水平包括光学逼真的图像、从油画到像素艺术的各种艺术风格,以及仅在几年前自动生成还不可能的复杂构图场景。

微软没有发布MAI-Image-2的详细技术规范,但该模型在微软产品中的推出表明它将被集成到Microsoft Designer、Bing中的Image Creator以及可能嵌入在Office应用程序中的Copilot助手等工具中。API的可用性表明微软也打算争取开发者采用——建立使用MAI-Image-2作为生成后端的第三方应用程序的管道。

为什么微软需要自己的模型

微软目前的主要图像生成能力来自其与OpenAI的合作伙伴关系,通过DALL-E 3。构建专有生成能力为微软提供了几个优势:独立于优先级可能不总是一致的合作伙伴、大规模推理的更低成本、为特定微软用例微调模型的能力,以及拥有可行替代方案带来的谈判杠杆。

超级智能团队的使命范围超过图像生成——它包括对未来AI架构的研究,这些架构最终可能超越当前的基于transformer的模型。但推出产品表明该团队在实际产品时间表上运营,而不仅仅是研究范围,这改变了AI行业其他部分应该如何看待微软内部能力。

竞争格局

微软的优势是分发:Office生态系统覆盖数亿用户,将图像生成直接集成到Word、PowerPoint和Teams中创造了一个不需要用户寻求独立图像生成服务的易于访问的入点。如果MAI-Image-2与当前技术水平竞争性地执行,分发优势可能比任何技术差异更重要。

MAI-Image-2的更广泛意义可能不是关于特定能力,而更多是关于它所表示的内容:微软正在投资不通过OpenAI进行的AI能力开发,超级智能团队的工作现在正在产生外界可见的成果。

本文基于The Decoder的报道。阅读原文

Originally published on the-decoder.com