超知能チームの最初の動き
最近Microsoftが設立した超知能チーム——現在の大規模言語モデルの性能を超えるAI能力を開発する任務を持つ内部グループ——は最初の製品を発表しました:MAI-Image-2。これはテキストから画像を生成するモデルで、MicrosoftがMicrosoft製品スイート全体に統合しており、Azure AIプラットフォームを通じてAPI経由で開発者に提供しています。
この発表は、Microsoftの内部にあるやや謎めいた部門からの具体的な成果の登場を示しています——この部門はAIの次の段階として同社が位置付ける発展に向けて、相当なタレントとリソースを集めてきました。MAI-Image-2は、DALL-E 3(MicrosoftがOpenAIからライセンスしている)、Midjourney、Stable Diffusion、GoogleのImagen シリーズが既に存在する競争的な画像生成市場に参入しています。
MAI-Image-2とは
MAI-Image-2はテキストから画像を生成する生成モデルです——ユーザーがテキスト説明を入力すると、モデルが対応する画像を生成します。このような出力の品質、一貫性、スタイルの柔軟性は過去3年間で劇的に改善され、現在の最先端技術は写真的にリアルな画像、油絵からピクセルアートまでの様々な芸術スタイル、そして数年前には自動生成が不可能だった複雑な構図シーンを含んでいます。
Microsoftはまだ MAI-Image-2の詳細な技術仕様を公開していませんが、Microsoftの製品全体でのモデルの展開は、Microsoft Designer、Bingのimage Creator、およびOfficeアプリケーションに組み込まれたCopilotアシスタントなどのツールに統合されることを示唆しています。APIの可用性は、Microsoftが開発者の採用も争いたいことを示しています——MAI-Image-2を生成バックエンドとして使用するサードパーティアプリケーションのパイプラインを構築するつもりです。
Microsoftが独自のモデルを必要とする理由
Microsoftの現在の主要な画像生成能力は、OpenAIとのパートナーシップを通じてDALL-E 3で提供されています。独自の生成能力を構築することはMicrosoftに複数の利点をもたらします:優先事項が常に一致するとは限らないパートナーからの独立、大規模での推論あたりのコスト削減、Microsoftの特定のユースケースに合わせたモデルの微調整能力、そして実行可能な代替案を持つことによる交渉力です。
超知能チームの使命は画像生成を超えています——現在のtransformerベースのモデルを最終的に超える可能性がある将来のAIアーキテクチャの研究を含みます。しかし製品を出荷することは、チームが純粋な研究の地平ではなく実用的な製品のタイムラインで運営されていることを示唆しており、これはAI業界の残りの部分がMicrosoftの社内能力についてどのように考えるべきかを変えています。
競争的状況
Microsoftの利点は配布です:Officeエコシステムは数億人のユーザーに到達し、画像生成をWord、PowerPoint、およびTeamsに直接統合することで、ユーザーが独立した画像生成サービスを探す必要のないアクセスしやすいエントリーポイントが作成されます。MAI-Image-2が現在の最先端で競争的に機能する場合、配布の利点は技術的な差別化よりも重要である可能性があります。
MAI-Image-2のより広い意義は、具体的な能力についてというよりも、それが示すものについてである可能性があります:Microsoftが OpenAIを通じてルーティングされないAI能力開発に投資していること、そして超知能チームの仕事が今や外界に見える成果を生み出していることを示しています。
この記事はThe Decoderの報告に基づいています。元の記事を読む。
Originally published on the-decoder.com


