Why memory is becoming the next AI constraint

AIシステムが高性能になるにつれ、スケールに関する議論は通常、生の計算能力に集中します。しかし、見逃しにくくなっている別の制約があります。それがメモリです。大規模言語モデルは、ユーザーに応答する際、プロンプト、生成されたトークン、中間状態、コンテキストを追跡するための作業メモリを必要とします。この一時保存領域は一般に key-value cache、または KV cache と呼ばれ、使用量に応じて拡大し、すぐに高コストになり得ます。

Googleのエンジニアは、この負担を大幅に軽減する方法を開発したと述べています。TurboQuant と呼ばれるこのシステムは、同じ情報と計算能力を維持しながら、AIモデルに必要な作業メモリを最大6分の1に削減できる圧縮技術として説明されています。この主張が広く実用化された場合、モデル自体が賢くなるわけではありませんが、より安価で大規模に提供しやすくなる可能性があります。

これは重要な違いです。AI業界は何年も、大型モデルと大規模学習を追い求めてきました。TurboQuant は、その方程式の運用面、つまりユーザーが数十億件単位でリクエストを送り始めたあとも、それらのモデルを効率よく動かし続けるために必要なものに焦点を当てています。

What TurboQuant is trying to solve

処理が進行している間、AIシステムは継続して一貫した出力を生成できるよう、直近の計算結果やその他の関連データをメモリに保存します。これは会話、長いプロンプト、多数のトークンを扱うタスクに不可欠です。モデルが一度に保持するコンテキストが多いほど、複雑な作業に役立ちます。しかし、そのコンテキストを保持するにはメモリが必要であり、プロンプトが長くなりユーザーが増えるほどメモリ使用量も増えます。

元の報道によれば、KV cache に数十万トークンを保存すると、数十ギガバイトのメモリが必要になることがあります。この要求はユーザー数に比例して増加します。人気のチャットボットや企業向けAIサービスを運用する事業者にとって、これは直接的なインフラ問題になります。モデルに十分な計算資源があっても、メモリがスループットを制限し、コストを押し上げることがあります。

TurboQuant は、値を少ないビット数で表現する量子化を用いてこれに対処します。簡単に言えば、作業メモリ内のデータを小さな形に圧縮し、それでもモデルが元のデータのように利用できるようにします。約束されているのは、モデルがより多くを学習することではなく、すでに必要な情報をより効率的に保持できるようにすることです。