Tether、TurboQuantをオープンソース化、AIメモリ使用量を5分の1に削減

TetherのAIリサーチグループは月曜日、Google ResearchのアルゴリズムであるTurboQuantのオープンソース実装を公開した。この技術は、トランスフォーマーモデルがコンテキスト追跡に使用するワーキングメモリであるキーバリュー（KV）キャッシュを、既存モデルの再トレーニングやファインチューニングなしで最大5倍に圧縮する。これにより、すべてのタスクをクラウドデータセンター経由でルーティングするのではなく、ラップトップ、スマートフォン、エッジデバイス上で高性能AIを実行することが現実的になる。

「ロングコンテキストAIが最大級のデータセンター内でしか動作しないのであれば、AIは最も多くのハードウェアを所有する者によって形作られることになる」とTetherの最高経営責任者パオロ・アルドイノ氏は声明で述べた。「TurboQuantは、メモリを壁ではなくすることで、ローカルAIの可能性を変える」

KVキャッシュは、長時間のAIセッションをクラウドに追いやるボトルネックである。約26万2000トークン（数時間の会話または数百ページのテキストに相当）において、40億パラメータモデルのKVキャッシュはそれだけで約8ギガバイトのメモリを消費する。その長さで4つの同時セッションを行うと、モデルの重みを考慮する前にキャッシュが32GBを超える。TurboQuantはそのフットプリントを1セッションあたり約1.6GB、4セッションで6.4GBに圧縮し、16GBから32GBのユニファイドメモリを搭載したコンシューマーハードウェアでも対応可能にする。

今回のリリースは、Tetherの分散型AI向けプラットフォームであるQVAC SDK 0.12.0の一部であり、同じアップデートでテキストから動画への生成機能やロボット制御機能も追加された。SDKには、完全な量子化パイプライン、一般的な推論フレームワーク用のアダプター、ドキュメント、ワークロードに最適化されたデプロイプロファイルが含まれている。開発者は、ゼロから始めることなく、再トレーニングやファインチューニングを必要とせずに、既存のモデルにTurboQuantを適用できる。

AIスタックにおいてメモリが重要な理由

メモリの制約は、AIワークロードをハイパースケールデータセンターに集中させてきた構造的な障壁の一つである。KVキャッシュだけで16GBのワーキングメモリを必要とするモデルは、MacBook AirやミッドレンジのAndroidスマートフォンでは動作しない。これを3.2GBに削減することで、デプロイメントの計算式が根本的に変わり、数百ページのドキュメントを処理し、プロジェクト全体のコンテキストを保持し、プライベートデータをローカルで処理できるオンデバイスアシスタントへの道が開かれる。

Tetherの実装は、PolarQuantやQuantized Johnson-Lindenstraussなど、同社がQVACに積み重ねてきたいくつかの先行圧縮技術に基づいている。それぞれが効率性問題の異なる部分をターゲットとしている。TurboQuantは最新のレイヤーであり、3月24日に公開されたGoogle Researchの論文を応用したものである。

今回のオープンソースリリースは、QVACを中心としたエコシステムを成長させ、Tetherのプラットフォームを分散型AIのデフォルトツールキットとして位置づけるための戦略的な一手である。あらゆる開発者がコードを取得し、すぐに自社の推論パイプラインに統合できる。これによりTetherは、llama.cppやOllamaといった既存のローカルAIフレームワーク、さらには推論をデータセンター経由でルーティングすることにビジネスモデルを依存しているクラウドプロバイダーと直接競合することになる。

投資家にとっての意味

1400億ドルのUSDTステーブルコインの発行元として最もよく知られるTetherは、AIインフラストラクチャへの積極的な拡大を進めている。同社の見解は、AIの次のフェーズは、生の計算規模ではなく、ソフトウェアの効率性と可搬性によって定義されるというものだ。TurboQuantの5倍の圧縮効果が、さまざまなモデルアーキテクチャやコンテキスト長で有効であることが確認されれば（独立したベンチマークは未発表）、推論ワークロードの集中型クラウドサービスからローカルデバイスへの移行が加速し、クラウドGPUプロバイダーの収益成長を圧迫する一方で、エッジAIハードウェアのアドレス可能な市場を拡大する可能性がある。

本記事は情報提供のみを目的としており、投資助言を構成するものではない。