XiaomiのMiMo-V2.5はKVCacheを同等ソリューションの7分の1に圧縮し、損益分岐点を維持しながら99%の値下げを実現。
XiaomiのMiMo-V2.5はKVCacheを同等ソリューションの7分の1に圧縮し、損益分岐点を維持しながら99%の値下げを実現。

XiaomiのMiMo-V2.5シリーズモデルは、KVCacheストレージを同等ソリューションの約7分の1に圧縮することでAPI価格を99%削減したと同社は発表。中国のAI価格設定が損失覚悟の戦略によるものだという見方に挑戦状を叩きつけた。
「MiMo-V2.5シリーズの推論効率は、単一のブレークスルーによるものではなく、スタック全体にわたる多次元的で協調的な最適化の結果です」と、MiMo責任者の羅福莉(Luo Fuli)氏は技術ブログで述べた。「これにより初めて、Hybrid SWAが長文脈推論におけるアーキテクチャ上の優位性を最大限に発揮できました。」
この最適化は、ハイブリッドSliding Window AttentionにMixture-of-Expertsとマルチモーダルアーキテクチャを組み合わせた方式を軸に、KVCache管理、階層型キャッシング、スケジューリング戦略、プリフィル・デコードパイプラインに至る推論スタック全体を再構築した。KVCacheストレージはフルアテンション方式と比較してメモリ使用量が7分の1となり、長いシーケンスのシナリオにおける推論コストを大幅に削減。システムは93%から95%のサーバーキャッシュヒット率を達成し、読み取り要求の大半がGPU計算をほぼ必要としないことを意味する。
このコストブレークスルーにより、Xiaomiは中国の混雑する大規模言語モデル市場において、DeepSeek、智譜(Zhipu)、ByteDanceのDoubao、Alibabaの通義千問(Tongyi)と直接競争できる立場となった——同セクターの2年にわたる価格競争を特徴づけてきたマージン侵蚀なしで。発表時、Xiaomi株は2.5%上昇、空売り比率は31%であり、機関投資家による活発なヘッジ活動を示している。
6つのエンジニアリングの柱、1つのコストチェーン
99%の割引は特に、長期会話においてユーザーが過去のコンテキストを再度読み込む部分に関連する「Input(Cache Hit)」価格帯に適用される。羅福莉氏の技術ブログは、この割引を持続可能にする6つの相互接続された最適化を詳述している。
第1に、モデルアーキテクチャは70層中60層にSliding Window Attentionを採用し、各層は直近の128トークンにのみ注目する。フルコンテキストの「アーキビスト」として機能するのはわずか10層であり、KVCacheサイズをフルアテンションモデルの7分の1に削減する。第2に、チームはKVCacheを2つの独立したメモリプール——10層のフルアテンション層用の大容量プールと、60層のSWA層用の小容量プール——に分割し、単一GPUで5倍の同時ユーザー数を処理可能にした。
第3に、プレフィックスキャッシングシステムは「ウィンドウセキュリティ長」ルールでアップグレードされ、SWAモードでのキャッシュミスマッチを防止し、実環境でのヒット率を93%以上に押し上げた。第4に、XiaomiのストレージチームはGCacheと呼ばれる分散キャッシュを構築し、GPUマシン内のSSDに直接展開。別途ストレージクラスターとその月額コストを不要にした。
第5に、カスタムスケジューリングシステム「LLM-Router」はアフィニティスケジューリング、長さベースのバケッティング、TTFT最適化を実行——同じプレフィックスを持つリクエストを同一サーバーにルーティングし、短いリクエストと長いリクエストを異なるチャネルに分離し、キャッシュ負荷の高いリクエストを推論キューで優先処理する。テストではL2キャッシュヒット率が25%向上し、長いリクエストのP90レイテンシが30%低減した。
第6に、モデルはネイティブで3層マルチトークン予測をサポートし、次の3トークンを同時に予測し、予測が正しい場合の中間計算をスキップする。エージェントシナリオでは、最初の128トークンで2.3倍、128~256トークンで1.5倍の高速化を実現した。
デベロッパーエコシステムと競争上の賭け
MiMoは100兆トークンのクリエイターインセンティブプログラムを開始し、54万人以上の応募者を集め、累計100兆の無料トークンを配布。その価値は6500万元(約13億円)以上に相当する。このプログラムはMiMoプラットフォームのデベロッパー採用を促進し、モデルのユーザーベースに堀を築くことを目的としている。
コスト構造はXiaomi自身の損益計算書にとどまらず重要である。DeepSeekは中国のAI業界全体の価格ベンチマークを底辺まで引き下げ、すべての競合他社に価格合わせかプレミアムの正当化を強要している。Xiaomiのアプローチ——補助金ではなくエンジニアリング主導のコスト削減——は、同社がライバルがキャッシュを燃焼しているかもしれない領域で低価格を持続できることを示唆する。同社は最近、今年の利益が半減し、AI投資に600億元(約1.2兆円)を投入していることを明らかにしており、値下げの損益分岐点達成の主張は、Xiaomiの資本配分を追跡する投資家にとって重要なシグナルとなる。
投資家にとっての疑問は、Xiaomiが競合他社に先んじて推論コスト優位性をデベロッパー市場シェアに変換できるかどうかである。DeepSeek、Alibabaの通義千問、ByteDanceのDoubaoはすべて同等のエンジニアリングリソースを持ち、独自のKVCache最適化で応答する可能性がある。Xiaomi株は30%超の空売り比率で取引されており、同社のAIへの賭けがより確立されたライバルに対して実を結ぶかどうかについて、市場が依然として意見を二分していることを示している。
本記事は情報提供のみを目的としており、投資助言を構成するものではありません。