主なポイント:
- XiaomiのMiMo-V2.5-Pro-UltraSpeedが標準GPUで毎秒1,000トークンを超過
- この速度はFP4量子化とTileRTによるDFlash投機的デコードにより実現
- APIトライアルは6月9日~23日、標準料金の3倍で約10倍の生成速度を提供
主なポイント:

XiaomiのMiMo-V2.5-Pro-UltraSpeedが標準GPUで毎秒1,000トークンを突破 — GPT-5.5の15倍の速度をソフトウェアのみで実現。
XiaomiのMiMo-V2.5-Pro-UltraSpeedは、カスタムシリコンを一切使用せず、標準的な8基GPUの市販ノード上で毎秒1,000トークンを突破。これはGPT-5.5の15倍の速度であり、推論コストとアクセシビリティに関する前提を覆すマイルストーンとなる。
「極限的なモデルとシステムの協調設計がこれを可能にした」と同社は発表で述べている。Artificial Analysisによると、GPT-5.5は毎秒68トークン、Claude Opus 4.6は毎秒71トークンで動作する一方、MiMo-V2.5-ProはコーディングベンチマークでOpusに匹敵する性能を示す。
この速度は2つの連携した技術によって実現される。FP4量子化は、モデルのエキスパート層(1兆パラメータの大部分)を4ビット精度に圧縮し、メモリフットプリントを削減しながら品質の低下をほぼゼロに抑える。DFlash投機的デコードは、マスクされた位置の全ブロックを単一のフォワードパスで埋め、コーディングタスクにおいて検証ラウンドごとに提案された8トークンのうち平均6.3トークンを受け入れる。推論エンジンTileRTは、パイプライン全体をGPU内部に常駐させ、オペレーターごとの起動オーバーヘッドを排除する。
CerebrasはMetaのLlama 3.1 405B(同社の半分以下のサイズのモデル)で毎秒969トークンを達成したが、これはディナープレート大のウェハースケールチップを使用したものだ。GroqのカスタムLPUアーキテクチャは毎秒300〜750トークンで頭打ちとなる。いずれも標準的なクラウドプロバイダーから利用可能なハードウェアでは動作しない。Xiaomiのアプローチはそれが可能であり、しかも標準のMiMoレートの3倍で、約10倍の生成速度を実現する。APIトライアルは6月9日から6月23日まで実施される。
この成果の重要性は単なる数値にとどまらない。毎秒1,000トークンではじめて、厳格なレイテンシ制約を持つアプリケーション — 不正検知、リアルタイム取引シグナル、並列推論チェーン、ライブエージェントループなど — が、毎秒68トークンでは実現不可能だった領域で実用可能となる。MiMo-V2.5-Proはすでに、ほとんどのコーディングベンチマークでClaude Opusに匹敵し、コストは1百万トークンあたり入力約0.43ドル、出力約0.87ドルと、Opusの5ドルおよび25ドルと比較して大幅に低い。
この技術的アプローチの特筆すべき点は、何を必要としないかにある。CerebrasはGPU推論を遅くする帯域幅のボトルネックを解消するため、44GBのオンチップメモリを搭載したウェハースケールチップを設計した。GroqはカスタムLanguage Processing Unitを構築した。Xiaomiは市販GPU — AWSで利用可能なものと同じハードウェア — を使用し、モデルレベルの最適化と専用設計の推論エンジンによって問題を解決した。
FP4量子化は外科的に適用される。エキスパート層のみが圧縮され、他のすべての層はフル精度を維持する。DFlashは、標準的な投機的デコードで使用される逐次的なドラフトステップをスキップし、トークンのブロック全体を一度に提案する。TileRTはこれらを統合し、計算パイプラインを継続的に常駐させることで、通常生成を遅らせる実行ギャップを排除する。
Xiaomi(01810.HK)は、主に業界の注目を浴びることなくAI機能を構築してきた。MiMo-V2.5-Proは4月に、フロンティアモデルに匹敵する性能をその数分の一のコストで実現してローンチされた。UltraSpeedはその同じモデル — 縮小版ではない — を高速化するものであり、FP4-DFlashチェックポイントはすでにHugging Faceでオープンソース化され、コミュニティによるテストが可能となっている。
独立したベンチマークがこの速度主張を確認すれば、XiaomiはCerebrasやGroqが数億ドル規模のカスタムシリコン投資を必要としたことを、標準ハードウェア上のソフトウェアのみで達成したことになる。これは、どの企業が1兆パラメータモデルを本番環境に展開できるのか、そしてそのコストはいくらなのかという計算を根本から変えるものだ。
本記事は情報提供のみを目的としており、投資助言を構成するものではありません。