Xiaomi MiMo-V2.5 réduit les coûts d'inférence de 99 % grâce à une percée KVCache

Les modèles de la série MiMo-V2.5 de Xiaomi réalisent une réduction de 99 % du prix de l'API en compressant le stockage KVCache à environ un septième de celui des solutions comparables, a indiqué l'entreprise, contredisant le récit selon lequel la tarification de l'IA chinoise serait motivée par des tactiques de vente à perte.

« L'efficacité d'inférence de la série MiMo-V2.5 ne découle pas d'une seule percée, mais d'optimisations coordonnées multidimensionnelles sur l'ensemble de la pile », a déclaré Luo Fuli, responsable de MiMo, dans un billet technique. « Ce n'est qu'ainsi que Hybrid SWA a pleinement réalisé ses avantages architecturaux dans l'inférence à long contexte. »

L'optimisation restructure l'ensemble de la pile d'inférence — de la gestion de la KVCache et de la mise en cache hiérarchique aux stratégies de planification et au pipeline prefill-decode — autour d'une architecture hybride Sliding Window Attention couplée à Mixture-of-Experts et multimodale. Le stockage KVCache occupe désormais un septième de la mémoire des alternatives à attention complète, réduisant considérablement les coûts d'inférence dans les scénarios de longues séquences. Le système atteint un taux de succès de cache serveur de 93 % à 95 %, ce qui signifie que la grande majorité des requêtes de lecture répétée nécessitent un calcul GPU quasi nul.

Cette percée des coûts positionne Xiaomi pour concurrencer directement DeepSeek, Zhipu, Doubao de ByteDance et Tongyi d'Alibaba sur le marché encombré des grands modèles en Chine — sans l'érosion des marges qui a caractérisé la guerre des prix de deux ans dans ce secteur. Les actions Xiaomi étaient en hausse de 2,5 % au moment de l'annonce, avec un ratio de vente à découvert de 31 %, signalant un couverture institutionnelle active autour du titre.

Six piliers techniques, une seule chaîne de coûts

La remise de 99 % s'applique spécifiquement au niveau de tarification Input (Cache Hit) — la partie liée aux utilisateurs qui relisent le contexte historique dans les longues conversations. Le billet technique de Luo Fuli détaille six optimisations interconnectées qui rendent cette remise durable.

Premièrement, l'architecture du modèle utilise Sliding Window Attention sur 60 de ses 70 couches, chacune de ces couches ne traitant que les 128 tokens les plus récents. Seulement 10 couches agissent comme des « archivistes » de contexte complet, réduisant la taille de la KVCache à un septième de celle d'un modèle à attention complète. Deuxièmement, l'équipe a divisé la KVCache en deux pools mémoire indépendants — un grand pool pour les 10 couches à attention complète et un petit pool pour les 60 couches SWA — permettant à un seul GPU de servir cinq fois plus d'utilisateurs simultanés.

Troisièmement, le système de cache de préfixes a été amélioré avec une règle de « longueur de sécurité de fenêtre » qui empêche les incohérences de cache en mode SWA, poussant les taux de succès réels au-dessus de 93 %. Quatrièmement, l'équipe de stockage de Xiaomi a construit un cache distribué appelé GCache déployé directement sur les SSD des machines GPU, éliminant le besoin d'un cluster de stockage séparé et ses coûts mensuels associés.

Cinquièmement, un système de planification personnalisé appelé LLM-Router effectue une planification d'affinité, un regroupement par longueur et une optimisation TTFT — acheminant les requêtes ayant le même préfixe vers le même serveur, séparant les requêtes courtes et longues dans différents canaux, et priorisant les requêtes à fort cache dans la file d'attente d'inférence. Les tests ont montré une augmentation de 25 % du taux de succès du cache L2 et une réduction de 30 % de la latence P90 pour les requêtes longues.

Sixièmement, le modèle prend en charge nativement la prédiction multi-tokens à trois couches, prédisant les trois tokens suivants à la fois et sautant les calculs intermédiaires lorsque les prédictions sont correctes. Dans les scénarios agentiques, cela a offert une accélération de 2,3x pour les 128 premiers tokens et de 1,5x pour les tokens 128 à 256.

Écosystème développeur et enjeux concurrentiels

MiMo a lancé un programme d'incitation pour créateurs de 100 000 milliards de tokens qui a attiré plus de 540 000 candidats, avec une distribution cumulée de 100 000 milliards de tokens gratuits valorisés à plus de 65 millions de yuans. Le programme vise à approfondir l'adoption de la plateforme MiMo par les développeurs, créant une fosse autour de la base d'utilisateurs du modèle.

La structure des coûts importe au-delà du propre compte de résultat de Xiaomi. DeepSeek a fait chuter l'ensemble du référentiel de prix de l'industrie chinoise de l'IA à des niveaux planchers, forçant chaque concurrent soit à s'aligner, soit à justifier des primes. L'approche de Xiaomi — une réduction des coûts motivée par l'ingénierie plutôt que par des subventions — suggère que l'entreprise peut maintenir des prix plus bas là où ses rivaux brûlent peut-être du cash. La société a récemment révélé que ses bénéfices avaient été réduits de moitié cette année alors qu'elle investit 60 milliards de yuans dans l'IA, faisant de l'affirmation d'équilibre sur la baisse de prix un signal critique pour les investisseurs qui suivent l'allocation du capital de Xiaomi.

Pour les investisseurs, la question est de savoir si Xiaomi peut convertir son avantage en matière de coûts d'inférence en parts de marché chez les développeurs avant que ses concurrents ne reproduisent l'architecture. DeepSeek, Tongyi d'Alibaba et Doubao de ByteDance disposent tous de ressources techniques comparables et pourraient répondre avec leurs propres optimisations de KVCache. Les actions Xiaomi s'échangent avec un ratio de vente à découvert supérieur à 30 %, ce qui suggère que le marché reste divisé sur la question de savoir si le pari IA de l'entreprise portera ses fruits face à des rivaux plus établis.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.