Xiaomi MiMo-V2.5 reduce el costo de inferencia un 99% con un avance en KVCache

La serie de modelos MiMo-V2.5 de Xiaomi logra una reducción del 99% en el precio de la API al comprimir el almacenamiento de KVCache a aproximadamente una séptima parte de las soluciones comparables, según informó la compañía, desafiando la narrativa de que la fijación de precios de la IA china está impulsada por tácticas de pérdida liderada.

"La eficiencia de inferencia de la serie MiMo-V2.5 no proviene de un único avance, sino de optimizaciones coordinadas y multidimensionales en toda la pila", afirmó Luo Fuli, director de MiMo, en un artículo técnico en un blog. "Solo entonces Hybrid SWA pudo realizar plenamente sus ventajas arquitectónicas en inferencia de contexto largo".

La optimización reestructura toda la pila de inferencia —desde la gestión de KVCache y el almacenamiento en caché jerárquico hasta las estrategias de programación y el pipeline de prefill-decode— en torno a una arquitectura híbrida de Sliding Window Attention más Mixture-of-Experts y multimodal. El almacenamiento de KVCache ahora ocupa una séptima parte de la memoria de las alternativas de atención completa, reduciendo drásticamente los costos de inferencia en escenarios de secuencias largas. El sistema logra una tasa de acierto de caché del servidor del 93% al 95%, lo que significa que la gran mayoría de las solicitudes de lectura repetida requieren un cálculo de GPU cercano a cero.

El avance en costos posiciona a Xiaomi para competir directamente con DeepSeek, Zhipu, Doubao de ByteDance y Tongyi de Alibaba en el saturado mercado chino de modelos grandes, sin la erosión de márgenes que ha caracterizado la guerra de precios de dos años del sector. Las acciones de Xiaomi cotizaban un 2,5% al alza en el momento del anuncio, con una ratio de ventas en corto del 31%, lo que indica una cobertura institucional activa en torno al valor.

Seis pilares de ingeniería, una cadena de costos

El descuento del 99% se aplica específicamente al nivel de precios de Input (Cache Hit), la parte relacionada con la relectura por parte de los usuarios del contexto histórico en conversaciones largas. El blog técnico de Luo Fuli detalló seis optimizaciones interconectadas que hacen sostenible el descuento.

En primer lugar, la arquitectura del modelo utiliza Sliding Window Attention en 60 de sus 70 capas, y cada una de esas capas atiende solo a los 128 tokens más recientes. Solo 10 capas actúan como "archivistas" de contexto completo, reduciendo el tamaño de KVCache a una séptima parte de un modelo de atención completa. En segundo lugar, el equipo dividió KVCache en dos grupos de memoria independientes —un grupo grande para las 10 capas de atención completa y un grupo pequeño para las 60 capas SWA—, lo que permite que una sola GPU atienda a cinco veces más usuarios concurrentes.

En tercer lugar, el sistema de caché de prefijos se actualizó con una regla de "longitud de seguridad de ventana" que evita desajustes de caché en el modo SWA, elevando las tasas de acierto reales por encima del 93%. En cuarto lugar, el equipo de almacenamiento de Xiaomi construyó una caché distribuida llamada GCache desplegada directamente en los SSD dentro de las máquinas GPU, eliminando la necesidad de un clúster de almacenamiento separado y sus costos mensuales asociados.

En quinto lugar, un sistema de programación personalizado llamado LLM-Router realiza programación de afinidad, agrupación por longitud y optimización de TTFT —dirigiendo solicitudes con el mismo prefijo al mismo servidor, separando solicitudes cortas y largas en diferentes canales, y priorizando las solicitudes con mucha caché en la cola de inferencia. Las pruebas mostraron un aumento del 25% en la tasa de acierto de caché L2 y una reducción del 30% en la latencia P90 para solicitudes largas.

En sexto lugar, el modelo admite de forma nativa la predicción de múltiples tokens en tres capas, prediciendo los siguientes tres tokens a la vez y saltándose el cálculo intermedio cuando las predicciones son correctas. En escenarios de agentes, esto proporcionó una aceleración de 2,3x para los primeros 128 tokens y de 1,5x para los tokens 128 a 256.

Ecosistema de desarrolladores y apuestas competitivas

MiMo ha lanzado un Programa de Incentivos para Creadores de 100 billones de tokens que ha atraído a más de 540.000 solicitantes, con una distribución acumulada de 100 billones de tokens gratuitos valorados en más de 65 millones de yuanes. El programa tiene como objetivo profundizar la adopción por parte de los desarrolladores de la plataforma MiMo, creando un foso en torno a la base de usuarios del modelo.

La estructura de costos importa más allá de la propia cuenta de resultados de Xiaomi. DeepSeek ha llevado el punto de referencia de precios de toda la industria china de IA a niveles mínimos absolutos, obligando a todos los competidores a igualar o justificar las primas. El enfoque de Xiaomi —reducción de costos impulsada por la ingeniería en lugar de subsidios— sugiere que la empresa puede mantener precios más bajos donde los rivales pueden estar quemando efectivo. La compañía reveló recientemente que sus ganancias se redujeron a la mitad este año mientras invierte 60.000 millones de yuanes en IA, lo que hace que la afirmación de punto de equilibrio sobre el recorte de precios sea una señal crítica para los inversores que siguen la asignación de capital de Xiaomi.

Para los inversores, la cuestión es si Xiaomi puede convertir su ventaja en costos de inferencia en cuota de mercado de desarrolladores antes de que los competidores repliquen la arquitectura. DeepSeek, Tongyi de Alibaba y Doubao de ByteDance tienen todos recursos de ingeniería comparables y pueden responder con sus propias optimizaciones de KVCache. Las acciones de Xiaomi cotizan con una ratio de ventas en corto superior al 30%, lo que sugiere que el mercado sigue dividido sobre si la apuesta de IA de la empresa dará sus frutos frente a rivales más consolidados.

Este artículo es solo para fines informativos y no constituye un consejo de inversión.