小米MiMo-V2.5以KVCache突破，推論成本降低99%

小米表示，其MiMo-V2.5系列模型透過將KVCache儲存壓縮至約同級解決方案的七分之一，實現API價格降低99%，挑戰了中國AI定價乃因虧損策略驅動的說法。

MiMo負責人羅福莉在技術部落格中指出：「MiMo-V2.5系列的推理效率並非來自單一突破，而是源於整個技術棧的多維度協同優化。唯有如此，Hybrid SWA才能在長上下文推理中充分發揮其架構優勢。」

該優化圍繞混合滑動窗口注意力（Hybrid Sliding Window Attention）加上混合專家（Mixture-of-Experts）與多模態架構，重構了整個推理技術棧——從KVCache管理、分層快取到排程策略以及預填充-解碼流程。KVCache儲存現在僅佔全注意力替代方案記憶體的七分之一，大幅降低長序列場景下的推理成本。系統實現了93%至95%的伺服器快取命中率，意味著絕大多數重複讀取請求幾乎不需GPU運算。

此成本突破讓小米得以在中國擁擠的大模型市場中，直接與DeepSeek、智譜、字節跳動的豆包以及阿里巴巴的通義千問展開競爭——且無需經歷該行業兩年價格戰中典型的利潤侵蝕。消息公布時，小米股價上漲2.5%，做空比率為31%，顯示機構圍繞該股進行積極避險操作。

六大工程支柱，一條成本鏈

99%的降價幅度專門針對輸入（快取命中）定價層——即與用戶在長對話中重複讀取歷史上下文相關的部分。羅福莉的技術部落格詳細介紹了六項相互關聯的優化，使此降價具有可持續性。

第一，模型架構在其70層中的60層使用滑動窗口注意力，這60層每一層僅關注最近的128個token。僅有10層擔任全上下文的「檔案管理員」，將KVCache大小縮減至全注意力模型的七分之一。第二，團隊將KVCache拆分為兩個獨立的記憶體池——一個大池用於10個全注意力層，一個小池用於60個SWA層——使單個GPU能夠服務五倍以上的並發用戶。

第三，前綴快取系統升級了「窗口安全長度」規則，防止SWA模式下出現快取不匹配，將實際命中率推升至93%以上。第四，小米儲存團隊構建了一個名為GCache的分散式快取，直接部署在GPU機器內的SSD上，無需獨立的儲存叢集及相關月度成本。

第五，名為LLM-Router的自訂排程系統執行親和性排程、基於長度的分桶以及TTFT優化——將具有相同前綴的請求路由到同一伺服器，將短請求和長請求分入不同通道，並在推理佇列中優先處理快取密集型請求。測試顯示，L2快取命中率提升25%，長請求的P90延遲降低30%。

第六，該模型原生支援三層多重Token預測，一次預測接下來的三個token，並在預測正確時跳過中間運算。在代理型場景中，這為前128個token帶來了2.3倍的加速，為128至256個token帶來了1.5倍的加速。

開發者生態系統與競爭格局

MiMo已啟動一項100萬億Token的創作者激勵計劃，已吸引超過54萬申請者，累計分發100萬億免費Token，價值超過6500萬元人民幣。該計劃旨在加深開發者對MiMo平台的採用，圍繞模型的用戶群建立護城河。

成本結構的重要性不僅體現在小米自身的損益表上。DeepSeek已將整個中國AI行業的定價基準拖至谷底，迫使每家競爭對手要麼跟進價格，要麼證明溢價的合理性。小米的路徑——以工程驅動降低成本而非依靠補貼——表明該公司能夠在競爭對手可能燒錢的情況下維持更低價格。該公司近期披露，在投入600億元人民幣用於AI投資的同時，今年利潤腰斬，因此降價的損益兩平聲明對關注小米資本配置的投資者而言，是一個關鍵信號。

對投資者而言，問題在於小米能否在競爭對手複製其架構之前，將其推理成本優勢轉化為開發者市場份額。DeepSeek、阿里巴巴的通義千問以及字節跳動的豆包均擁有相當的工程資源，並可能推出自己的KVCache優化方案。小米股票目前做空比率超過30%，顯示市場對該公司能否在AI押注上戰勝更成熟的競爭對手仍存在分歧。

本文僅供資訊參考，不構成投資建議。