小米MiMo-V2.5將KVCache壓縮至同級解決方案的七分之一,實現降價99%同時維持損益兩平。
小米MiMo-V2.5將KVCache壓縮至同級解決方案的七分之一,實現降價99%同時維持損益兩平。

小米表示,其MiMo-V2.5系列模型透過將KVCache儲存壓縮至約同級解決方案的七分之一,實現API價格降低99%,挑戰了中國AI定價乃因虧損策略驅動的說法。
MiMo負責人羅福莉在技術部落格中指出:「MiMo-V2.5系列的推理效率並非來自單一突破,而是源於整個技術棧的多維度協同優化。唯有如此,Hybrid SWA才能在長上下文推理中充分發揮其架構優勢。」
該優化圍繞混合滑動窗口注意力(Hybrid Sliding Window Attention)加上混合專家(Mixture-of-Experts)與多模態架構,重構了整個推理技術棧——從KVCache管理、分層快取到排程策略以及預填充-解碼流程。KVCache儲存現在僅佔全注意力替代方案記憶體的七分之一,大幅降低長序列場景下的推理成本。系統實現了93%至95%的伺服器快取命中率,意味著絕大多數重複讀取請求幾乎不需GPU運算。
此成本突破讓小米得以在中國擁擠的大模型市場中,直接與DeepSeek、智譜、字節跳動的豆包以及阿里巴巴的通義千問展開競爭——且無需經歷該行業兩年價格戰中典型的利潤侵蝕。消息公布時,小米股價上漲2.5%,做空比率為31%,顯示機構圍繞該股進行積極避險操作。
六大工程支柱,一條成本鏈
99%的降價幅度專門針對輸入(快取命中)定價層——即與用戶在長對話中重複讀取歷史上下文相關的部分。羅福莉的技術部落格詳細介紹了六項相互關聯的優化,使此降價具有可持續性。
第一,模型架構在其70層中的60層使用滑動窗口注意力,這60層每一層僅關注最近的128個token。僅有10層擔任全上下文的「檔案管理員」,將KVCache大小縮減至全注意力模型的七分之一。第二,團隊將KVCache拆分為兩個獨立的記憶體池——一個大池用於10個全注意力層,一個小池用於60個SWA層——使單個GPU能夠服務五倍以上的並發用戶。
第三,前綴快取系統升級了「窗口安全長度」規則,防止SWA模式下出現快取不匹配,將實際命中率推升至93%以上。第四,小米儲存團隊構建了一個名為GCache的分散式快取,直接部署在GPU機器內的SSD上,無需獨立的儲存叢集及相關月度成本。
第五,名為LLM-Router的自訂排程系統執行親和性排程、基於長度的分桶以及TTFT優化——將具有相同前綴的請求路由到同一伺服器,將短請求和長請求分入不同通道,並在推理佇列中優先處理快取密集型請求。測試顯示,L2快取命中率提升25%,長請求的P90延遲降低30%。
第六,該模型原生支援三層多重Token預測,一次預測接下來的三個token,並在預測正確時跳過中間運算。在代理型場景中,這為前128個token帶來了2.3倍的加速,為128至256個token帶來了1.5倍的加速。
開發者生態系統與競爭格局
MiMo已啟動一項100萬億Token的創作者激勵計劃,已吸引超過54萬申請者,累計分發100萬億免費Token,價值超過6500萬元人民幣。該計劃旨在加深開發者對MiMo平台的採用,圍繞模型的用戶群建立護城河。
成本結構的重要性不僅體現在小米自身的損益表上。DeepSeek已將整個中國AI行業的定價基準拖至谷底,迫使每家競爭對手要麼跟進價格,要麼證明溢價的合理性。小米的路徑——以工程驅動降低成本而非依靠補貼——表明該公司能夠在競爭對手可能燒錢的情況下維持更低價格。該公司近期披露,在投入600億元人民幣用於AI投資的同時,今年利潤腰斬,因此降價的損益兩平聲明對關注小米資本配置的投資者而言,是一個關鍵信號。
對投資者而言,問題在於小米能否在競爭對手複製其架構之前,將其推理成本優勢轉化為開發者市場份額。DeepSeek、阿里巴巴的通義千問以及字節跳動的豆包均擁有相當的工程資源,並可能推出自己的KVCache優化方案。小米股票目前做空比率超過30%,顯示市場對該公司能否在AI押注上戰勝更成熟的競爭對手仍存在分歧。
本文僅供資訊參考,不構成投資建議。