Xiaomi MiMo-V2.5, KVCache çığır açarak çıkarım maliyetini %99 düşürüyor

Xiaomi, MiMo-V2.5 serisi modellerinin KVCache depolama alanını benzer çözümlere kıyasla yaklaşık yedide birine sıkıştırarak API fiyatlarında yüzde 99 indirim sağladığını belirterek, Çin yapay zeka fiyatlandırmasının zararına satış taktikleriyle yönlendirildiğine dair anlatıya meydan okuyor.

"MiMo-V2.5 serisinin çıkarım verimliliği tek bir atılımdan değil, tüm yığın boyunca çok boyutlu, koordineli optimizasyonlardan kaynaklanıyor," dedi MiMo'nun başkanı Luo Fuli teknik bir blog yazısında. "Ancak o zaman Hybrid SWA, uzun bağlamlı çıkarımda mimari avantajlarını tam olarak gerçekleştirebildi."

Optimizasyon, tüm çıkarım yığınını — KVCache yönetimi ve hiyerarşik önbelleklemeden çizelgeleme stratejilerine ve prefill-decode hattına kadar — hibrit bir Sliding Window Attention artı Mixture-of-Experts ve çok modlu mimari etrafında yeniden yapılandırıyor. KVCache depolama alanı artık tam dikkat alternatiflerinin belleğinin yedide birini kaplayarak, uzun dizi senaryolarında çıkarım maliyetlerini keskin bir şekilde azaltıyor. Sistem yüzde 93 ila 95 arasında sunucu önbellek isabet oranına ulaşıyor; bu, tekrarlanan okuma isteklerinin büyük çoğunluğunun sıfıra yakın GPU hesaplaması gerektirdiği anlamına geliyor.

Maliyet atılımı, Xiaomi'yi Çin'in kalabalık büyük model pazarında DeepSeek, Zhipu, ByteDance'in Doubao'su ve Alibaba'nın Tongyi'si ile doğrudan rekabet edebilecek bir konuma getiriyor — sektörün iki yıllık fiyat savaşını karakterize eden marj erozyonu olmadan. Xiaomi hisseleri duyuru sırasında yüzde 2,5 oranında yükselirken, açığa satış oranı yüzde 31 olarak gerçekleşti ve hisse etrafında aktif kurumsal riskten korunma sinyali verdi.

Altı mühendislik sütunu, tek maliyet zinciri

Yüzde 99 indirim, özellikle Giriş (Önbellek İsabeti) fiyatlandırma kademesi için geçerlidir — uzun konuşmalarda kullanıcıların geçmiş bağlamı yeniden okumasıyla ilgili kısım. Luo Fuli'nin teknik blogu, indirimi sürdürülebilir kılan altı birbirine bağlı optimizasyonu detaylandırdı.

İlk olarak, model mimarisi 70 katmanının 60'ında Sliding Window Attention kullanıyor ve bu katmanların her biri yalnızca en son 128 token'a odaklanıyor. Yalnızca 10 katman tam bağlam "arşivci" olarak görev yaparak KVCache boyutunu tam dikkat modelinin yedide birine düşürüyor. İkinci olarak, ekip KVCache'i iki bağımsız bellek havuzuna ayırdı — 10 tam dikkat katmanı için büyük bir havuz ve 60 SWA katmanı için küçük bir havuz — bu sayede tek bir GPU'nun beş kat daha fazla eşzamanlı kullanıcıya hizmet vermesine olanak tanıdı.

Üçüncü olarak, önek önbellekleme sistemi, SWA modunda önbellek uyumsuzluklarını önleyen ve gerçek dünya isabet oranlarını yüzde 93'ün üzerine çıkaran bir "pencere güvenlik uzunluğu" kuralıyla yükseltildi. Dördüncü olarak, Xiaomi'nin depolama ekibi, doğrudan GPU makinelerinin içindeki SSD'lerde konuşlandırılan GCache adlı dağıtık bir önbellek oluşturarak ayrı bir depolama kümesine ve bununla ilişkili aylık maliyetlere olan ihtiyacı ortadan kaldırdı.

Beşinci olarak, LLM-Router adlı özel bir çizelgeleme sistemi, yakınlık çizelgelemesi, uzunluk tabanlı gruplama ve TTFT optimizasyonu gerçekleştiriyor — aynı öneke sahip istekleri aynı sunucuya yönlendiriyor, kısa ve uzun istekleri farklı kanallara ayırıyor ve çıkarım kuyruğunda önbellek ağırlıklı isteklere öncelik veriyor. Testler, L2 önbellek isabet oranında yüzde 25 artış ve uzun istekler için P90 gecikmesinde yüzde 30 azalma gösterdi.

Altıncı olarak, model doğal olarak üç katmanlı Çoklu Token Tahminini destekliyor, aynı anda sonraki üç token'ı tahmin ediyor ve tahminler doğru olduğunda ara hesaplamayı atlıyor. Ajan senaryolarında bu, ilk 128 token için 2,3 kat ve 128 ila 256 token'lar için 1,5 kat hızlanma sağladı.

Geliştirici ekosistemi ve rekabetçi riskler

MiMo, 100 trilyon Token'lık Yaratıcı Teşvik Programı başlattı ve bu program 540.000'den fazla başvuru çekti; 65 milyon yuan'dan fazla değere sahip kümülatif 100 trilyon ücretsiz token dağıtımı gerçekleştirildi. Program, MiMo platformunun geliştirici tarafından benimsenmesini derinleştirmeyi ve modelin kullanıcı tabanı etrafında bir hendek oluşturmayı amaçlıyor.

Maliyet yapısı, Xiaomi'nin kendi kâr-zarar hesabının ötesinde önem taşıyor. DeepSeek, tüm Çin yapay zeka endüstrisinin fiyatlandırma referansını dip seviyelere çekerek her rakibin ya bu seviyeye uymasını ya da primleri haklı çıkarmasını zorunlu kıldı. Xiaomi'nin yaklaşımı — sübvansiyon yerine mühendislik odaklı maliyet düşürme — şirketin, rakiplerin nakit yakabileceği yerde daha düşük fiyatları sürdürebileceğini gösteriyor. Şirket yakın zamanda, yapay zeka yatırımına 60 milyar yuan aktarırken bu yıl kârlarının yarıya düştüğünü açıkladı ve bu da fiyat indirimindeki başabaş iddiasını, Xiaomi'nin sermaye tahsisini izleyen yatırımcılar için kritik bir sinyal haline getiriyor.

Yatırımcılar için soru, Xiaomi'nin çıkarım maliyeti avantajını, rakipler mimariyi kopyalamadan önce geliştirici pazar payına dönüştürüp dönüştüremeyeceğidir. DeepSeek, Alibaba'nın Tongyi'si ve ByteDance'in Doubao'su benzer mühendislik kaynaklarına sahip ve kendi KVCache optimizasyonlarıyla yanıt verebilir. Xiaomi hisseleri yüzde 30'un üzerinde bir açığa satış oranıyla işlem görüyor ve bu da piyasanın, şirketin yapay zeka bahsinin daha köklü rakiplere karşı karşılığını verip vermeyeceği konusunda bölünmüş olduğunu gösteriyor.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımamaktadır.