샤오미 MiMo-V2.5, KVCache 혁신으로 추론 비용 99% 절감

샤오미의 MiMo-V2.5 시리즈 모델이 KVCache 저장 공간을 경쟁 솔루션 대비 약 7분의 1로 압축해 API 가격을 99% 인하했다고 회사 측이 밝혔다. 이는 중국 AI 가격 책정이 적자 감수 전략에 기인한다는 기존 시각에 도전하는 내용이다.

"MiMo-V2.5 시리즈의 추론 효율성은 단일 돌파구가 아닌, 전체 스택에 걸친 다차원적이고 조율된 최적화에서 비롯됐습니다," 라고 MiMo 총괄 나푸리가 기술 블로그에서 밝혔다. "그래야 비로소 Hybrid SWA가 장문 추론에서 아키텍처적 장점을 완전히 실현할 수 있었습니다."

이 최적화는 KVCache 관리, 계층형 캐싱, 스케줄링 전략, 프리필-디코드 파이프라인 등 전체 추론 스택을 하이브리드 슬라이딩 윈도우 어텐션과 MoE(Mixture-of-Experts), 그리고 멀티모달 아키텍처를 중심으로 재구성했다. KVCache 저장 공간은 풀 어텐션(Fulll Attention) 대비 7분의 1의 메모리만 차지해 장문 시나리오에서 추론 비용을 대폭 줄였다. 시스템은 93~95%의 서버 캐시 히트율을 달성해, 반복 읽기 요청의 대부분이 GPU 연산을 거의 필요로 하지 않는다.

이번 비용 혁신은 샤오미가 중국의 혼잡한 거대 언어 모델 시장에서 딥시크(DeepSeek), 지푸(Zhipu), 바이트댄스의 더우바오(Doubao), 알리바바의 퉁이(Qianwen)와 직접 경쟁할 수 있는 위치를 마련해줬다. 이는 지난 2년간의 가격 전쟁을 특징지었던 마진 악화 없이 이뤄낸 성과다. 샤오미 주식은 발표 당시 2.5% 상승했으며, 공매도 비율은 31%로 기관의 적극적인 헤징 움직임이 포착됐다.

6가지 엔지니어링 기둥, 하나의 비용 사슬

99% 할인은 특히 Input(Cache Hit) 가격 등급, 즉 사용자가 긴 대화에서 과거 컨텍스트를 재읽는 부분에 적용된다. 나푸리의 기술 블로그는 이 할인이 지속 가능하도록 만드는 6가지 상호 연결된 최적화를 상세히 설명했다.

첫째, 모델 아키텍처는 전체 70개 레이어 중 60개 레이어에 슬라이딩 윈도우 어텐션을 적용하며, 각 레이어는 가장 최근 128개 토큰만 처리한다. 오직 10개 레이어만이 전체 컨텍스트를 보는 '아키비스트(archivist)' 역할을 수행해 KVCache 크기를 풀 어텐션 모델 대비 7분의 1로 줄였다. 둘째, 팀은 KVCache를 두 개의 독립적인 메모리 풀(10개 풀 어텐션 레이어용 대형 풀, 60개 SWA 레이어용 소형 풀)로 분할해 단일 GPU가 5배 더 많은 동시 사용자를 처리할 수 있게 했다.

셋째, 프리픽스 캐싱 시스템은 '윈도우 보안 길이' 규칙으로 업그레이드돼 SWA 모드에서 캐시 불일치를 방지, 실제 히트율을 93% 이상으로 끌어올렸다. 넷째, 샤오미의 스토리지 팀은 GCache라는 분산 캐시를 GPU 머신 내부의 SSD에 직접 구축해 별도의 스토리지 클러스터와 그에 따르는 월 비용을 없앴다.

다섯째, LLM-Router라는 맞춤형 스케줄링 시스템이 어피니티 스케줄링, 길이 기반 버케팅, TTFT 최적화를 수행한다. 동일한 프리픽스를 가진 요청을 동일 서버로 라우팅하고, 짧은 요청과 긴 요청을 다른 채널로 분리하며, 캐시 비중이 높은 요청을 추론 큐에서 우선 처리한다. 테스트 결과 L2 캐시 히트율은 25% 증가했고, 긴 요청의 P90 지연 시간은 30% 감소했다.

여섯째, 모델은 3계층 멀티 토큰 예측(Multi-Token Prediction)을 기본 지원해, 한 번에 다음 3개 토큰을 예측하고 예측이 맞으면 중간 연산을 건너뛴다. 에이전트 시나리오에서 이는 처음 128개 토큰에 대해 2.3배, 128~256개 토큰에 대해 1.5배의 가속을 제공했다.

개발자 생태계와 경쟁 과제

MiMo는 100조(trillion) 토큰 크리에이터 인센티브 프로그램을 출시해 54만 명 이상의 신청자를 유치했으며, 누적 100조 개의 무료 토큰을 배포했고 이는 6,500만 위안 이상의 가치에 해당한다. 이 프로그램은 MiMo 플랫폼의 개발자 채택을 확대해 모델 사용자층에 해자(moat)를 구축하는 것을 목표로 한다.

이번 비용 구조는 샤오미 자체 손익계산서 이상의 의미를 갖는다. 딥시크는 중국 AI 업계 전체의 가격 기준을 최저 수준으로 끌어내려 모든 경쟁사가 가격을 맞추거나 프리미엄을 정당화해야 하는 상황을 만들었다. 샤오미의 접근 방식, 즉 보조금이 아닌 엔지니어링 주도 비용 절감은 경쟁사들이 현금을 태우는 상황에서도 샤오미가 낮은 가격을 지속할 수 있음을 시사한다. 샤오미는 최근 AI 투자에 600억 위안을 쏟아부으면서 올해 이익이 반감됐다고 공시했으며, 이에 따라 가격 인하에도 손익분기점을 유지할 수 있다는 주장은 샤오미의 자본 배분을 추적하는 투자자들에게 중요한 신호로 작용한다.

투자자들에게 남은 과제는 경쟁사들이 아키텍처를 복제하기 전에 샤오미가 추론 비용 우위를 개발자 시장 점유율로 전환할 수 있느냐다. 딥시크, 알리바바의 퉁이, 바이트댄스의 더우바오 모두 유사한 엔지니어링 자원을 보유하고 있으며 자체적인 KVCache 최적화로 대응할 가능성이 있다. 샤오미 주식의 공매도 비율은 30%를 넘어, 시장이 샤오미의 AI 베팅이 더 확고한 경쟁사들을 상대로 성공할지 여부에 대해 여전히 의견이 분분함을 시사한다.

본 기사는 정보 제공 목적으로만 작성되었으며, 투자 조언을 구성하지 않습니다.