AI 추론이 메모리 수요를 두 가지 방식으로 재편하고 있다. GPU HBM에서 SSD 기반 스토리지 팟(POD)으로의 KV 캐시 오프로딩은 엔터프라이즈 SSD의 새로운 하위 시장을 창출하고 있으며, 에이전틱 AI 워크로드는 CPU-GPU 비율을 1:1로 밀어올려 LPDRAM 수요를 기존 서버 메모리를 넘어 확장하고 있다.
AI 추론이 메모리 수요를 두 가지 방식으로 재편하고 있다. GPU HBM에서 SSD 기반 스토리지 팟(POD)으로의 KV 캐시 오프로딩은 엔터프라이즈 SSD의 새로운 하위 시장을 창출하고 있으며, 에이전틱 AI 워크로드는 CPU-GPU 비율을 1:1로 밀어올려 LPDRAM 수요를 기존 서버 메모리를 넘어 확장하고 있다.

AI 학습(training)에서 추론(inference)으로의 전환은 HBM을 훨씬 넘어서는 방식으로 메모리 산업을 재편하고 있으며, KV 캐시 오프로딩과 에이전틱 AI 워크로드는 엔터프라이즈 SSD와 LPDRAM에 두 개의 뚜렷한 성장 시장을 창출하고 있다.
"AI의 메모리 시스템은 스토리지 시스템을 완전히 변화시킬 것입니다,"라고 엔비디아(Nvidia) 창립자 겸 최고경영자(CEO) 젠슨 황(Jensen Huang)은 2026년 6월 GTC 타이페이 컨퍼런스에서 말하며, 메모리 인프라를 AI 스택에서 가장 까다로운 부분 중 하나라고 지목했다.
이러한 구조적 변화는 두 가지 힘에 의해 주도된다. 첫째, 추론 워크로드는 KV 캐시 수요의 폭발을 초래하고 있다. KV 캐시는 사전 입력(prefill) 단계에서 키-값 벡터를 저장하여 디코딩 중 중복 연산을 피하는 동적 메모리다. 엔비디아 데이터에 따르면, 쿼리당 평균 출력 토큰 수는 2024년 하반기 이후 연간 5배 이상 급증해 약 3만~4만 토큰에 도달했다. GPU HBM 용량이 소진되면 시스템은 캐시를 폐기하고 재연산해야 하며, 이는 지연 시간(latency)과 총소유비용(TCO)을 높인다.
이를 해결하기 위해 엔비디아는 2025년 3월 Dynamo 소프트웨어를 출시했으며, 이 소프트웨어는 덜 자주 액세스되는 KV 캐시를 CPU DRAM 및 SSD를 포함한 저렴한 메모리 계층으로 오프로드한다. 2026년 1월, 엔비디아는 BlueField-4 DPU로 관리되는 CMX 컨텍스트 메모리 스토리지 플랫폼(Context Memory Storage Platform)을 발표했다. 각 랙은 64개의 BlueField-4 DPU를 사용해 약 9,600테라바이트의 용량을 관리하며, 로컬 SSD와 공유 스토리지 사이에 새로운 "G3.5" 팟(Pod) 수준 컨텍스트 스토리지 계층을 삽입한다. 2026년 컴퓨텍스(Computex)에서 엔비디아의 BlueField-4 DPU 구조 모델에는 이미 SK하이닉스 PEB210 E1.S 및 PE9010 M.2 SSD 샘플이 포함되어 있어, SSD POD 하위 시장이 개념에서 하드웨어로 이동하고 있음을 시사한다.
에이전틱 AI, CPU 메모리 수요 재편
두 번째 동인은 에이전틱 AI(Agentic AI)다. 이 모델은 적극적으로 계획을 세우고, 도구를 호출하며, 결정을 내리고 에이전트 루프를 실행해야 하는데, 이 모든 작업은 CPU가 처리한다. 황 CEO는 에이전트가 나노초 단위의 세계에 살고 있으며, 초저지연(ultra-low latency)이 가장 중요해 CPU 아키텍처의 중요성을 높인다고 말했다.
트렌드포스(TrendForce)는 에이전틱 AI 배포가 확장됨에 따라 CPU 대 GPU 워크로드 비율이 기존 1:4 또는 1:8에서 약 1:1로 전환되어 CPU에 연결된 메모리에 대한 상당한 추가 수요가 창출될 것으로 추정한다. 2026년 에이전틱 워크로드를 위해 출시된 엔비디아의 베라 CPU(Vera CPU)는 최대 1.5테라바이트의 LPDDR5X를 지원하며, 이는 전작 그레이스(Grace) 대비 3배 용량이다.
그러나 트렌드포스는 엔비디아가 차세대 베라 루빈(Vera Rubin) 슈퍼칩 모듈의 SOCAMM 메모리 용량을 절반으로 줄였다고 보도했으며, 이는 2027년 공급업체의 예비 생산 계획에서 엔비디아에 할당된 LPDRAM 용량이 부족하기 때문이라고 지적했다. 이러한 조정은 엔비디아의 전반적인 메모리 수요 감소가 아닌 단기적인 공급 제약을 반영한다.
더 넓은 CPU 시장은 에이전틱 AI를 위한 자체 세대 교체를 겪고 있다. 인텔(Intel)은 제온 6+(Xeon 6+, Clearwater Forest)를 출시했고, AMD는 에픽 베니스(EPYC Venice)를, Arm은 Arm AGI CPU를 발표했으며, 암페어(Ampere)의 AmpereOne MX는 올해 생산에 돌입할 것으로 예상된다. 다중 벤더 경쟁은 업계 전반의 CPU 메모리 수요 성장을 가속화하고 있다.
투자 시사점
메모리 투자자들에게 이 두 가지 트렌드는 HBM을 넘어선 성장 시장을 가리킨다. 엔터프라이즈 SSD는 엔비디아, 구글(Google) 및 기타 플랫폼 벤더들이 SSD POD 아키텍처를 출시함에 따라 KV 캐시 오프로딩이라는 새로운 수요 벡터를 확보하고 있다. LPDRAM은 에이전틱 AI가 서버 아키텍처를 균형 잡힌 CPU-GPU 구성으로 밀어붙이면서 CPU 측면에서 구조적 수요 확장을 경험하고 있다.
엔비디아의 베라 루빈에 대해 지적된 공급 제약은 단기적으로 LPDRAM 용량이 타이트할 수 있음을 시사하며, LPDRAM 생산의 대부분을 장악하고 있는 SK하이닉스, 삼성전자(Samsung Electronics), 마이크론 테크놀로지(Micron Technology) 등 기존 메모리 제조업체에 혜택이 될 수 있다. SSD 제조업체의 경우, AI 인프라에서 전용 컨텍스트 스토리지 계층의 등장은 2년 전에는 존재하지 않았던 새로운 시장(TAM)을 의미한다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.