엔비디아, 200억 달러 규모 Groq IP 통합하여 저지연 AI 추론 구현
GTC 2026 컨퍼런스에서 엔비디아는 200억 달러 규모의 Groq 지적 재산 및 팀 인수를 통해 탄생한 첫 주요 제품인 Groq LPX 추론 랙을 출시했습니다. 이 시스템은 Groq의 저지연 처리 장치(LPU) 아키텍처를 엔비디아 GPU와 통합하여 AI 추론을 최적화합니다. "어텐션 FFN 분리(Attention FFN Disaggregation)"라는 기술을 사용하여 시스템은 하드웨어 강점에 따라 작업을 위임합니다. GPU는 동적 어텐션 계산을 관리하고, 새로운 LP30 LPU 칩은 정적 순방향 신경망(FFN) 계산을 처리하여 대화형 AI 애플리케이션의 응답 지연을 크게 줄입니다.
투자자들에게 결정적으로, LP30 칩은 삼성의 SF4 공정에서 제조되며 고대역폭 메모리(HBM)를 사용하지 않습니다. 이는 새로운 LPX 시스템이 엔비디아에 점진적인 생산 능력과 수익을 의미한다는 것을 뜻합니다. 왜냐하면 이 시스템은 회사의 희소한 TSMC N3 제조 슬롯이나 HBM 공급을 소비하지 않기 때문입니다. 이는 쉽게 복제할 수 없는 핵심 경쟁 우위입니다.
Vera ETL256 랙, 256개 CPU 탑재로 AI 병목 현상 해소
대규모 AI 작업에서 증가하는 CPU 병목 현상을 해결하기 위해 엔비디아는 Vera ETL256을 선보였습니다. 이 고밀도 액체 냉각 시스템은 단일 랙에 256개의 새로운 Vera CPU를 탑재합니다. 이 설계는 데이터 준비 및 강화 학습과 같은 작업의 대규모 병렬 처리 요구 사항을 직접적으로 대상으로 합니다. 이러한 작업에서 CPU 가용성은 전반적인 GPU 활용도를 제한할 수 있습니다. 엔비디아는 모든 랙 내 연결을 구리 케이블로 연결할 수 있는 지점까지 컴퓨팅 밀도를 통합함으로써, 랙 내에서 더 비싼 광 트랜시버의 필요성을 없애고 액체 냉각 비용을 상쇄합니다.
CPU 랙과 함께 엔비디아는 STX 스토리지 참조 아키텍처를 공개했습니다. 이 아키텍처는 AI용 스토리지 시스템 구성을 표준화하여 드라이브, Vera CPU, BlueField DPU 및 네트워킹 구성 요소의 필요한 조합을 지정합니다. Dell, HPE, IBM 등 주요 스토리지 공급업체의 지원을 받는 STX 아키텍처는 컴퓨팅 및 네트워킹에서 스토리지 계층으로 엔비디아의 확장을 확고히 합니다. 이는 이전에는 다른 회사들이 통제하던 영역이었습니다.
엔비디아, 전체 AI 인프라 시장 장악 목표
LPX, Vera ETL256 및 STX 시스템의 통합 출시는 명확한 전략적 전환을 시사합니다. 엔비디아는 AI 인프라 스택 전체를 제공하기 위해 공격적으로 움직이며, 시장 지배력을 확장하는 깊이 통합된 생태계를 구축하고 있습니다. 이러한 플랫폼 전략은 이미 Cadence 및 HPE와 같은 파트너들이 엔비디아의 최신 하드웨어 기반의 새로운 솔루션을 발표하면서 추진력을 얻고 있습니다. 이 발표들은 젠슨 황 CEO가 2027년까지 1조 달러 규모의 시스템 주문을 확보하겠다는 예측을 엔비디아가 어떻게 달성할 계획인지에 대한 구체적인 로드맵을 제공합니다.
CPU 및 스토리지 시장에 체계적으로 진출함으로써 엔비디아는 AI 하드웨어 총 지출에서 훨씬 더 큰 점유율을 차지할 수 있도록 스스로를 포지셔닝하고 있습니다. 이러한 움직임은 해당 부문의 기존 플레이어들에게 경쟁을 심화시키고, AI 산업의 대규모 인프라 구축을 위한 핵심 공급업체로서 엔비디아의 역할을 강화합니다.