화웨이, 중국 AI 칩 자체 설계 주도…엔비디아 시장점유율 '0%'로 추락

중국의 AI 반도체 산업이 엔비디아의 범용 GPU를 복제하려는 시도를 포기하고, 유연성을 희생하더라도 원시 효율성을 극대화하는 맞춤형 ASIC(주문형 반도체)으로 방향을 틀었다. 이는 가장 강력한 미국산 프로세서에 대한 접근을 차단하는 미국의 지속적인 수출 통제로 인해 촉발된 구조적 전환이다.

"강력한 AI 엔지니어링 역량과 명확한 로드맵을 갖춘 기업은 ASIC의 혜택을 누릴 수 있지만, 혼합 워크로드를 운영하는 기업은 여전히 범용 GPU를 선호합니다"라고 Omdia의 수석 애널리스트 수 롄지에는 말했다.

모건스탠리가 5월 8일 발표한 보고서에 따르면, 화웨이 테크놀로지스는 2026년 중국 내 AI 가속기 시장의 62%를 점유할 것으로 예상되며, 캠브리콘 테크놀로지스가 14%로 뒤를 이을 전망이다. 바이두와 알리바바 그룹은 각각 자체 칩을 개발하는 빅테크 기업 중 약 5%의 점유율을 차지할 것으로 보인다. 화웨이의 AI 칩 매출은 2025년 75억 달러에서 2026년 약 120억 달러로 증가할 것으로 예상된다. 엔비디아의 중국 AI 가속기 시장 점유율은 사실상 0%로 붕괴했으며, 이는 젠슨 황 최고경영자가 엔비디아의 CUDA 생태계에 대한 소프트웨어 의존성을 깨뜨리는 "끔찍한 결과"라고 표현한 상황이다.

이러한 분기는 장기적으로 투자자에게 중요한 영향을 미친다. 만약 중국의 AI 산업이 화웨이의 신경처리장치(NPU), 알리바바의 병렬처리장치(PPU), 캠브리콘의 도메인 특화 칩 등 각기 다른 소프트웨어 스택을 기반으로 표준화된다면, 그 결과는 단편화되었으나 국내적으로 자급자족하는 생태계가 될 것이며, 이는 엔비디아가 지배하는 서방과 근본적으로 다른 아키텍처 가정 위에서 작동하게 된다. 20년에 걸쳐 구축된 엔비디아의 CUDA 종속(lock-in) 체제는 사상 첫 번째 실질적 도전에 직면했다.

세 가지 아키텍처, 하나의 방향성

중국 기업들은 세 가지 뚜렷한 ASIC 설계를 추진 중이다. 화웨이는 자사 Ascend 시리즈(광범위하게 배포된 910C와 곧 출시될 Ascend 950 포함)를 통해 신경처리장치(NPU)에 베팅하고 있다. 캠브리콘은 Siyuan 590 및 690 시리즈로 도메인 특화 아키텍처를 구축 중이다. 알리바바의 반도체 자회사 T-Head는 지난주 연례 클라우드 컴퓨팅 정상회의에서 Zhenwu M890 병렬처리장치(PPU)를 출시했으며, 전작 대비 3배의 성능을 제공한다고 주장했다.

GPU 측면에서는 엔비디아의 전 중국 임원이었던 장젠중이 2020년에 창업한 무어 스레드(Moore Threads)가 MTT S5000 시리즈 같은 범용 칩으로 국내 노력을 주도하고 있다. 비렌 테크놀로지(Biren Technology), 엔플레임(Enflame), 일루바타 코어엑스(Iluvatar CoreX)도 경쟁 중이지만, ASIC 선두주자들의 규모에는 미치지 못하고 있다.

중국 칩과 엔비디아의 수출 준수 하드웨어 간 성능 격차는 크게 좁혀졌다. 모건스탠리 데이터에 따르면 화웨이의 Ascend 950 카드와 캠브리콘의 Siyuan 690은 초당 토큰 수 기준으로 엔비디아가 현재 중국에 판매할 수 있는 가장 강력한 칩인 H20보다 50%에서 150% 더 뛰어난 성능을 보일 수 있다. 대외관계협의회(Council on Foreign Relations) 보고서에 따르면 H20 자체는 엔비디아 H200 성능의 약 6분의 1 수준이다.

소프트웨어 스택의 도전

하드웨어 성능은 방정식의 절반에 불과하다. 중국 반도체 산업이 직면한 더 깊은 도전 과제는 전 세계 수백만 AI 개발자가 엔비디아 하드웨어용 코드를 작성하는 데 사용하는 소프트웨어 계층인 엔비디아의 CUDA 플랫폼이 만든 종속 체제를 깨는 것이다. 사실상 모든 AI 프레임워크, 모든 연구 논문, 모든 사전 훈련된 모델이 CUDA 호환성을 전제로 한다.

화웨이는 자체 대안으로 CANN을 구축 중이며, 무어 스레드는 MUSA를 개발했다. 딥시크(DeepSeek)는 CUDA 생태계에서 벗어나 화웨이의 CANN 프레임워크에서 작동하도록 핵심 코드를 수개월간 재작성해왔다. 그러나 반도체 애널리스트 장하이준은 AI 모델이 더욱 복잡해짐에 따라 맞춤형 ASIC과 유연한 GPU 간의 경계가 "점점 모호해지고 있다"며, 승리하는 아키텍처는 결국 두 요소를 결합한 형태가 될 수 있다고 지적한다.

프런티어 연구보다 수억 명의 사용자를 위한 애플리케이션 배포에 초점을 맞춘 중국의 고도로 상업화된 AI 시장에서는 ASIC 접근 방식이 특히 적합하다. 훈련된 모델을 대규모로 실행하는 과정인 추론(Inference)은 맞춤형 실리콘이 제공하는 좁은 범위의 최적화에 적합하다. 새 모델 훈련은 여전히 GPU의 유연성이 유리하지만, 수익은 배포에 있다.

이러한 분기의 장기적 결과는 단기적 성능 벤치마크보다 더 중요할 수 있다. 만약 중국 AI 산업이 국산 칩과 소프트웨어 스택으로 표준화된다면, 기본 컴퓨팅 스택이 호환되지 않을 때 국경 간 AI 협력은 더욱 어려워진다. 또한 단일 지배적 플랫폼이 부족하다는 것은 어떤 중국 칩 제조사도 엔비디아의 CUDA를 그토록 강력하게 만든 생태계 종속 효과를 누릴 수 없음을 의미한다.

주가수익비율(PER) 약 35배에 거래되고 있는 엔비디아 주식은 중국 매출 손실로 인한 구조적 오버행(과잉 공급 압력)에 직면해 있다. 엔비디아의 데이터센터 사업은 지난 회계연도에 620억 달러의 매출을 올리며 글로벌 지배력을 유지하고 있지만, 중국 사업 부문의 약화는 애널리스트들이 과거 다년간의 성장 동력으로 모델링했던 성장 축을 제거하는 결과를 초래했다. 투자자에게 남은 과제는 중국이 구축 중인 맞춤형 실리콘 생태계가 엔비디아가 주도하는 서방의 혁신 속도를 따라잡을 수 있느냐는 것이다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.