중국 AI 기업 DeepSeek는 전문가 혼합(MoE) 모델과 관련된 높은 계산 비용을 대폭 절감하기 위해 설계된 'Mega MoE'라는 이름의 새로운 아키텍처를 도입하여 DeepGEMM 코드베이스를 대대적으로 업데이트했습니다. 이번 업데이트는 여러 복잡한 단계를 단일 GPU 작업으로 통합하여 AI의 중요한 효율성 문제를 해결하는 것을 목표로 하며, 이는 DeepSeek가 대규모 모델을 학습하고 배포하는 데 상당한 비용 이점을 제공할 가능성이 큽니다.
DeepSeek 인프라 팀은 프로젝트 설명에서 "DeepGEMM은 현대 대규모 언어 모델을 위한 주요 계산 프리미티브를 통합한 통합 고성능 Tensor Core 커널 라이브러리"라고 밝혔습니다. 이 라이브러리에는 이제 핵심 구성 요소로 "통신 중첩이 포함된 통합 MoE(Mega MoE)"가 포함되어 있어 극한의 효율성에 대한 전략적 집중을 시사합니다.
전통적인 MoE 모델은 강력하지만 효율성이 떨어지는 것으로 악명이 높습니다. 서로 다른 데이터 '토큰'을 전문 '전문가' 하위 네트워크로 라우팅하여 정보를 처리하지만, 이는 토큰 디스패칭, 두 번의 선형 변환, 활성화 함수, 결과 결합 등 GPU에서의 파편화된 별도 작업 시퀀스를 수반합니다. Mega MoE는 이 전체 프로세스를 한 번에 실행하는 단일 통합 '메가 커널'로 대체합니다. 결정적으로, GPU 간의 데이터 통신이 계산과 동시에 발생하도록 하여 현재 다중 GPU 설정에서 발생하는 유휴 시간을 제거합니다.
AI 학습에 필요한 막대한 자본 지출이 지배하는 산업에서 이러한 효율성 추구는 매우 중요합니다. 구글이나 미스트랄 AI와 같은 최고의 연구소들이 사용하는 MoE 모델의 실행 비용을 낮춤으로써 DeepSeek는 경쟁 우위를 점할 수 있습니다. 또한 이번 업데이트는 회사의 하드웨어 전략을 암시하며, 분석가들은 이 고급 기술이 엔비디아의 최신 B-시리즈 AI 가속기에 최적화되어 있다고 분석하며 회사가 국내 하드웨어에만 의존하고 있다는 소문을 반박하고 있습니다.
비효율성을 극복하기 위한 커널 통합
Mega MoE의 핵심 혁신은 MoE 레이어의 전통적인 단계별 실행 방식에서 벗어난 것입니다. 기존 방식에서는 프로세스의 각 단계마다 GPU에서 실행되는 작은 프로그램인 여러 커널을 실행해야 했지만, Mega MoE는 이를 통합합니다. 이는 느린 다단계 조립 라인을 단일의 지속적으로 가동되는 컨베이어 벨트로 바꾸는 것과 같습니다.
이러한 '통합' 방식은 GPU 활용 저하 문제를 직접적으로 해결합니다. 여러 GPU를 사용하는 표준 MoE 학습에서는 프로세서가 데이터를 서로 주고받기를 기다리는 동안 상당한 시간이 낭비됩니다. 커널이 Tensor Core에서의 활성 계산과 데이터 통신을 중첩하도록 설계함으로써 DeepSeek는 고가의 하드웨어가 더 높은 비율의 시간 동안 유용한 작업을 수행하도록 보장합니다. 그 결과, 프론티어 모델 학습에 필요한 대규모 멀티 노드 구성에서 처리량이 직접적으로 증가합니다.
FP4 및 차세대 하드웨어로 한계 돌파
통합 커널 외에도 DeepSeek의 업데이트는 계산 절감의 한계에 도전하는 공격적인 모습을 보여줍니다. 팀은 MQA 로짓을 위한 FP4 인덱서를 포함하여 저정밀도 데이터 포맷을 실험하고 있습니다. 일반적인 8비트 또는 16비트 포맷보다 낮은 4비트 부동 소수점을 사용하면 메모리 사용량을 획기적으로 줄이고 계산 속도를 높일 수 있지만, 모델 정확도를 유지하기 위해서는 정교한 엔지니어링이 필요합니다.
이러한 최첨단 최적화 기술에 대한 집중은 DeepSeek의 기반 하드웨어에 대한 추측을 낳았습니다. X 사용자 St4r의 분석에 따르면, Mega MoE에 구현된 특정 방식은 엔비디아의 가장 진보된 AI 가속기인 블랙웰(Blackwell) 아키텍처에 가장 적합합니다. 이는 지정학적 무역 긴장에도 불구하고 DeepSeek가 시장 선두주자의 최고급 칩을 계속 사용하고 있음을 시사하며, 이는 OpenAI, 앤스로픽 및 AMD, 인텔과 같은 하드웨어 공급업체들과의 경쟁 구도를 추적하는 투자자들에게 핵심적인 요소입니다. DeepSeek는 프로젝트가 아직 개발 중이며 성능 데이터가 공개될 예정이라고 언급했지만, 이번 조치는 최첨단 AI를 경제적으로 더 실현 가능하게 만들겠다는 명확한 전략적 방향을 보여줍니다.
투자자들에게 DeepSeek의 인프라 최적화 집중은 중요한 차별화 요소입니다. 학습 및 추론에 드는 막대한 비용이 주요 진입 장벽인 시장에서, 그 비용 곡선을 근본적으로 낮출 수 있는 기업은 강력한 경쟁 우위를 점하게 됩니다. 이번 업데이트는 다른 AI 연구소와 클라우드 제공업체들이 이러한 수준의 효율성을 맞추도록 압박을 가할 것입니다. Mega MoE의 성공은 DeepSeek 자체 모델의 단위 경제성을 개선할 뿐만 아니라 업계 전반의 차세대 AI 소프트웨어 및 하드웨어 설계에도 영향을 미칠 수 있습니다.
이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.