지푸 AI의 GLM-5, 국내 칩에서 GPU 비용 50% 절감

Edgen Stock·Feb 22 2026, 11:38

공유하기

링크 복사

주요 요점

지푸 AI는 GLM-5 대규모 언어 모델의 기술 사양을 공개했으며, 이는 중국 AI 개발의 전략적 전환을 의미합니다. 이 모델은 벤치마크 점수를 쫓기보다는 엔지니어링 효율성과 국내 하드웨어와의 심층적인 통합을 우선시하여 자립적인 기술 스택을 구축하고 있습니다.

엔지니어링급 지능: 7,440억 개의 매개변수를 가진 이 모델은 복잡하고 장기적인 작업을 위해 설계되었으며, 단순한 코드 생성을 넘어 자율 시스템 엔지니어링 및 계획을 수행합니다.
혁신을 통한 효율성: 새로운 DeepSeek 희소 어텐션(DSA) 메커니즘은 성능 저하 없이 긴 컨텍스트에 대한 어텐션 계산량을 1.5~2배 줄여 대규모 AI의 경제성을 높입니다.
국내 하드웨어 통합: GLM-5는 화웨이 어센드(Ascend)를 포함한 중국 GPU 제품군에 최적화되어 있습니다. 이러한 공동 최적화를 통해 단일 국내 노드에서 두 개의 국제 GPU와 유사한 성능을 달성하며, 장기 시퀀스 작업에 대한 배포 비용을 50% 절감합니다.

GLM-5의 7,440억 개 매개변수는 벤치마크보다 엔지니어링을 우선시

중국 AI 기업 지푸는 7,440억 개의 매개변수를 가진 GLM-5 모델을 상세히 설명했으며, 이는 순위표 지표를 추구하는 것에서 '엔지니어링급 지능'을 달성하는 것으로의 중요한 진화를 나타냅니다. 이 모델은 28.5조 개의 토큰으로 훈련되었으며, 복잡하고 다단계적인 소프트웨어 엔지니어링 작업을 자율적으로 실행하는 데 중점을 둡니다. 지푸가 '에이전틱 엔지니어링(Agentic Engineering)'이라고 부르는 이 접근 방식은 모델이 높은 수준의 목표에서 전체 시스템을 독립적으로 계획, 작성 및 디버깅할 수 있도록 합니다. 1년 동안 비즈니스를 관리하는 것을 시뮬레이션하는 Vending-Bench 2 벤치마크와 같은 테스트에서 GLM-5는 오픈소스 모델 중 1위를 차지하며 장기 전략적 의사 결정 능력을 입증했습니다.

희소 어텐션 혁신, 컴퓨팅 부하 최대 2배 절감

GLM-5 효율성의 핵심은 새로운 DeepSeek 희소 어텐션(DSA) 메커니즘입니다. 계산 복잡성이 입력 길이에 따라 2차적으로 증가하는 기존 어텐션 시스템과 달리, DSA는 가장 중요한 데이터 토큰만 동적으로 식별하고 처리합니다. 이 혁신은 20만 토큰 컨텍스트 창 내에서 어텐션 계산 워크로드를 1.5배에서 2배로 줄입니다. 결정적으로, 지푸는 다른 희소 어텐션 방법에서 흔히 발생하는 성능 저하 없이 이러한 효율성을 달성했습니다. 그 결과, 더 큰 컨텍스트를 처리하고 동일한 하드웨어에서 더 높은 성능을 제공할 수 있는 모델 아키텍처가 탄생했으며, 이는 컴퓨팅이 제한된 환경에서 비용 효율적인 AI를 개발하는 데 중요한 이점입니다.

중국 GPU에 대한 기본 지원, 배포 비용 50% 절감

GLM-5의 가장 전략적으로 중요한 측면은 중국 국내 GPU에 대한 기본적이고 시스템 수준의 최적화입니다. 이 모델은 화웨이 어센드(Ascend), 무어 스레드(Moore Threads), 하이곤(Hygon), 캠브리콘(Cambricon) 등의 하드웨어에 완벽하게 적용됩니다. 이는 단순한 호환성을 넘어, KV 캐시 스케줄링부터 분산 병렬 처리 전략에 이르기까지 모든 것을 재구성하는 전체 스택 재구성을 포함합니다. 이러한 소프트웨어-하드웨어 공동 설계는 매우 효과적이며, 단일 국내 컴퓨팅 노드가 두 개의 주류 국제 GPU를 사용하는 클러스터의 성능과 일치하도록 합니다. 긴 데이터 시퀀스를 처리하는 경우, 이 심층 최적화는 배포 비용을 50% 대폭 절감하여, 외국 하드웨어 공급업체의 시장 지배력에 직접적으로 도전하고 중국이 완전한 독립 AI 생태계를 향해 나아가는 길을 가속화합니다.