엔비디아 B200의 비밀, 새로운 300사이클 지연 시간 분석에서 드러나

SemiAnalysis의 심층 분석에 따르면 엔비디아 Blackwell B200 GPU의 잠재력을 완전히 끌어내는 것은 하드웨어의 이론적 성능보다 정교한 소프트웨어 최적화에 달려 있습니다.

반도체 연구 기업 SemiAnalysis의 상세 마이크로 벤치마크 보고서는 엔비디아(Nvidia Corp.) Blackwell B200 GPU에 대한 최초의 공개 하드웨어 성능 데이터를 제공하며, 소프트웨어 수준의 튜닝에 의해 거대한 잠재력이 제한되는 아키텍처임을 밝혔습니다. 분석 결과, 다이 간 데이터 접근 시 약 300사이클의 지연 시간 패널티를 부여하는 듀얼 다이 칩 레이아웃이 발견되었으며, 이는 AI 모델이 효율적으로 실행되기 위해 구조화되어야 하는 방식에 직접적인 영향을 미칩니다. 이는 소프트웨어 최적화에 새로운 프리미엄을 부여하며 대규모 AI 인프라 제공업체의 조달 전략에 과제를 던져줍니다.

수개월간의 체계적인 마이크로 벤치마킹을 기반으로 한 이 연구는 B200이 이론적 최고 성능에 도달할 수는 있지만, "이는 명령어 형상(instruction shape) 구성에 크게 좌우된다"고 SemiAnalysis는 설명했습니다. 클라우드 기업 Nebius와 Verda가 제공한 B200 노드를 사용한 이 회사는 특정 시나리오에서 상당한 대역폭 병목 현상을 발견했으며, 이는 Blackwell의 지배력에 기대를 거는 개발자와 투자자들에게 중요한 통찰력을 제공합니다. 연구 결과는 칩의 성능을 끌어내는 것이 하드웨어 사양만으로는 보장되지 않기 때문에 엔비디아의 소프트웨어 생태계가 여전히 핵심 해자임을 시사합니다.

이전 Hopper 세대와 비교하여 주요 아키텍처 변경 사항으로는 계산 결과를 명시적으로 관리하기 위한 텐서 메모리(TMEM) 도입과 두 개의 스트리밍 멀티프로세서(SM)가 함께 작동할 수 있도록 하는 새로운 2SM MMA 명령어가 포함됩니다. 또한 이 분석은 칩의 물리적 레이아웃을 역설계하여 B200의 듀얼 다이 토폴로지를 확인했으며, 명확한 지연 시간 차이가 있는 두 개의 별도 SM 그룹을 식별했습니다. 이러한 물리적 레이아웃 편차는 논리적으로 동일한 GPU 간의 성능 비결정성의 원인이 될 수 있습니다.

이 보고서의 함의는 AMD를 포함한 엔비디아의 경쟁사와 각각 TPU 및 Trainium과 같은 자체 맞춤형 AI 가속기를 개발하는 구글 및 아마존 웹 서비스(AWS)와 같은 고객에게 중요합니다. AI 데이터 센터의 경우, 이 분석은 B200 하드웨어를 구매하는 것이 첫 번째 단계일 뿐이며, 보고서에서 확인된 아키텍처의 미묘한 차이와 성능 절벽을 탐색하기 위해 소프트웨어 엔지니어링에 상당한 투자가 필요함을 강조합니다.

듀얼 다이 레이아웃, 300사이클 지연 시간 패널티 노출

SemiAnalysis는 칩의 모든 SM 간 접근 지연 시간을 측정하여 B200의 물리적 토폴로지를 역설계했습니다. 결과로 나온 거리 행렬은 두 개의 뚜렷한 SM 클러스터를 명확하게 보여주었으며, 클러스터 간 평균 L2 캐시 접근 지연 시간은 클러스터 내부보다 300클록 사이클 이상 높았습니다. 이 지연 시간은 인접한 다이의 데이터에 접근할 때 발생하는 패널티입니다.

이 회사의 매핑 결과, 두 다이에 걸쳐 텍스처 처리 클러스터(TPC)가 비대칭적으로 분포되어 있음이 드러났습니다. 한 다이에는 10, 10, 10, 9개의 TPC로 구성된 GPC(그래픽 처리 클러스터)가 포함되어 있고, 다른 다이에는 9, 9, 9개와 분할된 5+3 구성이 포함되어 있습니다. 이러한 물리적 차이는 동일하게 구성된 GPU라도 워크로드가 서로 다른 다이에 어떻게 스케줄링되느냐에 따라 성능 변동을 나타낼 수 있음을 의미합니다.

텐서 코어 성능, 명령어 형상에 달려 있어

연구의 핵심은 AI 워크로드에 중요한 텐서 코어 행렬 곱셈-누산(MMA) 성능에 집중되었습니다. 결과는 곱해지는 행렬의 차원을 정의하는 "명령어 형상"에 대한 강한 의존성을 보여줍니다. 단일 SM 작업의 경우, 행렬 차원 M=64는 이론적 최고 처리량의 50%만 달성한 반면, M=128은 100%에 근접하여 작은 형상이 전체 데이터 경로를 활용하지 못함을 확인했습니다.

또한, 두 입력 행렬이 모두 공유 메모리(SMEM)에 저장된 경우(일반적인 시나리오), 테스트 결과 N 차원이 128 미만인 행렬 형상에서 명확한 SMEM 대역폭 병목 현상이 나타났습니다. FP16 연산의 경우, 수학 연산 자체는 32사이클이 걸리는 반면 SMEM 접근에는 48사이클이 소요되어 명령어가 계산 중심이 아닌 메모리 중심이 되었습니다. 보고서의 결론은 명확합니다. 최대 처리량을 달성하려면 개발자는 주어진 메모리 타일에 대해 가능한 가장 큰 명령어 형상을 사용해야 합니다. 두 개의 SM에 걸쳐 있는 새로운 2SM MMA 명령어는 완벽한 약한 확장성을 달성하여 두 배의 리소스로 두 배의 성능을 제공하는 것으로 확인되었습니다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.