SemiAnalysis tarafından yapılan derinlemesine bir analiz, Nvidia'nın Blackwell B200 GPU'sunun tam potansiyelini açığa çıkarmanın donanımın teorik gücünden ziyade karmaşık yazılım optimizasyonuyla ilgili olduğunu ortaya koyuyor.
Yarı iletken araştırma firması SemiAnalysis'in ayrıntılı bir mikro kıyaslama raporu, Nvidia Corp.’un Blackwell B200 GPU'ları için ilk halka açık donanım performans verilerini sağlayarak, muazzam potansiyeli yazılım düzeyindeki ayarlamalarla sınırlandırılmış bir mimariyi gözler önüne serdi. Analiz, kalıplar arası veri erişimi için kabaca 300 döngülük bir gecikme cezası getiren çift kalıplı bir çip düzenini ortaya çıkardı; bu bulgu, yapay zeka modellerinin verimli çalışması için nasıl yapılandırılması gerektiğini doğrudan etkiliyor. Bu durum, yazılım optimizasyonuna yeni bir değer kazandırırken, büyük ölçekli yapay zeka altyapı sağlayıcıları için tedarik stratejilerini zorlaştırıyor.
Aylar süren sistematik mikro kıyaslamalara dayanan araştırma, B200'ün teorik tepe performansına yaklaşabilse de, SemiAnalysis'in ifadesiyle "bunun büyük ölçüde talimat şekli yapılandırmasına bağlı olduğunu" gösteriyor. Bulut şirketleri Nebius ve Verda tarafından sağlanan B200 düğümlerini kullanan firma, belirli senaryolarda önemli bant genişliği darboğazları tespit etti; bu, Blackwell'in hakimiyetine güvenen geliştiriciler ve yatırımcılar için kritik bir içgörü. Bulgular, çipin gücünü açığa çıkarmanın yalnızca donanım özellikleriyle garanti edilmediğini, bu nedenle Nvidia'nın yazılım ekosisteminin temel kalesi olmaya devam ettiğini gösteriyor.
Önceki Hopper nesline göre temel mimari değişiklikler arasında, hesaplama sonuçlarını açıkça yönetmek için Tensör Belleği'nin (TMEM) tanıtılması ve iki akışlı çoklu işlemcinin (SM) birlikte çalışmasına olanak tanıyan yeni bir 2SM MMA talimatı yer alıyor. Analiz ayrıca, çipin fiziksel düzenini tersine mühendislik yaparak B200'ün çift kalıplı topolojisini doğruladı ve aralarında net bir gecikme farkı olan iki farklı SM grubu belirledi. Bu fiziksel düzen değişikliği, mantıksal olarak özdeş GPU'lar arasındaki performans belirsizliğinin kaynağı olabilir.
Raporun sonuçları, AMD dahil Nvidia'nın rakipleri ve sırasıyla TPU ve Trainium gibi kendi özel yapay zeka hızlandırıcılarını geliştiren Google ve Amazon Web Services gibi müşteriler için önemlidir. Yapay zeka veri merkezleri için analiz, B200 donanımını satın almanın yalnızca ilk adım olduğunu; tam değerini gerçekleştirmek için raporda tanımlanan mimari nüanslarda ve performans uçurumlarında yol almak adına yazılım mühendisliğine önemli yatırım yapılması gerekeceğini vurguluyor.
Çift Kalıplı Düzen 300 Döngülük Gecikme Cezasını Ortaya Çıkarıyor
SemiAnalysis, çip üzerindeki her SM arasındaki erişim gecikmesini ölçerek B200'ün fiziksel topolojisini tersine mühendislikle çözümledi. Elde edilen mesafe matrisi, kümeler arası ortalama L2 önbellek erişim gecikmesinin küme içine göre 300 saat döngüsünden fazla olduğu iki farklı SM kümesini açıkça gösterdi. Bu gecikme, bitişik kalıptaki verilere erişmenin bedelidir.
Firmanın haritalaması, Doku İşleme Kümelerinin (TPC) iki kalıp arasındaki asimetrik dağılımını ortaya çıkardı; bir kalıp 10, 10, 10 ve 9 TPC'lik GPC'ler (Grafik İşleme Kümeleri) içerirken, diğeri 9, 9, 9 ve bölünmüş bir 5+3 yapılandırmasına sahip. Bu fiziksel fark, özdeş yapılandırılmış GPU'ların bile iş yüklerinin farklı kalıplar arasında nasıl planlandığına bağlı olarak performans varyasyonları gösterebileceği anlamına geliyor.
Tensör Çekirdeği Performansı Talimat Şekline Bağlı
Araştırmanın özü, yapay zeka iş yükleri için kritik olan Tensör Çekirdeği Matris Çarpma-Biriktirme (MMA) performansına odaklandı. Sonuçlar, çarpılan matrislerin boyutlarını tanımlayan "talimat şekline" güçlü bir bağımlılık gösteriyor. Tekli SM işlemleri için M=64 matris boyutu teorik tepe işleme kapasitesinin yalnızca yüzde 50'sine ulaşırken, M=128 yüzde 100'e yaklaştı; bu da daha küçük şeklin veri yolunu tam olarak kullanamadığını doğruladı.
Dahası, her iki giriş matrisi de paylaşılan bellekte (SMEM) saklandığında (yaygın bir senaryo), testler N boyutunun 128'den küçük olduğu matris şekilleri için net bir SMEM bant genişliği darboğazı ortaya koydu. Bir FP16 işlemi için SMEM erişimi 48 döngü sürerken, matematiksel işlemin kendisi yalnızca 32 döngü sürdü; bu da talimatı hesaplama odaklı değil, bellek odaklı hale getirdi. Raporun sonucu nettir: Geliştiriciler, maksimum işleme kapasitesine ulaşmak için belirli bir bellek karosu için mevcut olan en büyük talimat şeklini kullanmalıdır. İki SM'ye yayılan yeni 2SM MMA talimatlarının mükemmel zayıf ölçeklendirme sağladığı ve iki kat kaynakla iki kat performans sunduğu görüldü.
Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.