SemiAnalysis 的一項深度分析顯示,要釋放輝達 Blackwell B200 GPU 的全部潛力,關鍵不在於硬體的理論算力,而在於複雜的軟體優化。
來自半導體研究機構 SemiAnalysis 的一份詳細微基準報告提供了輝達公司(Nvidia Corp.)Blackwell B200 GPU 的首份公開硬體性能數據。報告揭示了該架構巨大的潛力受到軟體層調優的限制。分析發現,其雙芯片佈局在跨芯片數據訪問時會產生大約 300 個週期的延遲懲罰,這一發現直接影響了 AI 模型必須如何構建才能高效運行。這使得軟體優化的價值進一步提升,也對大型 AI 基礎設施提供商的採購策略提出了挑戰。
該研究基於數月的系統性微基準測試。SemiAnalysis 表示,雖然 B200 可以接近其理論峰值性能,但「這高度依賴於指令形狀(instruction shape)配置」。該機構使用了由雲公司 Nebius 和 Verda 提供的 B200 節點,發現在特定場景下存在顯著的頻寬瓶頸。這一關鍵洞察對於寄希望於 Blackwell 統治地位的開發者和投資者至關重要。研究結果表明,輝達的軟體生態系統依然是其核心護城河,因為單憑硬體規格並不能保證釋放芯片的全部效能。
與上一代 Hopper 相比,主要的架構變化包括引入張量記憶體(TMEM)來顯式管理計算結果,以及一種允許兩個流式多處理器(SM)協同工作的全新 2SM MMA 指令。分析還通過逆向工程芯片的物理佈局確認了 B200 的雙芯片拓撲結構,識別出兩組截然不同的 SM 群組,它們之間存在明顯的延遲差距。這種物理佈局的差異可能是邏輯上相同的 GPU 之間出現性能不確定性的根源。
該報告的結論對輝達的競爭對手(包括 AMD)以及 Google、亞馬遜 AWS 等開發定制 AI 加速器(如 TPU 和 Trainium)的客戶具有重要意義。對於 AI 數據中心而言,分析強調購買 B200 硬體僅僅是第一步;要實現其完整價值,需要投入大量軟體工程資源,以應對報告中確定的架構細微差別和性能懸崖。
雙芯片佈局暴露 300 週期延遲懲罰
SemiAnalysis 通過測量芯片上每個 SM 之間的訪問延遲,對 B200 的物理拓撲進行了逆向工程。由此產生的距離矩陣清晰地顯示了兩個截然不同的 SM 集群。集群間的平均 L2 快取訪問延遲比集群內部高出 300 多個時鐘週期。這一延遲即為訪問相鄰芯片上數據的懲罰。
該機構的測繪還揭示了兩個芯片之間紋理處理集群(TPC)的不對稱分佈。其中一個芯片包含 10、10、10 和 9 個 TPC 的 GPC(圖形處理集群),而另一個則包含 9、9、9 以及一個 5+3 的拆分配置。這種物理差異意味著,即使配置相同的 GPU,其性能也可能因工作負載在不同芯片間的調度方式而產生波動。
張量核心性能取決於指令形狀
研究的核心聚焦於對 AI 工作負載至關重要的張量核心矩陣乘法累加(MMA)性能。結果顯示,性能強烈依賴於定義相乘矩陣維度的「指令形狀」。對於單 SM 操作,當矩陣維度 M=64 時,僅能達到理論峰值吞吐量的 50%;而當 M=128 時,則接近 100%。這證實了較小的形狀無法充分利用完整數據路徑。
此外,當兩個輸入矩陣都存儲在共享記憶體(SMEM)中(這是一種常見場景)時,測試顯示在 N 維度小於 128 的矩陣形狀下,存在明顯的 SMEM 頻寬瓶頸。對於 FP16 操作,SMEM 訪問需要 48 個週期,而數學計算本身僅需 32 個週期,這使得指令受限於記憶體而非計算。報告的結論非常明確:開發者必須在給定的記憶體分塊中使用盡可能大的指令形狀,以實現最大吞吐量。研究發現,跨越兩個 SM 的新型 2SM MMA 指令實現了完美的弱擴展,能夠以兩倍的資源提供兩倍的性能。
本文僅供參考,不構成投資建議。