英伟达 B200 核心机密揭晓：最新分析显示存在 300 周期延迟

SemiAnalysis 的一项深度分析显示，要释放英伟达 Blackwell B200 GPU 的全部潜力，关键不在于硬件的理论算力，而在于复杂的软件优化。

来自半导体研究机构 SemiAnalysis 的一份详细微基准报告提供了英伟达公司（Nvidia Corp.）Blackwell B200 GPU 的首份公开硬件性能数据。报告揭示了该架构巨大的潜力受到软件层调优的限制。分析发现，其双芯片布局在跨芯片数据访问时会产生大约 300 个周期的延迟惩罚，这一发现直接影响了 AI 模型必须如何构建才能高效运行。这使得软件优化的价值进一步提升，也对大型 AI 基础设施提供商的采购策略提出了挑战。

该研究基于数月的系统性微基准测试。SemiAnalysis 表示，虽然 B200 可以接近其理论峰值性能，但“这高度依赖于指令形状（instruction shape）配置”。该机构使用了由云公司 Nebius 和 Verda 提供的 B200 节点，发现在特定场景下存在显著的带宽瓶颈。这一关键洞察对于寄希望于 Blackwell 统治地位的开发者和投资者至关重要。研究结果表明，英伟达的软件生态系统依然是其核心护城河，因为单凭硬件规格并不能保证释放芯片的全部效能。

与上一代 Hopper 相比，主要的架构变化包括引入张量内存（TMEM）来显式管理计算结果，以及一种允许两个流式多处理器（SM）协同工作的全新 2SM MMA 指令。分析还通过逆向工程芯片的物理布局确认了 B200 的双芯片拓扑结构，识别出两组截然不同的 SM 群组，它们之间存在明显的延迟差距。这种物理布局的差异可能是逻辑上相同的 GPU 之间出现性能不确定性的根源。

该报告的结论对英伟达的竞争对手（包括 AMD）以及谷歌、亚马逊 AWS 等开发定制 AI 加速器（如 TPU 和 Trainium）的客户具有重要意义。对于 AI 数据中心而言，分析强调购买 B200 硬件仅仅是第一步；要实现其完整价值，需要投入大量软件工程资源，以应对报告中确定的架构细微差别和性能悬崖。

双芯片布局暴露 300 周期延迟惩罚

SemiAnalysis 通过测量芯片上每个 SM 之间的访问延迟，对 B200 的物理拓扑进行了逆向工程。由此产生的距离矩阵清晰地显示了两个截然不同的 SM 集群。集群间的平均 L2 缓存访问延迟比集群内部高出 300 多个时钟周期。这一延迟即为访问相邻芯片上数据的惩罚。

该机构的测绘还揭示了两个芯片之间纹理处理集群（TPC）的不对称分布。其中一个芯片包含 10、10、10 和 9 个 TPC 的 GPC（图形处理集群），而另一个则包含 9、9、9 以及一个 5+3 的拆分配置。这种物理差异意味着，即使配置相同的 GPU，其性能也可能因工作负载在不同芯片间的调度方式而产生波动。

张量核心性能取决于指令形状

研究的核心聚焦于对 AI 工作负载至关重要的张量核心矩阵乘法累加（MMA）性能。结果显示，性能强烈依赖于定义相乘矩阵维度的“指令形状”。对于单 SM 操作，当矩阵维度 M=64 时，仅能达到理论峰值吞吐量的 50%；而当 M=128 时，则接近 100%。这证实了较小的形状无法充分利用完整的数据路径。

此外，当两个输入矩阵都存储在共享内存（SMEM）中（这是一种常见场景）时，测试显示在 N 维度小于 128 的矩阵形状下，存在明显的 SMEM 带宽瓶颈。对于 FP16 操作，SMEM 访问需要 48 个周期，而数学计算本身仅需 32 个周期，这使得指令受限于内存而非计算。报告的结论非常明确：开发者必须在给定的内存分块中使用尽可能大的指令形状，以实现最大吞吐量。研究发现，跨越两个 SM 的新型 2SM MMA 指令实现了完美的弱扩展，能够以两倍的资源提供两倍的性能。

本文仅供参考，不构成投资建议。