Bí mật Nvidia B200 lộ diện từ phân tích độ trễ 300 chu kỳ mới

Một phân tích sâu của SemiAnalysis tiết lộ rằng việc mở khóa toàn bộ tiềm năng của GPU Blackwell B200 của Nvidia không nằm ở sức mạnh lý thuyết của phần cứng mà là ở việc tối ưu hóa phần mềm phức tạp.

Báo cáo micro-benchmark chi tiết từ công ty nghiên cứu bán dẫn SemiAnalysis đã cung cấp dữ liệu hiệu suất phần cứng công khai đầu tiên cho GPU Blackwell B200 của Nvidia Corp., tiết lộ một kiến trúc mà tiềm năng to lớn bị giới hạn bởi việc tinh chỉnh ở cấp độ phần mềm. Phân tích đã phát hiện ra bố cục chip dual-die gây ra mức phạt độ trễ khoảng 300 chu kỳ cho việc truy cập dữ liệu chéo die, một phát hiện ảnh hưởng trực tiếp đến cách các mô hình AI phải được cấu trúc để chạy hiệu quả. Điều này đặt ra một ưu tiên mới cho việc tối ưu hóa phần mềm, thách thức các chiến lược mua sắm cho các nhà cung cấp cơ sở hạ tầng AI quy mô lớn.

Nghiên cứu, dựa trên nhiều tháng micro-benchmarking hệ thống, cho thấy mặc dù B200 có thể tiếp cận hiệu suất đỉnh lý thuyết, "điều này phụ thuộc rất nhiều vào cấu hình hình dạng lệnh (instruction shape)", SemiAnalysis cho biết. Công ty này, đơn vị đã sử dụng các nút B200 do các công ty đám mây Nebius và Verda cung cấp, đã tìm thấy các điểm nghẽn băng thông đáng kể trong các kịch bản cụ thể, một thông tin quan trọng cho các nhà phát triển và nhà đầu tư đang đặt cược vào sự thống trị của Blackwell. Các phát hiện cho thấy hệ sinh thái phần mềm của Nvidia vẫn là hào nước kinh doanh chính của họ, vì việc mở khóa sức mạnh của chip không được đảm bảo chỉ bằng các thông số phần cứng.

Những thay đổi kiến trúc chính so với thế hệ Hopper trước đó bao gồm việc giới thiệu Bộ nhớ Tensor (TMEM) để quản lý rõ ràng các kết quả tính toán và một lệnh 2SM MMA mới cho phép hai bộ đa xử lý dòng (SM) làm việc cùng nhau. Phân tích cũng xác nhận cấu trúc dual-die của B200 bằng cách thiết kế ngược bố cục vật lý của chip, xác định hai nhóm SM riêng biệt với khoảng cách độ trễ rõ ràng giữa chúng. Sự khác biệt về bố cục vật lý này có thể là nguồn gốc của sự không ổn định về hiệu suất giữa các GPU giống hệt nhau về mặt logic.

Ý nghĩa của báo cáo này là rất quan trọng đối với các đối thủ cạnh tranh của Nvidia, bao gồm AMD, và các khách hàng như Google và Amazon Web Services, những đơn vị phát triển các bộ tăng tốc AI tùy chỉnh của riêng họ như TPU và Trainium. Đối với các trung tâm dữ liệu AI, phân tích nhấn mạnh rằng việc mua phần cứng B200 chỉ là bước đầu tiên; việc hiện thực hóa toàn bộ giá trị của nó sẽ đòi hỏi đầu tư đáng kể vào kỹ thuật phần mềm để điều hướng các sắc thái kiến trúc và các điểm sụt giảm hiệu suất được xác định trong báo cáo.

Bố cục Dual-Die lộ rõ mức phạt độ trễ 300 chu kỳ

SemiAnalysis đã thiết kế ngược cấu trúc vật lý của B200 bằng cách đo độ trễ truy cập giữa mọi SM trên chip. Ma trận khoảng cách kết quả cho thấy rõ ràng hai cụm SM riêng biệt, trong đó độ trễ truy cập bộ nhớ đệm L2 trung bình giữa các cụm cao hơn 300 chu kỳ xung nhịp so với bên trong một cụm. Độ trễ này là mức phạt cho việc truy cập dữ liệu trên die liền kề.

Bản đồ của công ty tiết lộ sự phân bổ không đối xứng của các Cụm xử lý kết cấu (TPC) trên hai die, với một die chứa các GPC (Cụm xử lý đồ họa) gồm 10, 10, 10 và 9 TPC, trong khi die kia chứa 9, 9, 9 và một cấu hình chia 5+3. Sự khác biệt vật lý này có nghĩa là ngay cả các GPU được cấu hình giống hệt nhau cũng có thể biểu hiện sự biến động về hiệu suất dựa trên cách khối lượng công việc được lập lịch trên các die riêng biệt.

Hiệu suất Tensor Core phụ thuộc vào hình dạng lệnh

Trọng tâm của nghiên cứu tập trung vào hiệu suất Tensor Core Matrix Multiply-Accumulate (MMA), yếu tố quan trọng đối với khối lượng công việc AI. Kết quả cho thấy sự phụ thuộc mạnh mẽ vào "hình dạng" của lệnh, xác định kích thước của các ma trận được nhân. Đối với các hoạt động đơn SM, kích thước ma trận M=64 chỉ đạt được 50% thông lượng đỉnh lý thuyết, trong khi M=128 đạt gần 100%, xác nhận hình dạng nhỏ hơn không tận dụng được toàn bộ đường dẫn dữ liệu.

Hơn nữa, khi cả hai ma trận đầu vào được lưu trữ trong bộ nhớ chia sẻ (SMEM) — một kịch bản phổ biến — các thử nghiệm đã tiết lộ điểm nghẽn băng thông SMEM rõ ràng đối với các hình dạng ma trận có kích thước N nhỏ hơn 128. Đối với một hoạt động FP16, việc truy cập SMEM mất 48 chu kỳ trong khi bản thân việc tính toán chỉ mất 32 chu kỳ, làm cho lệnh bị giới hạn bởi bộ nhớ chứ không phải giới hạn bởi tính toán. Kết luận của báo cáo là không mơ hồ: các nhà phát triển phải sử dụng hình dạng lệnh lớn nhất có thể cho một ô nhớ nhất định để đạt được thông lượng tối đa. Các lệnh 2SM MMA mới, trải dài trên hai SM, được tìm thấy là đạt được khả năng mở rộng yếu hoàn hảo, mang lại hiệu suất gấp đôi với tài nguyên gấp đôi.

Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.