Công ty AI Trung Quốc DeepSeek đã phát hành một bản cập nhật lớn cho cơ sở mã DeepGEMM của mình, giới thiệu một kiến trúc mới mang tên “Mega MoE” được thiết kế để cắt giảm chi phí tính toán cao liên quan đến các mô hình Mixture of Experts (MoE). Bản cập nhật nhằm giải quyết một vấn đề hiệu quả quan trọng trong AI bằng cách kết hợp nhiều bước phức tạp thành một hoạt động GPU duy nhất, có khả năng mang lại cho DeepSeek lợi thế đáng kể về chi phí trong việc đào tạo và triển khai các mô hình quy mô lớn của mình.
"DeepGEMM là một thư viện kernel Tensor Core hiệu suất cao thống nhất, tích hợp các nguyên mẫu tính toán chính cho các mô hình ngôn ngữ lớn hiện đại," nhóm cơ sở hạ tầng của DeepSeek đã viết trong mô tả dự án. Thư viện hiện bao gồm "MoE hợp nhất với tính toán chồng lấp truyền thông (Mega MoE)" như một thành phần cốt lõi, báo hiệu sự tập trung chiến lược vào hiệu quả cực độ.
Các mô hình MoE truyền thống, mặc dù mạnh mẽ, nhưng nổi tiếng là kém hiệu quả. Chúng xử lý thông tin bằng cách định tuyến các "token" dữ liệu khác nhau đến các mạng con "chuyên gia" chuyên biệt, nhưng điều này liên quan đến một chuỗi phân mảnh các hoạt động riêng biệt trên GPU — phân phối token, hai phép biến đổi tuyến tính, một hàm kích hoạt và kết hợp các kết quả. Mega MoE thay thế toàn bộ quy trình rời rạc này bằng một "mega-kernel" thống nhất thực hiện toàn bộ quá trình cùng một lúc. Quan trọng hơn, nó cũng cho phép truyền thông dữ liệu giữa các GPU diễn ra cùng lúc với tính toán, loại bỏ thời gian nhàn rỗi gây khó khăn cho các thiết lập đa GPU hiện nay.
Sự thúc đẩy hiệu quả này là rất quan trọng trong một ngành công nghiệp bị chi phối bởi các khoản chi tiêu vốn khổng lồ cần thiết cho đào tạo AI. Bằng cách giảm chi phí vận hành các mô hình MoE, vốn được sử dụng bởi các phòng thí nghiệm hàng đầu như Google và Mistral AI, DeepSeek có thể giành được lợi thế cạnh tranh. Bản cập nhật cũng gợi ý về chiến lược phần cứng của công ty, với các nhà phân tích cho rằng các kỹ thuật tiên tiến được tối ưu hóa cho các bộ tăng tốc AI dòng B mới nhất của Nvidia, phản bác lại những tin đồn rằng công ty chỉ dựa vào phần cứng trong nước.
Kết hợp các Kernel để chinh phục sự kém hiệu quả
Đổi mới cốt lõi của Mega MoE là sự khác biệt so với việc thực hiện từng bước thông thường của các lớp MoE. Trong khi các phương pháp trước đây yêu cầu khởi chạy nhiều kernel — các chương trình nhỏ chạy trên GPU — cho mỗi giai đoạn của quy trình, Mega MoE hợp nhất chúng lại. Hãy coi đó là việc biến đổi một dây chuyền lắp ráp nhiều trạm chậm chạp thành một băng chuyền chạy liên tục duy nhất.
Cách tiếp cận "hợp nhất" này giải quyết trực tiếp vấn đề sử dụng GPU không hiệu quả. Trong đào tạo MoE tiêu chuẩn trên nhiều GPU, một lượng thời gian đáng kể bị lãng phí khi các bộ xử lý chờ dữ liệu được xáo trộn giữa chúng. Bằng cách thiết kế kernel để chồng lấp việc truyền thông dữ liệu này với tính toán hoạt động trên các Tensor Core, DeepSeek đảm bảo phần cứng đắt tiền đang làm công việc hữu ích trong một tỷ lệ thời gian cao hơn nhiều. Kết quả là sự gia tăng trực tiếp về thông lượng, đặc biệt là trong các cấu hình đa nút lớn cần thiết để đào tạo các mô hình tiên phong.
Đẩy lùi giới hạn với FP4 và phần cứng tương lai
Ngoài kernel hợp nhất, bản cập nhật của DeepSeek tiết lộ một sự thúc đẩy mạnh mẽ hướng tới các giới hạn của việc tiết kiệm tính toán. Nhóm đang thử nghiệm các định dạng dữ liệu độ chính xác thấp hơn, bao gồm một bộ lập chỉ mục FP4 cho các logit MQA. Sử dụng số dấu phẩy động 4 bit, thấp hơn các định dạng 8 bit hoặc 16 bit phổ biến hơn, có thể giảm đáng kể việc sử dụng bộ nhớ và tăng tốc độ tính toán, mặc dù nó đòi hỏi kỹ thuật tinh vi để duy trì độ chính xác của mô hình.
Sự tập trung vào các kỹ thuật tối ưu hóa tiên tiến này đã làm dấy lên những đồn đoán về phần cứng cơ bản của DeepSeek. Theo phân tích từ người dùng X St4r, các phương pháp cụ thể đang được triển khai trong Mega MoE phù hợp nhất với các bộ tăng tốc AI tiên tiến nhất của Nvidia, có khả năng là kiến trúc Blackwell. Điều này cho thấy rằng bất chấp những căng thẳng thương mại địa chính trị, DeepSeek vẫn tiếp tục sử dụng các chip hàng đầu từ người dẫn đầu thị trường, một yếu tố quan trọng đối với các nhà đầu tư theo dõi bối cảnh cạnh tranh với các đối thủ lớn khác như OpenAI, Anthropic và các nhà cung cấp phần cứng của họ như AMD và Intel. Mặc dù DeepSeek lưu ý rằng dự án vẫn đang trong quá trình phát triển với dữ liệu hiệu suất sắp tới, nhưng động thái này báo hiệu một hướng chiến lược rõ ràng: làm cho AI tiên tiến nhất trở nên khả thi hơn về mặt kinh tế.
Đối với các nhà đầu tư, sự tập trung của DeepSeek vào tối ưu hóa cơ sở hạ tầng là một yếu tố khác biệt chính. Trong một thị trường mà rào cản gia nhập chính là chi phí khổng lồ của việc đào tạo và suy luận, bất kỳ công ty nào có thể giảm cơ bản đường cong chi phí đó đều giành được lợi thế cạnh tranh mạnh mẽ. Bản cập nhật này gây áp lực lên các phòng thí nghiệm AI và nhà cung cấp đám mây khác để đạt được mức hiệu quả này. Thành công của Mega MoE không chỉ có thể cải thiện kinh tế đơn vị của các mô hình của riêng DeepSeek mà còn ảnh hưởng đến thiết kế của phần mềm và phần cứng AI thế hệ tiếp theo trong toàn ngành.
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.