關鍵要點:
- DeepSeek 發布了 「Mega MoE」,這是一種通過將多個計算步驟融合為一來提高混合專家(MoE)AI 模型效率的新技術。
- 新架構允許同時進行計算和數據通訊,減少了 GPU 空閒時間,並可能降低高昂的 AI 訓練成本。
- 此次更新表明 DeepSeek 正在針對頂級英偉達硬件進行優化,這是了解其在全球 AI 競賽中競爭地位的關鍵細節。
關鍵要點:

中國 AI 公司 DeepSeek 發布了其 DeepGEMM 代碼庫的重大更新,引入了一種名為 「Mega MoE」 的新架構,旨在大幅削減與混合專家(MoE)模型相關的高昂計算成本。此次更新旨在通過將多個複雜步驟融合為單個 GPU 操作來解決 AI 中的關鍵效率問題,從而使 DeepSeek 在訓練和部署其大規模模型時獲得顯著的成本優勢。
DeepSeek 基礎設施團隊在項目描述中寫道:「DeepGEMM 是一個統一的高性能 Tensor Core 算子庫,集成了現代大語言模型的核心計算原語。」 該庫現在將 「具有通訊重疊的融合 MoE (Mega MoE)」 作為核心組件,標誌著其對極致效率的戰略關注。
傳統的 MoE 模型雖然功能強大,但其低效是出了名的。它們通過將不同的數據 「令牌」 路由到專門的 「專家」 子網絡來處理信息,但這涉及 GPU 上一系列碎片化的單獨操作——分發令牌、兩次線性變換、一個激活函數以及合併結果。Mega MoE 用一個統一的 「超級算子」 取代了整個脫節的工作流,一次性執行整個過程。至關重要的是,它還使 GPU 之間的數據通訊能夠與計算同時發生,消除了困擾當前多 GPU 設置的空閑時間。
在由 AI 訓練所需的大規模資本支出主導的行業中,這種對效率的追求至關重要。通過潛在地降低運行 MoE 模型(谷歌和 Mistral AI 等頂級實驗室也在使用此類模型)的成本,DeepSeek 可能會獲得競爭優勢。此次更新還暗示了該公司的硬件策略,分析人士認為這些先進技術是針對英偉達最新的 B 系列 AI 加速器進行優化的,這反駁了該公司僅依賴國產硬件的傳言。
Mega MoE 的核心創新在於它背後的邏輯:改變了 MoE 層常規的逐步執行方式。以往的方法需要為過程的每個階段啟動多個算子(在 GPU 上運行的小程序),而 Mega MoE 將它們整合在一起。可以將其想象為將一條緩慢的多站裝配線轉變為一條單一的、持續運行的傳送帶。
這種 「融合」 方法直接解決了 GPU 利用率不足的問題。在涉及多個 GPU 的標準 MoE 訓練中,處理器在等待數據在它們之間傳輸時會浪費大量時間。通過將算子設計為在 Tensor Core 進行主動計算的同時重疊此數據通訊,DeepSeek 確保了昂貴的硬件在更高比例的時間內從事有用工作。其結果是吞吐量的直接提升,特別是在訓練前沿模型所需的大型多節點配置中。
除了融合算子外,DeepSeek 的更新還展示了對計算節省極限的積極追求。團隊正在嘗試低精度數據格式,包括用於 MQA logits 的 FP4 索引器。使用 4 位浮點數(低於更常見的 8 位或 16 位格式)可以顯著減少內存使用並提高計算速度,儘管這需要複雜的工程設計來維持模型準確性。
這種對前沿優化技術的關注引發了人們對 DeepSeek 底層硬件的猜測。根據 X 用戶 St4r 的分析,Mega MoE 中實施的具體方法最適合英偉達最先進的 AI 加速器,很可能是 Blackwell 架構。這表明,儘管存在地緣政治貿易緊張局勢,DeepSeek 仍繼續使用來自市場領導者的頂級芯片,這是投資者跟蹤其與 OpenAI、Anthropic 等其他主要參與者及其硬件供應商(如 AMD 和英特爾)競爭格局的關鍵因素。雖然 DeepSeek 指出該項目仍在開發中,性能數據尚待公佈,但此舉發出了明確的戰略信號:讓最先進的 AI 在經濟上更可行。
對於投資者而言,DeepSeek 對基礎設施優化的關注是一個關鍵的差異化因素。在一個進入門檻主要是訓練和推理巨大成本的市場中,任何能夠從根本上降低該成本曲線的公司都將獲得強大的競爭優勢。此次更新給其他 AI 實驗室和雲供應商帶來了壓力,要求他們達到同樣的效率水平。Mega MoE 的成功不僅可能改善 DeepSeek 自身模型的單位經濟效益,還可能影響整個行業下一代 AI 軟件和硬件的設計。
本文僅供參考,不構成投資建議。