DeepSeek 通過一項重大效率更新瞄準降低 AI 成本

中國 AI 公司 DeepSeek 發布了其 DeepGEMM 代碼庫的重大更新，引入了一種名為「Mega MoE」的新架構，旨在大幅削減與混合專家（MoE）模型相關的高昂計算成本。此次更新旨在通過將多個複雜步驟融合為單個 GPU 操作來解決 AI 中的關鍵效率問題，從而使 DeepSeek 在訓練和部署其大規模模型時獲得顯著的成本優勢。

DeepSeek 基礎設施團隊在項目描述中寫道：「DeepGEMM 是一個統一的高性能 Tensor Core 算子庫，集成了現代大語言模型的核心計算原語。」該庫現在將「具有通訊重疊的融合 MoE (Mega MoE)」作為核心組件，標誌著其對極致效率的戰略關注。

傳統的 MoE 模型雖然功能強大，但其低效是出了名的。它們通過將不同的數據「令牌」路由到專門的「專家」子網絡來處理信息，但這涉及 GPU 上一系列碎片化的單獨操作——分發令牌、兩次線性變換、一個激活函數以及合併結果。Mega MoE 用一個統一的「超級算子」取代了整個脫節的工作流，一次性執行整個過程。至關重要的是，它還使 GPU 之間的數據通訊能夠與計算同時發生，消除了困擾當前多 GPU 設置的空閑時間。

在由 AI 訓練所需的大規模資本支出主導的行業中，這種對效率的追求至關重要。通過潛在地降低運行 MoE 模型（谷歌和 Mistral AI 等頂級實驗室也在使用此類模型）的成本，DeepSeek 可能會獲得競爭優勢。此次更新還暗示了該公司的硬件策略，分析人士認為這些先進技術是針對英偉達最新的 B 系列 AI 加速器進行優化的，這反駁了該公司僅依賴國產硬件的傳言。

融合算子以戰勝低效

Mega MoE 的核心創新在於它背後的邏輯：改變了 MoE 層常規的逐步執行方式。以往的方法需要為過程的每個階段啟動多個算子（在 GPU 上運行的小程序），而 Mega MoE 將它們整合在一起。可以將其想象為將一條緩慢的多站裝配線轉變為一條單一的、持續運行的傳送帶。

這種「融合」方法直接解決了 GPU 利用率不足的問題。在涉及多個 GPU 的標準 MoE 訓練中，處理器在等待數據在它們之間傳輸時會浪費大量時間。通過將算子設計為在 Tensor Core 進行主動計算的同時重疊此數據通訊，DeepSeek 確保了昂貴的硬件在更高比例的時間內從事有用工作。其結果是吞吐量的直接提升，特別是在訓練前沿模型所需的大型多節點配置中。

利用 FP4 和未來硬件挑戰極限

除了融合算子外，DeepSeek 的更新還展示了對計算節省極限的積極追求。團隊正在嘗試低精度數據格式，包括用於 MQA logits 的 FP4 索引器。使用 4 位浮點數（低於更常見的 8 位或 16 位格式）可以顯著減少內存使用並提高計算速度，儘管這需要複雜的工程設計來維持模型準確性。

這種對前沿優化技術的關注引發了人們對 DeepSeek 底層硬件的猜測。根據 X 用戶 St4r 的分析，Mega MoE 中實施的具體方法最適合英偉達最先進的 AI 加速器，很可能是 Blackwell 架構。這表明，儘管存在地緣政治貿易緊張局勢，DeepSeek 仍繼續使用來自市場領導者的頂級芯片，這是投資者跟蹤其與 OpenAI、Anthropic 等其他主要參與者及其硬件供應商（如 AMD 和英特爾）競爭格局的關鍵因素。雖然 DeepSeek 指出該項目仍在開發中，性能數據尚待公佈，但此舉發出了明確的戰略信號：讓最先進的 AI 在經濟上更可行。

對於投資者而言，DeepSeek 對基礎設施優化的關注是一個關鍵的差異化因素。在一個進入門檻主要是訓練和推理巨大成本的市場中，任何能夠從根本上降低該成本曲線的公司都將獲得強大的競爭優勢。此次更新給其他 AI 實驗室和雲供應商帶來了壓力，要求他們達到同樣的效率水平。Mega MoE 的成功不僅可能改善 DeepSeek 自身模型的單位經濟效益，還可能影響整個行業下一代 AI 軟件和硬件的設計。

本文僅供參考，不構成投資建議。