DeepSeek 通过一项重大效率更新瞄准降低 AI 成本

中国 AI 公司 DeepSeek 发布了其 DeepGEMM 代码库的重大更新，引入了一种名为 “Mega MoE” 的新架构，旨在大幅削减与混合专家（MoE）模型相关的高昂计算成本。此次更新旨在通过将多个复杂步骤融合为单个 GPU 操作来解决 AI 中的关键效率问题，从而使 DeepSeek 在训练和部署其大规模模型时获得显著的成本优势。

DeepSeek 基础设施团队在项目描述中写道：“DeepGEMM 是一个统一的高性能 Tensor Core 算子库，集成了现代大语言模型的核心计算原语。” 该库现在将 “具有通信重叠的融合 MoE (Mega MoE)” 作为核心组件，标志着其对极致效率的战略关注。

传统的 MoE 模型虽然功能强大，但其低效是出了名的。它们通过将不同的数据 “令牌” 路由到专门的 “专家” 子网络来处理信息，但这涉及 GPU 上一系列碎片化的单独操作——分发令牌、两次线性变换、一个激活函数以及合并结果。Mega MoE 用一个统一的 “超级算子” 取代了整个脱节的工作流，一次性执行整个过程。至关重要的是，它还使 GPU 之间的数据通信能够与计算同时发生，消除了困扰当前多 GPU 设置的空闲时间。

在由 AI 训练所需的大规模资本支出主导的行业中，这种对效率的追求至关重要。通过潜在地降低运行 MoE 模型（谷歌和 Mistral AI 等顶级实验室也在使用此类模型）的成本，DeepSeek 可能会获得竞争优势。此次更新还暗示了该公司的硬件策略，分析人士认为这些先进技术是针对英伟达最新的 B 系列 AI 加速器进行优化的，这反驳了该公司仅依赖国产硬件的传言。

融合算子以战胜低效

Mega MoE 的核心创新在于它背后的逻辑：改变了 MoE 层常规的逐步执行方式。以往的方法需要为过程的每个阶段启动多个算子（在 GPU 上运行的小程序），而 Mega MoE 将它们整合在一起。可以将其想象为将一条缓慢的多站装配线转变为一条单一的、持续运行的传送带。

这种 “融合” 方法直接解决了 GPU 利用率不足的问题。在涉及多个 GPU 的标准 MoE 训练中，处理器在等待数据在它们之间传输时会浪费大量时间。通过将算子设计为在 Tensor Core 进行主动计算的同时重叠此数据通信，DeepSeek 确保了昂贵的硬件在更高比例的时间内从事有用工作。其结果是吞吐量的直接提升，特别是在训练前沿模型所需的大型多节点配置中。

利用 FP4 和未来硬件挑战极限

除了融合算子外，DeepSeek 的更新还展示了对计算节省极限的积极追求。团队正在尝试低精度数据格式，包括用于 MQA logits 的 FP4 索引器。使用 4 位浮点数（低于更常见的 8 位或 16 位格式）可以显著减少内存使用并提高计算速度，尽管这需要复杂的工程设计来维持模型准确性。

这种对前沿优化技术的关注引发了人们对 DeepSeek 底层硬件的猜测。根据 X 用户 St4r 的分析，Mega MoE 中实施的具体方法最适合英伟达最先进的 AI 加速器，很可能是 Blackwell 架构。这表明，尽管存在地缘政治贸易紧张局势，DeepSeek 仍继续使用来自市场领导者的顶级芯片，这是投资者跟踪其与 OpenAI、Anthropic 等其他主要参与者及其硬件供应商（如 AMD 和英特尔）竞争格局的关键因素。虽然 DeepSeek 指出该项目仍在开发中，性能数据尚待公布，但此举发出了明确的战略信号：让最先进的 AI 在经济上更可行。

对于投资者而言，DeepSeek 对基础设施优化的关注是一个关键的差异化因素。在一个进入门槛主要是训练和推理巨大成本的市场中，任何能够从根本上降低该成本曲线的公司都将获得强大的竞争优势。此次更新给其他 AI 实验室和云提供商带来了压力，要求他们达到同样的效率水平。Mega MoE 的成功不仅可能改善 DeepSeek 自身模型的单位经济效益，还可能影响整个行业下一代 AI 软件和硬件的设计。

本文仅供参考，不构成投资建议。