DeepSeek V4 削减 73% AI 成本，直接挑战英伟达主导地位

中国初创公司 DeepSeek 的新 AI 架构有望以减少 73% 的计算资源运行百万级 Token 模型，直接威胁当前 AI 硬件市场的成本结构。该公司声称，其全新的 V4 模型处理 100 万 Token 上下文所需的计算能力仅为前代的 27%，内存占用仅为 10%。这一结构性转变可能显著降低开发者的成本，并加剧与英伟达和谷歌等老牌企业的竞争。

该公司在官方公告中表示：“从现在起，100 万上下文将成为 DeepSeek 所有官方服务的标准配置。”此举是对大上下文 AI 相关高昂成本的直接挑战，英伟达首席执行官黄仁勋曾强调这是关键障碍。尽管 DeepSeek 的基准测试显示其在通用知识方面仍落后于谷歌最先进的闭源模型，但其效率提升在 AI 军备竞赛中代表了巨大的新威胁。

V4 模型的效率源于一种新型的混合注意力机制架构。在 100 万 Token 上下文中，单 Token 推理所需的计算负荷（以每秒浮点运算次数 FLOPs 衡量）仅为此前 V3.2 模型的 27%。作为内存关键瓶颈的 KV 缓存需求也降至前代版本的 10%。公司发布了两个版本：拥有 1.6 万亿参数的 V4-Pro 模型，以及较小的 V4-Flash 模型，两者均在开源 MIT 许可下提供。

对于投资者而言，DeepSeek 的突破代表了对当前市场的潜在颠覆。通过设计一个对暴力计算能力依赖较少的模型，该公司为华为昇腾芯片等替代硬件创造了空间。这与英伟达首席执行官此前关于中国正在构建独立 AI 栈的警告相吻合。据报道，在阿里巴巴和腾讯的支持下，DeepSeek 正寻求超过 200 亿美元的估值。如果其成本优势证明具有可扩展性并推动广泛采用，可能会压缩云供应商和芯片制造商的利润空间。

针对计算成本的结构性攻击

DeepSeek V4 背后的核心创新是对注意力机制（Transformer 模型的计算核心）进行的双管齐下式的重新设计。标准注意力机制要求每个 Token 与序列中的每个其他 Token 计算相关性得分，导致计算复杂度呈二次方增长，这是 100 万 Token 上下文窗口商业化的主要障碍。

DeepSeek 的解决方案结合了压缩稀疏注意力（CSA）和重压缩注意力（HCA）。CSA 使用可训练机制来学习哪些 Token 连接足够重要以进行全量计算，从而动态创建稀疏结构而非计算所有内容。HCA 则通过压缩 KV 缓存（推理期间必须保存在昂贵 GPU 显存中的数据）来解决内存问题。这些创新加在一起，使 DeepSeek 在相同硬件上能支持的并发用户数达到传统架构的 3 至 4 倍。

基准测试揭示专业化威胁

尽管 DeepSeek V4-Pro 的效率是其主要特色，但其性能基准测试展现了一个专业化竞争者的形象。该模型在数学和编程方面表现卓越，在 Codeforces 基准测试中获得 3206 分，超过了 OpenAI 和谷歌模型的公开分数。然而，在通用世界知识和高级推理测试中，它仍处于落后地位。在 SimpleQA-Verified 基准测试中，V4 得分为 57.9，远低于谷歌 Gemini 3.1 Pro 的 75.6 分。

这表明 DeepSeek 正将其资源集中在特定的高价值能力上，力求在这些领域建立领先优势，而非试图在所有领域击败前沿模型。这种策略结合其开源和低成本路径，使其在上线首周便登顶苹果 App Store 下载榜，显示出市场对昂贵的美国科技巨头封闭模型的替代方案有着强烈渴求。针对非美国硬件优化的强力、高效模型的崛起，正是英伟达黄仁勋所描述的“国家的灾难性后果”，且这一进程似乎比许多人预期的要快。投资者的关键问题在于，这种架构优势转化成市场份额和收入的速度有多快，以及英伟达等老牌巨头能否调整路线图以应对更高效、多极化 AI 硬件世界的威胁。

本文仅供参考，不构成投资建议。