Key Takeaways:
- 中国 GPU 厂商摩尔线程发布了全栈“云边端” AI 平台,从销售单一芯片转向提供完整的软硬件系统,旨在国内市场与英伟达竞争。
- 新发布的 MUSA SDK 5.1.0 现已兼容英伟达的 CUDA 12.8,并支持全部 3,194 个 PyTorch 算子,此举旨在大幅降低开发者将项目迁移到摩尔线程硬件的成本和难度。
- 公司还推出了用于具身智能的 MT Lambda 仿真平台,通过在单芯片上集成渲染、物理模拟和 AI 计算来加速训练,瞄准机器人和自动驾驶领域。
Key Takeaways:

中国 GPU 厂商摩尔线程正在从销售芯片转向交付完整的 AI 基础设施,旨在抓牢因美国出口管制而面临挑战的国内市场。
中国 GPU 公司摩尔线程(Moore Threads)正在推出全栈“云边端” AI 平台。通过提供一套旨在降低从英伟达 CUDA 生态系统迁移门槛的软硬件集成系统,该公司直接挑战了英伟达(Nvidia Corp.)在中国市场的统治地位。
“单卡性能是入门,系统能力决定了采购和复购,”该公司在 5 月 18 日发布会的新闻材料中表示。这标志着摩尔线程从单纯提供零部件到交付集成 AI 基础设施的战略转型。
此次发布包括夸娥(Kua’e)千卡智算集群,该集群已经投入使用,在大模型训练中实现了高达 60% 的模型算力利用率(MFU)。与之配套的是 MUSA SDK 5.1.0,它现已兼容英伟达的 CUDA 12.8,并支持全部 3,194 个 PyTorch 算子。
此举使摩尔线程处于捕捉中国年度约 500 亿美元 AI 市场份额的有利地位。由于美国的出口限制,英伟达进入该细分市场的渠道受到限制。如果成功,这一战略可能会加速中国 AI 的自给自足,并挑战英伟达在该地区的长期收入前景。在实施最严厉的管制措施之前,中国市场占英伟达总营收的 13%,即 171 亿美元。
摩尔线程的声明标志着其从硬件厂商向系统架构师的重大战略演变。该公司的新产品矩阵建立在“三位一体”的方法之上:用于云端 AI 训练的夸娥集群、基于新款长江 SoC 的边缘和终端设备产品,以及用于仿真的 MT Lambda 平台。这一集成组合旨在向大规模企业客户证明,公司能够交付并维护复杂的端到端 AI 工作流,这对于承担多年期 AI 项目的客户来说至关重要。
在边缘侧,公司推出了基于长江 SoC 的 E300 模块,该模块提供 50 TOPS 的异构 AI 算力,适用于需要低延迟局部推理的工业检测、无人车和机器人等应用。通过提供从云到端的统一架构,摩尔线程旨在简化开发者构建混合 AI 应用的部署过程。
多年来,任何潜在的英伟达竞争对手面临的最大障碍一直是 CUDA——英伟达自有的软件平台,它已在 AI 开发社区中根深蒂固。摩尔线程正在正面应对这一挑战。通过开源 vLLM-MUSA 并实现对流行框架 SGLang 的原生支持,该公司正致力于减少开发者脱离英伟达生态系统时面临的摩擦。
这一努力旨在解决兼容性问题中的“长尾”挑战,例如自定义算子内核和旧有的依赖项,这些问题往往会使迁移项目脱轨。虽然支持主流框架是基本要求,但确保一家公司过往的所有工程努力都能顺利移植才是真正的考验。摩尔线程对其 MUSA 软件栈(包括自动迁移工具)的关注,是直接尝试让其 GPU 不仅可用,而且易于被那些主要受过英伟达工具培训的开发群体所采用。
此次发布中最具前瞻性的组件或许是 MT Lambda 仿真平台,它将摩尔线程的 GPU 叙事推向了物理 AI 领域。随着 AI 从数字空间转向在机器人和自动驾驶中与物理世界互动,高保真仿真的需求变得至关重要。在现实世界中训练这些系统成本高昂且具有危险性。
摩尔线程将其集成图形渲染、物理模拟和 AI 计算于单芯片的“全功能 GPU”定位为此项工作的理想基础。通过在虚拟环境中实现合成数据的高效生成和控制策略的验证,该平台可能成为 Pony.ai(小马智行)和智谱 AI 等合作伙伴的关键基础设施。此举不仅使摩尔线程在 GPU 硬件上与英伟达竞争,还直接挑战了 Omniverse 等综合仿真平台。
这一战略并非没有风险。通过将范围从芯片扩展到全系统,摩尔线程现在在云稳定性、开发者体验和实际应用性能等多个战线上同时开战。然而,随着美国限制为华为和摩尔线程等本土企业创造了潜在机会,深度嵌入中国 AI 建设的机会或许值得冒险。
本文仅供参考,不构成投资建议。