AI 基础设施领域的协同创新
VDURA 和 超威半导体 (AMD) 宣布推出其首个可扩展的 AMD Instinct™ GPU 参考架构,这是一项旨在优化要求严苛的人工智能 (AI) 和高性能计算 (HPC) 环境性能的重大发展。这份经过验证的蓝图定义了如何配置计算、存储和网络,以实现高效、可重复的大规模 GPU 实施。
该架构将 VDURA V5000 存储平台与 AMD Instinct™ MI300 系列加速器集成,专门设计用于消除性能瓶颈并简化部署。该系统旨在充分利用 AMD Instinct™ GPU,以效率、可扩展性和操作简便性为重点,提供持续的性能。它支持每个可扩展单元最多 256 个 AMD Instinct™ GPU,在全闪存布局中实现了高达 1.4 TB/s 的吞吐量和 4500 万 IOPS,同时提供约 5 PB 的可用容量。数据持久性通过多级纠删码确保,网络选项包括双平面 400 GbE 和可选的 NDR/NDR200 InfiniBand。
VDURA 首席执行官 Ken Claffey 表示:“发布我们与 AMD Instinct™ MI300 系列加速器的首个可扩展参考架构,彰显了我们共同致力于引领下一代 AI 基础设施的决心。” AMD 在技术评估后选择了 VDURA,理由是 VDURA 具有针对 GPU 优化的性能、低客户端开销以及久经考验的扩展能力。该解决方案已被美国联邦系统集成商采用于 AI 超级集群,这表明它已为任务关键型工作负载做好准备,在这些工作负载中,AI 和 HPC 管道日益受到存储限制。
AMD 借助 Instinct MI350 系列的战略推进
与 VDURA 的合作与 AMD 积极进军蓬勃发展的 AI 加速器市场的战略相符,这尤其体现在其尖端 Instinct MI350 系列图形处理单元 (GPU) 预期的成功上。AMD 预计 2025 年第三季度的收入将达到约 87 亿美元,可能存在 3 亿美元的波动,这一预测主要得益于 MI350 系列的预期强劲需求和加速部署。
这一乐观的指导预示着 AMD 强劲的财务发展轨迹,同比增长约 28%,环比增长 13%。这一增长主要归因于其数据中心部门的强劲两位数扩张,其中 Instinct MI350 系列(包括 MI350X 和 MI355X 型号)发挥着关键作用。这些 GPU 基于 AMD 先进的 CDNA 4 架构构建,在 Advancing AI 和 Hot Chips 2025 等主要行业活动中正式推出,专门设计用于处理最苛刻的 AI 工作负载,从大型语言模型 (LLM) 训练到 AI 推理和 HPC。
MI350 系列的关键规格彰显了其强大性能,配备高达 288GB 的 HBM3E 内存和 8 TB/s 的内存带宽,确保了密集任务的大规模吞吐量。该系列有望实现显著的性能飞跃,包括 AI 计算任务提高四倍,推理速度比以前型号提高 35 倍。这一积极的路线图将 AMD 定位为强大的竞争者,而 MI350 系列的成功部署标志着向以 AI 为中心的基础设施更广泛技术转变的关键时刻。
市场影响和竞争格局
VDURA-AMD 参考架构的推出以及 MI350 系列的强劲前景表明 AMD 和更广泛的 AI/HPC 领域存在积极情绪。此次合作通过解决大规模 AI 部署至关重要的存储瓶颈,可以长期巩固 AMD 的市场份额和收入,增强其对竞争对手的竞争地位。
对 AI GPU 的 surging 需求是市场爆炸性增长的直接体现。AI GPU 市场预计 2025 年为 216 亿美元,预计到 2035 年将飙升至 2655 亿美元,复合年增长率 (CAGR) 达到惊人的 28.5%。云服务提供商正在成为这一扩张的主要驱动力,推动对 GPU 支持的数据中心基础设施进行大规模投资。AMD 在 AI 推理工作负载方面获得了显著的关注,这是一个日益受到行业关注的领域。
然而,竞争格局依然激烈。截至 2025 年第三季度,NVIDIA 仍保持着持久的主导地位,市场份额估计为 80-85%。凭借其成熟的 CUDA 生态系统和即将推出的 Blackwell 架构,NVIDIA 仍然是 AMD 的一个重要障碍。尽管 AMD 的 ROCm 生态系统取得了快速改进,但其在成熟度和开发人员熟悉度方面仍落后于 CUDA。报告表明,在某些工作负载中,AMD 的 MI350 系列可能会比 NVIDIA 的 B200 提供 30% 的成本优势,Wedbush 的分析师指出,AMD 即将推出的 MI400 GPU 预计在每美元性能指标上可与 NVIDIA 的 H100 匹敌,这可能会侵蚀 NVIDIA 在成本敏感型客户中的市场份额。
英特尔 (Intel) 在 AI 加速器市场也面临日益严峻的挑战。据报道,其 Gaudi 系列因销售缓慢和“软件易用性”问题未能达到 2024 年 5 亿美元的温和收入目标。AMD 在 AI GPU、服务器 CPU (EPYC™) 和客户端 CPU (Ryzen™) 领域持续获得市场份额,这进一步使 英特尔 在其传统优势领域重新获得立足点的努力复杂化。更广泛的影响包括对 台积电 (TSMC) 先进制造工艺的供应链依赖,这可能造成潜在的单点故障,以及地缘政治因素,例如美国对中国先进 AI 芯片的出口限制,这些仍然是重大的障碍。
行业展望和未来展望
超威半导体 正处于一个变革时代的风口浪尖,这得益于其战略合作以及 Instinct MI350 系列 GPU 的预期成功和强劲的收入指导。未来的道路涉及应对激烈的竞争,努力扩展其 AI 生态系统,并战略性地利用对 AI 基础设施永不满足的需求。
VDURA-AMD 参考架构是确保高效、可扩展部署的基础性一步,可以最大限度地提高 GPU 利用率,降低能源成本,并在 AI 和 HPC 管道日益受存储容量限制的环境中提高整体效率。公司的短期和长期发展轨迹将由其执行其积极路线图并巩固其在人工智能领域的主导地位的能力决定,这需要密切关注竞争对手的进展和不断变化的市场动态。