三位谷歌和 Meta 的资深员工已获得 1 亿美元资金,用于解决 AI 计算中的一个关键瓶颈,该瓶颈导致即使是最强大的芯片也处于闲置状态。这家名为 Majestic Labs AI 的初创公司正在开发一种新型服务器架构,旨在打破“内存墙”。这一问题一直困扰着数据中心,并导致英伟达(Nvidia)等芯片制造商生产的高性能硬件浪费了数十亿美元的效能。
该公司的使命是重新设计服务器内的数据流,以跟上现代 AI 模型贪婪的胃口。创始人们指出:“巨大的 AI 模型正令服务器不堪重负,并导致高性能芯片处于闲置状态。”他们在 Alphabet 旗下的谷歌和 Meta Platforms 开发定制芯片时亲历了这一问题。
Majestic Labs AI 由 Ofer Shacham、Masumi Reynders 和 Sha Rabii 创立,他们此前曾负责谷歌数据中心芯片的研发,后来在 Meta Reality Labs 建立了定制芯片团队。他们于 11 月宣布的 1 亿美元融资计划得到了 Bow Wave Capital、Lux Capital 和 Grove 等机构的支持。
这笔投资凸显了整个 AI 行业面临的一项严峻挑战。随着 AI 模型规模和复杂性的增长,运行成本也在不断攀升,不仅体现在功耗上,还体现在潜力的浪费上。解决内存瓶颈可能会显著提高 AI 计算效率,从而可能改变芯片设计师和云服务提供商的竞争格局。
十亿美元级的交通拥堵
“内存墙”是计算领域长期存在的问题,但如今 AI 的规模使其进一步恶化。问题不在于像英伟达 H100 GPU 这样的芯片的处理能力,而在于向其输送数据的速度。这造成了处理器等待数据的“交通拥堵”,浪费了时钟周期和能源。这一问题是“维数灾难”在实际应用中的体现——物理学家和数学家用这一术语来描述随着系统中变量的增加,计算成本如何呈指数级增长。
对于斥资数十亿投入 AI 基础设施的公司来说,这种效率低下直接打击了利润。配备了强大但利用不足的处理器的服务器代表了巨额资本支出,但回报却在递减。根据 Flatiron 研究所的研究,克服这种维度诅咒是推动包括专用硬件在内的新型以数据为中心的计算方法发展的关键驱动力之一。
专为 AI 设计的新架构
虽然谷歌的张量处理器(TPU)和亚马逊的 Trainium 芯片等竞争对手专注于设计更好的处理器,但 Majestic Labs 正从服务器设计层面解决这一问题。该公司的方案虽然尚未完全公开细节,但暗示将对服务器机架内内存与处理器的集成方式进行整体重新设计,旨在消除芯片之间存在的瓶颈。
这一战略使该初创公司不仅要与英伟达和 AMD 等成熟芯片制造商竞争,还要与其创始人前雇主谷歌和 Meta 的内部硬件项目一较高下。这些科技巨头已投入巨资创建自己的定制芯片,以优化 AI 工作负载并减少对第三方供应商的依赖。Majestic Labs 能否成功,将取决于它能否提供一种不仅更高效,而且能广泛兼容行业内各种硬件和软件的解决方案。
本文仅供参考,不构成投资建议。