AI 的下一个淘金热：具身智能繁荣中的三大数据“铲子”

从基于语言的 AI 向物理交互式“世界模型”的范式转变，正在为训练这些模型所需的基础数据基础设施创造投资热潮。根据国泰海通的一份最新报告，具身智能的主要瓶颈不再是算法，而是巨大的数据缺口，数据需求正膨胀至艾字节（EB）量级。这使得数据采集、模拟和处理公司成为下一波人工智能浪潮中的核心“工具商”。

“率先填补这一数据缺口的公司将扮演物理 AI 时代的‘铲子销售商’，并获得显著的估值溢价，”国泰海通在报告中指出。

具身智能对数据的需求比大语言模型高出几个数量级。虽然大语言模型（LLM）是在拍字节（PB）级的文本和图像数据集上训练的，但与现实世界交互的机器人需要艾字节级的数据，其中包括物理交互信息——力量、触觉和摩擦力。这种专业化、高质量的数据极其匮乏，构成了整个机器人行业的根本瓶颈。

这种稀缺性迫使人们重新评估机器人价值链。重点正在从机器人硬件本身转向能够解决数据采集和处理问题的数据基础设施提供商。这一趋势可能会引发大量资金流入专注于数据工具和服务的人工智能股票这一新子版块，短期内其受益程度可能超过机器人制造商。

万亿美元的数据难题：三种竞争方案

为了弥补数据缺口，业界正在尝试三种主要路径，每种路径都有其优缺点：

现实世界数据： 通过人类操作的远程操作装置和运动捕捉服采集，这种方法包含真实的物理交互，因此提供了最高保真度的数据。然而，其成本高昂，难以规模化，且无法覆盖所有极端案例。1X Technologies 等公司优先考虑此路径，认为这是跨越“仿真到现实（Sim2Real）”鸿沟的唯一方法。
合成与仿真数据： 使用物理引擎在虚拟环境中生成大规模、标记完美的训练集。这种方法成本低且可扩展性强，如 Galaxy General 等公司目标是实现 99:1 的合成与真实数据比例。其主要弱点是“仿真到现实”的差距，即由于细微的物理差异，在仿真中训练的模型在现实世界中往往表现欠佳。
视频数据： 一种更新的方法，利用海量的互联网视频来教学模型。特斯拉（Tesla）和 Figure AI 等公司正转向这种方法，认为视频数据的巨大规模可以弥补其缺乏直接物理属性的不足。挑战在于如何将二维视频“升维”到三维动作，这是一个复杂的技术难题。

目前的共识是，一种混合方法——使用仿真和视频进行大规模预训练，然后使用少量、高质量的现实世界数据进行微调——将成为行业标准。

机器人制造者和科技巨头如何押注

这种战略分歧在整个行业中随处可见。特斯拉著名的 Optimus 机器人已放弃了远程操作，转而依赖其车队的视频数据。由 OpenAI 和微软支持的 Figure AI 启动了“Project Go-Big”，旨在通过零样本学习将技能从人类视频转移到其机器人身上。

相反，中国的初创公司智元机器人（Zhiyuan Jīqìrén）据报道在其大模型训练中使用了 100% 的现实世界数据。这突显了各方在押注哪种数据源最终证明最为有效方面的策略博弈。

这一趋势不仅限于机器人领域。印度金融科技巨头 Paytm 尽管有宏大的 AI 愿景，但并不打算建立自己的数据中心。相反，它将向 NVIDIA 等供应商租用计算能力，并在第三方基础设施上运行其专有模型，正如首席执行官 Vijay Shekhar Sharma 在 FY26 第四季度财报会议上确认的那样。这一战略验证了“铲子商”论点：即使是主要的科技玩家也选择成为核心基础设施提供商的客户，而非竞争对手。

“工具商”投资组合：资本流向何处

市场已经在奖励这些“铲子销售商”。正如欧洲 AI 驱动的独角兽潮以及中国月之暗面（Moonshot AI）完成 20 亿美元巨额融资所表现的那样，投资者正在向提供基础能力的公司投入资本。根据国泰海通的报告，投资正集中在四个关键领域：

视频数据转换： 能够以低成本将互联网视频转换为可用训练数据的平台。
仿真平台： 提供虚拟训练场和合成数据生成器的公司。
硬件与传感器： 光学惯性手套和电子皮肤等高保真数据采集工具的制造商。
集成数据服务： 建立结合所有三种数据源的综合训练设施和工程平台的公司。

对于投资者而言，这意味着具身智能领域最有前景的机会可能不是制造机器人的公司，而是那些销售使机器人变得智能所需的必要数据和工具的公司。

本文仅供参考，不构成投资建议。