关键要点
- 生数科技(Shengshu Technology)主张利用扩散变换器(DiT)架构的视频驱动路径来构建 AI “世界模型”,这与 3D 模拟和抽象预测方法有所不同。
- 创始人朱军认为,视频在教授 AI 物理世界动态方面更具扩展性和效率,因为它避免了像素级渲染带来的不必要计算开销。
- 该公司的统一模型在 50 多项任务中展现了强大的泛化能力,预计在未来两年内将在家庭和办公室等开放环境中取得重大突破。

随着 AI 行业从生成内容转向理解物理世界,关于构建“世界模型”正确路径的激烈辩论正日趋白热化。
生数科技正致力于通过视频优先的方法来构建 AI 世界模型,认为与学术实验室青睐的 3D 模拟方法相比,该路径在创造具身智能方面更具扩展性和效率。
“视频是记录真实世界最自然的数据格式,”生数科技创始人、清华大学 AI 研究员朱军在 3 月 29 日的采访中表示。“关键在于教会模型有效地从中学习物理世界的运行规则。”
朱军的策略依赖于扩散变换器(DiT)架构,该架构已被证明能随着数据和参数规模的增加而有效扩展。这与李飞飞 World Labs 的 3D 重建路径以及 Yann LeCun 团队的抽象预测模型形成了鲜明对比,一场技术对决拉开了序幕。
这场架构之争的结果可能决定新兴机器人和具身 AI 市场的领导者。该领域正吸引大量投资,各大公司竞相开发已在冲击劳动力市场的自动化技术。数据显示,受 AI 普及影响,印度科技行业在 2026 年初的活跃职位空缺同比下降了 24%。
朱军论点的核心在于数据和架构扩展这两大支柱。他认为,模型要真正理解世界,必须接触海量的、不断增长的数据集。他指出,视频是捕捉现实世界物理特性和因果关系最丰富、最普遍的格式。
“我们从基础模型的第一性原理出发思考,”朱军解释道。“你需要能够扩展的数据和能够扩大的架构。”
这种以视频为中心的路径与专注于创建高保真 3D 环境或模拟的竞争对手截然不同。虽然那些方法提供了可控的训练环境,但朱军认为这对于机器的终极目标来说效率低下。他认为,机器人不需要完美渲染每个像素就能理解如何拿起杯子;它只需要感知自身状态并预测动作的物理过程。通过在大规模真实世界视频上进行训练,模型可以在没有渲染计算开销的情况下学习这些动态规律。
这一方法由 DiT 架构支撑,生数科技是最早采用该架构的公司之一,并验证了其扩展性。随着更多数据和参数的加入,模型性能预计将进一步提升,这对于构建未来机器人真正的通用“智能中枢”至关重要。
一个核心挑战是将被动的视频观察转化为可执行的动作。生数科技正通过构建统一的世界模型框架来解决这一问题,旨在弥合“生成”与“动作”之间的鸿沟。该模型不仅仅是在观看视频,它还在学习运动、交互及其后果的底层模式。
朱军报告了这种统一路径的初步成效,指出其表现出显著的数据规模效应,并在 50 多项不同任务中具有强大的泛化能力。这些任务范围广泛,从机器人手臂破解验证码等数字任务,到处理柔性物体等复杂的物理操作。
“我们观察到,随着任务数量的增加,性能不仅没有下降,反而有所提升,”朱军说。他将其与传统的视觉-语言-动作(VLA)模型进行了对比,后者往往会随着任务增加而性能下降。这表明,单一的统一模型可能是实现通用智能比为每个任务训练独立模型更可行的路径。
就在推动 AI 进入物理世界的同时,为其提供动力的半导体行业正面临巨大的能源成本挑战。在 SEMICON China 2026 论坛上,富士康和京东方等行业巨头强调了如何利用 AI 自身将工厂功耗降低 10-20%,这是支持训练更大规模世界模型所需产能扩张的必要步骤。
展望未来,朱军持乐观态度,预测海量数据、DiT 等成熟架构以及充足算力的融合将在未来一至两年内带来重大突破。他认为家庭和办公环境具有非结构化和动态特性,是世界模型最终的试金石,也是最具有价值的终极目标。对于投资者而言,关键将是识别哪些公司拥有这一新前沿领域的三大关键资源:可扩展的数据、可扩展的模型架构以及训练它们所需的海量计算资源。
本文仅供参考,不构成投资建议。