英伟达最新的开源框架使机器人能够编写自己的 Python 代码,在 7 项核心任务中的 4 项取得了达到或超过人类程序员的成功率。
返回
英伟达最新的开源框架使机器人能够编写自己的 Python 代码,在 7 项核心任务中的 4 项取得了达到或超过人类程序员的成功率。

英伟达(Nvidia)正在将其在 AI 训练领域的统治地位延伸至机器人控制领域。该公司发布了 CaP-X,这是一个允许机器人实时生成自身控制软件的开源框架。该框架的首选智能体 CaP-Agent0 已经在复杂任务中展示了足以媲美或超越人类专家手写程序的性能,标志着自主系统学习和适应方式的重大转变。
“对于机器人领域‘代码即策略’(Code as Policy,简称 CaP)的前景,我感到非常兴奋!”加州大学伯克利分校教授肯·戈德堡(Ken Goldberg)在该发布评论中表示。
在使用 CaP-Bench 框架进行的基准测试中,无需事先训练的 CaP-Agent0 在 7 项核心操作任务中的 4 项取得了与人类专家编写的程序持平或更高的成功率。这一表现是在仅使用最基础原子指令的情况下实现的,而在这种场景下,即使是像 OpenAI 的 o1 和谷歌(Google)的 Gemini 3 Pro 这样先进的大型模型,在没有该框架结构化方法的支持下也被证明会失败。与 OpenVLA 等端到端模型相比,CaP-X 模型在长程任务(long-horizon tasks)中也表现出了更优越的鲁棒性。
这一进展巩固了“代码即策略”的方法,即 AI 模型生成显式代码,而非黑盒神经网络输出。对于英伟达而言,这将其护城河从单纯销售训练 AI 的 GPU 扩展到了提供运行 AI 驱动机器人的核心软件框架。此举可能在日益增长的机器人和自动化市场中获取巨大价值,并进一步向试图构建综合 AI 生态系统的竞争对手施压。
CaP-X 的发布解决了机器人控制中两种主流方法的关键局限性。传统方法要求工程师细致地为每个动作编写代码,这一过程虽然精确但极具脆弱性,且无法泛化到新物体或新环境中。最近,受大语言模型成功的启发,端到端视觉-语言-动作(VLA)模型展示了令人印象深刻的能力。然而,这些 VLA 模型像“黑盒”一样运作,难以调试,且往往需要庞大的新数据集才能适应新任务。
“代码即策略”(CaP)范式最初由谷歌在 2022 年提出,它提供了第三种途径。它不是让大型模型输出抽象动作,而是生成可读的 Python 代码,直接调用机器人的控制 API。英伟达的 CaP-X 是这一理念的重大演进。它创建了一个完整的“控制台”,允许编程智能体不仅能编写代码,还能接收来自环境的反馈、调试自身的错误,并将成功的例程保存到可重复使用的技能库中。在这个框架下,即使是强大的 VLA 模型也可以被视为另一个工具,通过一行代码即可调用,用于处理其擅长的特定复杂操作任务。
CaP-X 不是单一模型,而是一套旨在协同工作的工具。其核心是 CaP-Gym,这是一个将 AI “大脑”连接到模拟或物理机器人的交互式环境,为生成的每一行代码提供实时反馈。它包含内置的感知工具,可将原始图像转化为语义概念,如“苹果”或“杯子”。在控制端,它抽象掉了底层的关节运动,允许 AI 在更直观的笛卡尔空间中进行编程。
为了衡量进展,团队开发了 CaP-Bench,这是一个专门测试 AI 为机器人编写功能代码、从错误中恢复以及结合视觉反馈能力的基准。正是通过该基准,该框架的旗舰智能体 CaP-Agent0 展示了其优越性。该智能体使用多轮推理循环,并可以并行生成多个潜在的代码解决方案以寻找可行方案。当方案成功时,它会自动添加到持久技能库中,使智能体能够随着时间的推移不断学习和进步。研究还引入了 CaP-RL,利用强化学习来微调编程模型本身,根据环境反馈提高其编码直觉。
尽管 CaP-X 在逻辑和规划方面表现出非凡的实力,但研究人员指出,在需要高频视觉反馈的任务(如倒水)中,它的效率可能较低。未来最有前景的方向是混合方法:由生成代码的 AI 处理高级策略和错误恢复,而将精细运动任务委托给专门的 VLA 模型。
本文章仅供信息参考,不构成投资建议。