英伟达推出新款 AI 机器人编程工具，在 7 项任务中有 4 项超越人类专家

英伟达（Nvidia）正在将其在 AI 训练领域的统治地位延伸至机器人控制领域。该公司发布了 CaP-X，这是一个允许机器人实时生成自身控制软件的开源框架。该框架的首选智能体 CaP-Agent0 已经在复杂任务中展示了足以媲美或超越人类专家手写程序的性能，标志着自主系统学习和适应方式的重大转变。

“对于机器人领域‘代码即策略’（Code as Policy，简称 CaP）的前景，我感到非常兴奋！”加州大学伯克利分校教授肯·戈德堡（Ken Goldberg）在该发布评论中表示。

在使用 CaP-Bench 框架进行的基准测试中，无需事先训练的 CaP-Agent0 在 7 项核心操作任务中的 4 项取得了与人类专家编写的程序持平或更高的成功率。这一表现是在仅使用最基础原子指令的情况下实现的，而在这种场景下，即使是像 OpenAI 的 o1 和谷歌（Google）的 Gemini 3 Pro 这样先进的大型模型，在没有该框架结构化方法的支持下也被证明会失败。与 OpenVLA 等端到端模型相比，CaP-X 模型在长程任务（long-horizon tasks）中也表现出了更优越的鲁棒性。

这一进展巩固了“代码即策略”的方法，即 AI 模型生成显式代码，而非黑盒神经网络输出。对于英伟达而言，这将其护城河从单纯销售训练 AI 的 GPU 扩展到了提供运行 AI 驱动机器人的核心软件框架。此举可能在日益增长的机器人和自动化市场中获取巨大价值，并进一步向试图构建综合 AI 生态系统的竞争对手施压。

从 VLA 黑盒到代码即策略

CaP-X 的发布解决了机器人控制中两种主流方法的关键局限性。传统方法要求工程师细致地为每个动作编写代码，这一过程虽然精确但极具脆弱性，且无法泛化到新物体或新环境中。最近，受大语言模型成功的启发，端到端视觉-语言-动作（VLA）模型展示了令人印象深刻的能力。然而，这些 VLA 模型像“黑盒”一样运作，难以调试，且往往需要庞大的新数据集才能适应新任务。

“代码即策略”（CaP）范式最初由谷歌在 2022 年提出，它提供了第三种途径。它不是让大型模型输出抽象动作，而是生成可读的 Python 代码，直接调用机器人的控制 API。英伟达的 CaP-X 是这一理念的重大演进。它创建了一个完整的“控制台”，允许编程智能体不仅能编写代码，还能接收来自环境的反馈、调试自身的错误，并将成功的例程保存到可重复使用的技能库中。在这个框架下，即使是强大的 VLA 模型也可以被视为另一个工具，通过一行代码即可调用，用于处理其擅长的特定复杂操作任务。

CaP-X 框架：深入解析

CaP-X 不是单一模型，而是一套旨在协同工作的工具。其核心是 CaP-Gym，这是一个将 AI “大脑”连接到模拟或物理机器人的交互式环境，为生成的每一行代码提供实时反馈。它包含内置的感知工具，可将原始图像转化为语义概念，如“苹果”或“杯子”。在控制端，它抽象掉了底层的关节运动，允许 AI 在更直观的笛卡尔空间中进行编程。

为了衡量进展，团队开发了 CaP-Bench，这是一个专门测试 AI 为机器人编写功能代码、从错误中恢复以及结合视觉反馈能力的基准。正是通过该基准，该框架的旗舰智能体 CaP-Agent0 展示了其优越性。该智能体使用多轮推理循环，并可以并行生成多个潜在的代码解决方案以寻找可行方案。当方案成功时，它会自动添加到持久技能库中，使智能体能够随着时间的推移不断学习和进步。研究还引入了 CaP-RL，利用强化学习来微调编程模型本身，根据环境反馈提高其编码直觉。

尽管 CaP-X 在逻辑和规划方面表现出非凡的实力，但研究人员指出，在需要高频视觉反馈的任务（如倒水）中，它的效率可能较低。未来最有前景的方向是混合方法：由生成代码的 AI 处理高级策略和错误恢复，而将精细运动任务委托给专门的 VLA 模型。

本文章仅供信息参考，不构成投资建议。