英偉達推出新款 AI 機器人編程工具，在 7 項任務中有 4 項超越人類專家

英偉達（Nvidia）正在將其在 AI 訓練領域的統治地位延伸至機器人控制領域。該公司發佈了 CaP-X，這是一個允許機器人實時生成自身控制軟件的開源框架。該框架的首選智能體 CaP-Agent0 已經在複雜任務中展示了足以媲美或超越人類專家手寫程序的性能，標誌著自主系統學習和適應方式的重大轉變。

「對於機器人領域『代碼即策略』（Code as Policy，簡稱 CaP）的前景，我感到非常興奮！」加州大學伯克利分校教授肯·戈德堡（Ken Goldberg）在該發佈評論中表示。

在使用 CaP-Bench 框架進行的基準測試中，無需事先訓練的 CaP-Agent0 在 7 項核心操作任務中的 4 項取得了與人類專家編寫的程序持平或更高的成功率。這一表現是在僅使用最基礎原子指令的情況下實現的，而在這種場景下，即使是像 OpenAI 的 o1 和谷歌（Google）的 Gemini 3 Pro 這樣先進的大型模型，在沒有該框架結構化方法的支持下也被證明會失敗。與 OpenVLA 等端到端模型相比，CaP-X 模型在長程任務（long-horizon tasks）中也表現出了更優越的魯棒性。

這一進展鞏固了「代碼即策略」的方法，即 AI 模型生成顯式代碼，而非黑盒神經網絡輸出。對於英偉達而言，這將其護城河從單純銷售訓練 AI 的 GPU 擴展到了提供運行 AI 驅動機器人的核心軟件框架。此舉可能在日益增長的機器人和自動化市場中獲取巨大價值，並進一步向試圖構建綜合 AI 生態系統的競爭對手施壓。

從 VLA 黑盒到代碼即策略

CaP-X 的發佈解決了機器人控制中兩種主流方法的關鍵局限性。傳統方法要求工程師細緻地為每個動作編寫代碼，這一過程雖然精確但極具脆弱性，且無法泛化到新物體或新環境中。最近，受大語言模型成功的啓發，端到端視覺-語言-動作（VLA）模型展示了令人印象深刻的能力。然而，這些 VLA 模型像「黑盒」一樣運作，難以調試，且往往需要龐大的新數據集才能適應新任務。

「代碼即策略」（CaP）範式最初由谷歌在 2022 年提出，它提供了第三種途徑。它不是讓大型模型輸出抽象動作，而是生成可讀的 Python 代碼，直接調用機器人的控制 API。英偉達的 CaP-X 是這一理念的重大演進。它創建了一個完整的「控制台」，允許編程智能體不僅能編寫代碼，還能接收來自環境的反饋、調試自身的錯誤，並將成功的例程保存到可重複使用的技能庫中。在這個框架下，即使是強大的 VLA 模型也可以被視為另一個工具，通過一行代碼即可調用，用於處理其擅長的特定複雜操作任務。

CaP-X 框架：深入解析

CaP-X 不是單一模型，而是一套旨在協同工作的工具。其核心是 CaP-Gym，這是一個將 AI 「大腦」連接到模擬或物理機器人的交互式環境，為生成的每一行代碼提供實時反饋。它包含內置的感知工具，可將原始圖像轉化為語義概念，如「蘋果」或「杯子」。在控制端，它抽象掉了底層的關節運動，允許 AI 在更直觀的笛卡爾空間中進行編程。

為了衡量進展，團隊開發了 CaP-Bench，這是一個專門測試 AI 為機器人編寫功能代碼、從錯誤中恢復以及結合視覺反饋能力的基準。正是通過該基準，該框架的旗艦智能體 CaP-Agent0 展示了其優越性。該智能體使用多輪推理循環，並可以並行生成多個潛在的代碼解決方案以尋找可行方案。當方案成功時，它會自動添加到持久技能庫中，使智能體能夠隨著時間的推移不斷學習和進步。研究還引入了 CaP-RL，利用強化學習來微調編程模型本身，根據環境反饋提高其編碼直覺。

儘管 CaP-X 在邏輯和規劃方面表現出非凡的實力，但研究人員指出，在需要高頻視覺反饋的任務（如倒水）中，它的效率可能較低。未來最有前景的方向是混合方法：由生成代碼的 AI 處理高級策略和錯誤恢復，而將精細運動任務委託給專門的 VLA 模型。

本文章僅供信息參考，不構成投資建議。