英偉達最新的開源框架使機器人能夠編寫自己的 Python 代碼,在 7 項核心任務中的 4 項取得了達到或超過人類程序員的成功率。
返回
英偉達最新的開源框架使機器人能夠編寫自己的 Python 代碼,在 7 項核心任務中的 4 項取得了達到或超過人類程序員的成功率。

英偉達(Nvidia)正在將其在 AI 訓練領域的統治地位延伸至機器人控制領域。該公司發佈了 CaP-X,這是一個允許機器人實時生成自身控制軟件的開源框架。該框架的首選智能體 CaP-Agent0 已經在複雜任務中展示了足以媲美或超越人類專家手寫程序的性能,標誌著自主系統學習和適應方式的重大轉變。
「對於機器人領域『代碼即策略』(Code as Policy,簡稱 CaP)的前景,我感到非常興奮!」加州大學伯克利分校教授肯·戈德堡(Ken Goldberg)在該發佈評論中表示。
在使用 CaP-Bench 框架進行的基準測試中,無需事先訓練的 CaP-Agent0 在 7 項核心操作任務中的 4 項取得了與人類專家編寫的程序持平或更高的成功率。這一表現是在僅使用最基礎原子指令的情況下實現的,而在這種場景下,即使是像 OpenAI 的 o1 和谷歌(Google)的 Gemini 3 Pro 這樣先進的大型模型,在沒有該框架結構化方法的支持下也被證明會失敗。與 OpenVLA 等端到端模型相比,CaP-X 模型在長程任務(long-horizon tasks)中也表現出了更優越的魯棒性。
這一進展鞏固了「代碼即策略」的方法,即 AI 模型生成顯式代碼,而非黑盒神經網絡輸出。對於英偉達而言,這將其護城河從單純銷售訓練 AI 的 GPU 擴展到了提供運行 AI 驅動機器人的核心軟件框架。此舉可能在日益增長的機器人和自動化市場中獲取巨大價值,並進一步向試圖構建綜合 AI 生態系統的競爭對手施壓。
CaP-X 的發佈解決了機器人控制中兩種主流方法的關鍵局限性。傳統方法要求工程師細緻地為每個動作編寫代碼,這一過程雖然精確但極具脆弱性,且無法泛化到新物體或新環境中。最近,受大語言模型成功的啓發,端到端視覺-語言-動作(VLA)模型展示了令人印象深刻的能力。然而,這些 VLA 模型像「黑盒」一樣運作,難以調試,且往往需要龐大的新數據集才能適應新任務。
「代碼即策略」(CaP)範式最初由谷歌在 2022 年提出,它提供了第三種途徑。它不是讓大型模型輸出抽象動作,而是生成可讀的 Python 代碼,直接調用機器人的控制 API。英偉達的 CaP-X 是這一理念的重大演進。它創建了一個完整的「控制台」,允許編程智能體不僅能編寫代碼,還能接收來自環境的反饋、調試自身的錯誤,並將成功的例程保存到可重複使用的技能庫中。在這個框架下,即使是強大的 VLA 模型也可以被視為另一個工具,通過一行代碼即可調用,用於處理其擅長的特定複雜操作任務。
CaP-X 不是單一模型,而是一套旨在協同工作的工具。其核心是 CaP-Gym,這是一個將 AI 「大腦」連接到模擬或物理機器人的交互式環境,為生成的每一行代碼提供實時反饋。它包含內置的感知工具,可將原始圖像轉化為語義概念,如「蘋果」或「杯子」。在控制端,它抽象掉了底層的關節運動,允許 AI 在更直觀的笛卡爾空間中進行編程。
為了衡量進展,團隊開發了 CaP-Bench,這是一個專門測試 AI 為機器人編寫功能代碼、從錯誤中恢復以及結合視覺反饋能力的基準。正是通過該基準,該框架的旗艦智能體 CaP-Agent0 展示了其優越性。該智能體使用多輪推理循環,並可以並行生成多個潛在的代碼解決方案以尋找可行方案。當方案成功時,它會自動添加到持久技能庫中,使智能體能夠隨著時間的推移不斷學習和進步。研究還引入了 CaP-RL,利用強化學習來微調編程模型本身,根據環境反饋提高其編碼直覺。
儘管 CaP-X 在邏輯和規劃方面表現出非凡的實力,但研究人員指出,在需要高頻視覺反饋的任務(如倒水)中,它的效率可能較低。未來最有前景的方向是混合方法:由生成代碼的 AI 處理高級策略和錯誤恢復,而將精細運動任務委託給專門的 VLA 模型。
本文章僅供信息參考,不構成投資建議。