Nvidiaの最新AIがロボット用コードを生成、7つのタスク中4つで人間の専門家を凌駕

Nvidiaは、ロボットがリアルタイムで独自の制御ソフトウェアを生成できるようにするオープンソースフレームワーク「CaP-X」のリリースにより、AIトレーニングからロボット制御へとその支配力を拡大しています。このフレームワークの主要エージェントである「CaP-Agent0」は、複雑なタスクにおいて人間の専門家が手書きしたプログラムに匹敵、あるいはそれを凌駕する性能をすでに実証しており、自律型システムが学習し適応する方法における大きな転換点を示しています。

「ロボティクスにおける『Code as Policy（コード・アズ・ポリシー：CaP）』の展望には、非常に興奮しています！」と、カリフォルニア大学バークレー校のケン・ゴールドバーグ教授はこのリリースに関するコメントで述べています。

CaP-Benchフレームワークを使用したベンチマークテストでは、事前のトレーニングを必要としないCaP-Agent0が、7つの主要な操作タスクのうち4つにおいて、人間の専門家が作成したプログラムと同等またはそれ以上の成功率を達成しました。この性能は、最も基本的なアトミック・コマンドのみを使用して達成されたものであり、OpenAIのo1やGoogleのGemini 3 Proのような高度な大規模モデルでさえ、このフレームワークの構造化されたアプローチなしでは失敗したシナリオです。また、CaP-Xモデルは、OpenVLAのようなエンド・ツー・エンドのモデルと比較して、長期的な（long-horizon）タスクにおいて優れた堅牢性を示しました。

この開発は、AIモデルがブラックボックスなニューラルネットワークの出力ではなく、明示的なコードを生成する「Code as Policy」アプローチを確固たるものにします。Nvidiaにとって、これはAIをトレーニングするGPUの販売という「堀（moat）」を、AI搭載ロボットを動かすための中核的なソフトウェアフレームワークの提供にまで拡大することを意味します。この動きは、成長するロボティクスおよび自動化市場において大きな価値を獲得する可能性があり、包括的なAIエコシステムの構築を試みる競合他社にさらなる圧力をかけることになるでしょう。

VLAのブラックボックスからCode as Policyへ

CaP-Xのリリースは、ロボット制御における2つの主要なアプローチの重要な限界に対処するものです。従来の方法では、エンジニアがすべてのアクションに対して細心の注意を払ってコードを記述する必要があり、そのプロセスは精密ではあるものの脆弱で、新しいオブジェクトや環境に一般化することができません。最近では、大規模言語モデルの成功に触発されたエンド・ツー・エンドの視覚・言語・アクション（VLA）モデルが、目覚ましい能力を示しています。しかし、これらのVLAモデルは「ブラックボックス」として動作するため、デバッグが困難であり、新しいタスクに適応させるために膨大な新しいデータセットを必要とすることがよくあります。

2022年にGoogleによって最初に提案された「Code as Policy（CaP）」パラダイムは、第3の道を提供します。大規模モデルに抽象的なアクションを出力させる代わりに、ロボットの制御APIを直接呼び出す、人間が読み取れるPythonコードを生成させます。NvidiaのCaP-Xは、このアイデアを大きく進化させたものです。プログラミングエージェントがコードを書くだけでなく、環境からのフィードバックを受け取り、自らの間違いをデバッグし、成功したルーチンを再利用可能なスキルライブラリに保存できるようにする、完全な「ハーネス（基盤）」を構築します。このフレームワークでは、強力なVLAモデルでさえも単なる一つのツールとして扱われ、特定の複雑な操作タスクを処理するためにわずか1行のコードで呼び出すことができます。

CaP-Xフレームワーク：その詳細

CaP-Xは単一のモデルではなく、連携して動作するように設計された一連のツールです。その核となるのは、AIの「頭脳」をシミュレートされた、あるいは物理的なロボットに接続し、生成されたコードの各行に対してリアルタイムのフィードバックを提供するインタラクティブ環境、CaP-Gymです。これには、生の画像を「リンゴ」や「カップ」といった意味的概念に変換する組み込みの認識ツールが含まれています。制御面では、低レベルの関節の動きを抽象化し、AIがより直感的なデカルト座標空間でプログラミングできるようにします。

進捗を測定するために、チームはCaP-Benchを開発しました。これは、ロボットのための機能的なコードを記述し、エラーから回復し、視覚的なフィードバックを組み込むAIの能力を具体的にテストするベンチマークです。フレームワークのフラッグシップエージェントであるCaP-Agent0がその優位性を示したのは、まさにこのベンチマークにおいてでした。このエージェントはマルチラウンドの推論ループを使用し、動作するソリューションを見つけるために複数の潜在的なコードソリューションを並行して生成できます。ソリューションが成功すると、自動的に永続的なスキルライブラリに追加され、エージェントが時間の経過とともに学習し改善することを可能にします。また、本研究ではCaP-RLも導入されており、強化学習を使用してプログラミングモデル自体を微調整し、環境からのフィードバックに基づいてコーディングの直感を向上させています。

CaP-Xは論理と計画において顕著な強みを示していますが、研究者は、水を注ぐような高頻度の視覚フィードバックを必要とするタスクにはあまり効果的ではない可能性があると指摘しています。将来の最も有望な方向性は、コード生成AIがハイレベルな戦略とエラー回復を処理し、微細な運動タスクを専門のVLAモデルに委任するというハイブリッドアプローチです。

この記事は情報提供のみを目的としており、投資アドバイスを構成するものではありません。