L'IA de Nvidia écrit du code pour les robots, surpassant les experts humains dans 4 tâches sur 7

Nvidia étend sa domination de l'entraînement de l'IA au contrôle robotique avec la sortie de CaP-X, un framework open-source qui permet aux robots de générer leur propre logiciel de contrôle en temps réel. L'agent phare du framework, CaP-Agent0, a déjà démontré des performances dans des tâches complexes qui rivalisent avec ou surpassent les programmes écrits à la main par des experts humains, signalant un changement majeur dans la manière dont les systèmes autonomes apprennent et s'adaptent.

« Sur les perspectives du "Code as Policy" (CaP) pour la robotique, je suis très enthousiaste ! » a déclaré Ken Goldberg, professeur à l'UC Berkeley, dans un commentaire sur cette sortie.

Lors de tests de référence utilisant le framework CaP-Bench, le CaP-Agent0, qui ne nécessite aucun entraînement préalable, a atteint un taux de réussite égal ou supérieur aux programmes écrits par des experts humains dans quatre des sept tâches de manipulation de base. Cette performance a été réalisée en n'utilisant que les commandes atomiques les plus basiques, un scénario dans lequel même des modèles larges avancés comme l'o1 d'OpenAI et le Gemini 3 Pro de Google ont échoué sans l'approche structurée du framework. Le modèle CaP-X a également démontré une robustesse supérieure dans les tâches à long horizon par rapport aux modèles de bout en bout comme OpenVLA.

Ce développement consolide l'approche « Code as Policy », où les modèles d'IA génèrent du code explicite plutôt que des sorties de réseaux neuronaux de type « boîte noire ». Pour Nvidia, cela étend son avantage concurrentiel (moat), passant de la simple vente de GPU pour l'entraînement de l'IA à la fourniture des frameworks logiciels de base qui font fonctionner les robots propulsés par l'IA. Cette initiative pourrait capturer une valeur significative sur le marché croissant de la robotique et de l'automatisation, mettant davantage de pression sur les concurrents qui tentent de construire des écosystèmes d'IA complets.

De la boîte noire VLA au « Code as Policy »

La sortie de CaP-X répond aux limitations clés des deux approches dominantes du contrôle robotique. Les méthodes traditionnelles exigent que les ingénieurs écrivent méticuleusement le code pour chaque action, un processus précis mais rigide qui ne parvient pas à se généraliser à de nouveaux objets ou environnements. Plus récemment, les modèles bout en bout Vision-Langage-Action (VLA), inspirés par le succès des grands modèles de langage, ont montré des capacités impressionnantes. Cependant, ces modèles VLA fonctionnent comme des « boîtes noires », ce qui les rend difficiles à déboguer et nécessite souvent de nouveaux ensembles de données massifs pour s'adapter à de nouvelles tâches.

Le paradigme « Code as Policy » (CaP), proposé pour la première fois par Google en 2022, offre une troisième voie. Au lieu de demander à un grand modèle de produire une action abstraite, il génère du code Python lisible qui appelle directement les API de contrôle d'un robot. Le CaP-X de Nvidia est une évolution significative de cette idée. Il crée un véritable « harnais » qui permet à un agent de programmation non seulement d'écrire du code, mais aussi de recevoir des retours de l'environnement, de déboguer ses propres erreurs et de sauvegarder les routines réussies dans une bibliothèque de compétences réutilisable. Dans ce framework, même un modèle VLA puissant peut être traité comme un simple outil supplémentaire, appelé par une seule ligne de code pour gérer une tâche de manipulation complexe spécifique dans laquelle il excelle.

Le framework CaP-X : regard détaillé

CaP-X n'est pas un modèle unique mais une suite d'outils conçus pour travailler ensemble. Le cœur est CaP-Gym, un environnement interactif qui connecte le « cerveau » de l'IA à un robot simulé ou physique, fournissant un retour en temps réel sur chaque ligne de code générée. Il comprend des outils de perception intégrés qui traduisent les images brutes en concepts sémantiques comme « une pomme » ou « une tasse ». Côté contrôle, il fait abstraction des mouvements articulaires de bas niveau, permettant à l'IA de programmer dans un espace cartésien plus intuitif.

Pour mesurer les progrès, l'équipe a développé CaP-Bench, un test de référence qui évalue spécifiquement la capacité d'une IA à écrire du code fonctionnel pour les robots, à se rétablir après des erreurs et à intégrer des retours visuels. C'est sur ce benchmark que CaP-Agent0, l'agent phare du framework, a démontré sa supériorité. L'agent utilise une boucle de raisonnement à plusieurs tours et peut générer plusieurs solutions de code potentielles en parallèle pour trouver celle qui fonctionne. Lorsqu'une solution réussit, elle est automatiquement ajoutée à une bibliothèque de compétences persistante, permettant à l'agent d'apprendre et de s'améliorer au fil du temps. La recherche introduit également CaP-RL, qui utilise l'apprentissage par renforcement pour affiner le modèle de programmation lui-même, améliorant son intuition de codage basée sur les retours environnementaux.

Bien que CaP-X montre une force remarquable en logique et en planification, les chercheurs notent qu'il peut être moins efficace pour les tâches nécessitant un retour visuel à haute fréquence, comme verser de l'eau. La direction future la plus prometteuse est une approche hybride, où une IA génératrice de code gère la stratégie de haut niveau et la récupération d'erreurs tout en déléguant les tâches motrices fines à un modèle VLA spécialisé.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.