Le nouveau cerveau robotique de Google multiplie par 3 le taux de réussite des tâches

(P1) Google DeepMind intensifie sa poussée vers les systèmes industriels autonomes avec son nouveau modèle Gemini Robotics-ER 1.6, qui triple le taux de réussite de son prédécesseur sur des tâches de raisonnement complexes. Publié le 14 avril, ce modèle dote les robots d'une compréhension spatiale et d'une prise de décision avancées, ciblant directement le marché de la robotique industrielle de 200 milliards de dollars, où l'efficacité et l'autonomie sont primordiales.

(P2) « Les avancées telles que Gemini Robotics ER 1.6 marquent une étape importante vers des robots capables de mieux comprendre et d'opérer dans le monde physique », a déclaré Marco da Silva, vice-président et directeur général de Spot chez Boston Dynamics. « Des capacités telles que la lecture d'instruments et un raisonnement plus fiable sur les tâches permettront à Spot de voir, de comprendre et de réagir aux défis du monde réel de manière totalement autonome. »

(P3) Le nouveau modèle affiche un taux de réussite de 93 % sur les tâches de lecture d'instruments, soit une amélioration de 3x par rapport à la version ER 1.5 précédente, selon Google DeepMind. Il surpasse également le modèle polyvalent Gemini 3.0 Flash sur les bancs d'essai de raisonnement spatial et physique. Une amélioration clé est le raisonnement multi-vues, permettant au système de traiter et de synthétiser simultanément des informations provenant de plusieurs flux de caméras pour créer une vue du monde en 3D cohérente.

(P4) Ce développement permet à Alphabet, la société mère de Google, de capturer une part plus importante des dépenses d'automatisation industrielle, défiant les acteurs établis et d'autres entreprises technologiques entrant sur ce créneau. Pour des entreprises comme Boston Dynamics, l'intégration d'une IA plus avancée se traduit par des services d'inspection et de surveillance à plus haute valeur ajoutée, tandis que l'ensemble du secteur attend de voir si ces nouvelles capacités peuvent fonctionner de manière fiable en dehors des tests contrôlés.

Lecture de jauges et vision en 3D

Une caractéristique marquante de Gemini Robotics-ER 1.6 est sa capacité à lire des instruments analogiques et numériques, une tâche critique pour la surveillance des équipements dans les usines de fabrication et les raffineries. Cette fonction est née d'une collaboration avec Boston Dynamics pour répondre à des besoins industriels réels. Le modèle interprète les graduations, les étiquettes d'unités et tient même compte de la distorsion de la caméra en générant du code pour analyser les données visuelles, une technique que DeepMind appelle « vision agentique » (agentic vision).

Ceci est couplé à une mise à niveau significative du raisonnement spatial. En fusionnant les données de plusieurs points de vue, tels que les caméras aériennes et portées au poignet d'un robot, le modèle peut suivre avec précision les objets et déterminer l'achèvement des tâches. Ceci est crucial pour décider de réessayer une action ou de passer à l'étape suivante, une composante essentielle de l'exploitation autonome. La conformité de sécurité du modèle sur les tâches de raisonnement spatial contradictoire a également été améliorée de 10 % par rapport aux versions précédentes.

Intégration de Boston Dynamics et virage industriel plus large

Boston Dynamics a intégré ER 1.6 dans son robot Spot via la plateforme logicielle Orbit, améliorant son système d'inspection visuelle par IA (AIVI). Spot peut désormais surveiller de manière autonome les jauges, détecter les déversements et mener des audits de sécurité. L'intégration comprend une fonction de « raisonnement transparent », qui montre aux opérateurs le processus de prise de décision de l'IA, répondant ainsi aux préoccupations de responsabilité dans les contextes industriels.

Cette sortie reflète une tendance plus large de l'industrie consistant à combiner de grands modèles d'IA avec des robots physiques, un concept de plus en plus désigné sous le nom d'« IA physique » ou d'« IA incarnée ».

Kuka, un fabricant majeur de robots industriels, a récemment présenté sa stratégie « Automation 2.0 », qui se concentre sur l'intégration de l'IA à ses systèmes pour créer des robots plus adaptatifs et axés sur l'intention.
PIA Automation a lancé une nouvelle division pour l'IA incarnée et la robotique humanoïde, en partenariat avec Agibot pour développer des robots pour les usines intelligentes.
Agile Robots, qui exploite plus de 20 000 robots, collabore également avec Google DeepMind pour affiner les performances des modèles en utilisant des données d'usine réelles.

Cette convergence de l'IA et de la robotique vise à dépasser l'automatisation préprogrammée pour aller vers des systèmes capables de percevoir, de raisonner et de s'adapter à des environnements dynamiques. La concurrence comprend non seulement des entreprises d'automatisation industrielle établies, mais aussi des startups axées sur l'IA comme Figure AI.

Pour les investisseurs, le lancement de Gemini Robotics-ER 1.6 signale une accélération de la course au déploiement de l'automatisation intelligente. Alors que Google fournit le « cerveau » de l'IA, sa valeur est libérée par des partenaires matériels tels que Boston Dynamics et Agile Robots. La disponibilité du modèle via l'API Gemini permet à de plus petits développeurs de s'appuyer sur la plateforme, ce qui pourrait accélérer l'adoption dans la logistique, la santé et la vente au détail. Le test décisif sera la performance et la fiabilité en conditions réelles, qui détermineront en fin de compte l'attrait commercial de la technologie.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.