El nuevo cerebro robótico de Google triplica la tasa de éxito en las tareas

(P1) Google DeepMind está intensificando el impulso de los sistemas industriales autónomos con su nuevo modelo Gemini Robotics-ER 1.6, que triplica la tasa de éxito de su predecesor en tareas de razonamiento complejas. Lanzado el 14 de abril, el modelo dota a los robots de una comprensión espacial y toma de decisiones avanzadas, apuntando directamente al mercado de la robótica industrial de 200 mil millones de dólares, donde la eficiencia y la autonomía son primordiales.

(P2) "Avances como Gemini Robotics ER 1.6 marcan un paso importante hacia robots que puedan entender y operar mejor en el mundo físico", dijo Marco da Silva, vicepresidente y director general de Spot en Boston Dynamics. "Capacidades como la lectura de instrumentos y un razonamiento de tareas más fiable permitirán que Spot vea, entienda y reaccione ante los desafíos del mundo real de forma completamente autónoma".

(P3) El nuevo modelo demuestra una tasa de éxito del 93 por ciento en tareas de lectura de instrumentos, una mejora de 3 veces sobre la versión previa ER 1.5, según Google DeepMind. También supera al modelo de propósito general Gemini 3.0 Flash en pruebas de razonamiento espacial y físico. Una mejora clave es el razonamiento de vista múltiple, que permite al sistema procesar y sintetizar información de múltiples transmisiones de cámaras simultáneamente para crear una visión del mundo en 3D coherente.

(P4) Este desarrollo posiciona a Alphabet, la empresa matriz de Google, para capturar una mayor cuota del gasto en automatización industrial, desafiando a los actores establecidos y a otras firmas tecnológicas que entran en el espacio. Para empresas como Boston Dynamics, la integración de IA más avanzada se traduce en servicios de inspección y monitoreo de mayor valor, mientras que la industria en general observa si estas nuevas capacidades pueden operar de manera fiable fuera de los entornos de prueba controlados.

Lectura de manómetros y visión en 3D

Una característica destacada de Gemini Robotics-ER 1.6 es su capacidad para leer instrumentos analógicos y digitales, una tarea crítica para el monitoreo de equipos en plantas de fabricación y refinerías. Esta función surgió de una colaboración con Boston Dynamics para abordar las necesidades industriales del mundo real. El modelo interpreta marcas de graduación, etiquetas de unidades e incluso compensa la distorsión de la cámara generando código para analizar datos visuales, una técnica que DeepMind llama "visión agéntica" (agentic vision).

Esto se suma a una mejora significativa en el razonamiento espacial. Al fusionar datos de múltiples puntos de vista, como las cámaras superiores y las montadas en la muñeca de un robot, el modelo puede rastrear objetos con precisión y determinar la finalización de la tarea. Esto es crucial para decidir si reintentar una acción o pasar al siguiente paso, un componente central de la operación autónoma. El cumplimiento de la seguridad del modelo en tareas de razonamiento espacial adversas también mejoró en un 10 por ciento respecto a versiones anteriores.

Integración de Boston Dynamics y el cambio general de la industria

Boston Dynamics ha integrado ER 1.6 en su robot Spot a través de la plataforma de software Orbit, mejorando su sistema de Inspección Visual por IA (AIVI). Spot ahora puede monitorear manómetros, detectar derrames y realizar auditorías de seguridad de forma autónoma. La integración incluye una función de "razonamiento transparente", que muestra a los operadores el proceso de toma de decisiones de la IA, abordando las preocupaciones de responsabilidad en entornos industriales.

El lanzamiento refleja una tendencia más amplia de la industria de combinar grandes modelos de IA con robots físicos, un concepto al que se hace referencia cada vez más como "IA física" o "IA encarnada".

Kuka, un importante fabricante de robots industriales, esbozó recientemente su estrategia "Automatización 2.0", que se centra en la integración de la IA con sus sistemas para crear robots más adaptables y orientados a la intención.
PIA Automation lanzó una nueva división de IA encarnada y robótica humanoide, asociándose con Agibot para desarrollar robots para fábricas inteligentes.
Agile Robots, que opera más de 20.000 robots, también está colaborando con Google DeepMind para refinar el rendimiento del modelo utilizando datos de fábricas del mundo real.

Esta convergencia de la IA y la robótica tiene como objetivo ir más allá de la automatización preprogramada hacia sistemas que puedan percibir, razonar y adaptarse a entornos dinámicos. La competencia incluye no solo a las empresas de automatización industrial establecidas, sino también a startups centradas en la IA como Figure AI.

Para los inversores, el lanzamiento de Gemini Robotics-ER 1.6 indica una aceleración en la carrera por desplegar la automatización inteligente. Mientras Google proporciona el "cerebro" de IA, su valor se desbloquea a través de socios de hardware como Boston Dynamics y Agile Robots. La disponibilidad del modelo a través de la API de Gemini permite a los desarrolladores más pequeños construir sobre la plataforma, acelerando potencialmente la adopción en logística, salud y comercio minorista. La prueba clave será el rendimiento y la fiabilidad en el mundo real, que en última instancia determinarán la tracción comercial de la tecnología.

Este artículo tiene únicamente fines informativos y no constituye asesoramiento de inversión.