Key Takeaways:
- Google DeepMind 发布了 Gemini Robotics-ER 1.6 AI 模型,旨在提升机器人的自主性和推理能力。
- 该模型在读取工业仪表方面的成功率达到 93%,较前代模型提升了 3 倍。
- 波士顿动力公司已将该模型集成到其 Spot 机器人中,用于执行高级自主巡检任务。
Key Takeaways:

(P1) Google DeepMind 正凭借其全新的 Gemini Robotics-ER 1.6 模型加大对自主工业系统的推动力度。该模型在处理复杂推理任务时的成功率是其前代模型的三倍。该模型于 4 月 14 日发布,赋予了机器人先进的空间理解和决策能力,直接瞄准了价值 2000 亿美元的工业机器人市场,在该市场中,效率和自主性至关重要。
(P2) 波士顿动力公司(Boston Dynamics)Spot 部门副总裁兼总经理 Marco da Silva 表示:“Gemini Robotics ER 1.6 这样的进步是向能够更好理解和操作物理世界的机器人迈出的重要一步。仪表读取和更可靠的任务推理等能力将使 Spot 能够完全自主地观察、理解并对现实世界的挑战做出反应。”
(P3) 根据 Google DeepMind 的数据,新模型在仪表读取任务中表现出 93% 的成功率,较之前的 ER 1.5 版本提升了 3 倍。在空间和物理推理基准测试中,它也超越了通用型的 Gemini 3.0 Flash 模型。一项关键增强是多视图推理,允许系统同时处理和综合来自多个摄像头馈送的信息,从而创建一个连贯的 3D 世界观。
(P4) 这一进展使谷歌母公司 Alphabet 处于能够获取更大工业自动化支出份额的有利地位,对老牌企业和进入该领域的其他科技公司发起了挑战。对于波士顿动力等公司而言,集成更先进的 AI 意味着更高价值的检查和监测服务,而整个行业则在观察这些新功能是否能在受控基准之外可靠运行。
Gemini Robotics-ER 1.6 的一个显著特点是其读取模拟和数字仪表的能力,这是监控制造工厂和精炼厂设备的关键任务。这一功能源于与波士顿动力公司的合作,旨在解决现实世界的工业需求。该模型可以解释刻度线、单位标签,甚至通过生成代码来分析视觉数据,从而补偿摄像头畸变,DeepMind 将这种技术称为“智能体视觉”(agentic vision)。
与之相配合的是空间推理能力的重大升级。通过融合来自多个视角的数据(例如机器人的顶部和腕部摄像头),该模型可以准确跟踪物体并确定任务完成情况。这对于决定是重试动作还是进入下一步至关重要,是自主操作的核心组件。在对抗性空间推理任务中,该模型的安全合规性也比以前的版本提高了 10%。
波士顿动力公司已通过 Orbit 软件平台将 ER 1.6 集成到其 Spot 机器人中,增强了其 AI 视觉检测(AIVI)系统。Spot 现在可以自主监测仪表、检测泄漏并进行安全审计。该集成包含一项“透明推理”功能,可向操作员显示 AI 的决策过程,解决了工业环境中的问责制问题。
此次发布反映了将大型 AI 模型与物理机器人相结合的更广泛行业趋势,这一概念越来越多地被称为“物理 AI”或“具身智能”。
这种 AI 与机器人的融合旨在超越预编程的自动化,转向能够感知、推理并适应动态环境的系统。竞争对手不仅包括老牌工业自动化公司,还包括 Figure AI 等专注于 AI 的初创公司。
对于投资者而言,Gemini Robotics-ER 1.6 的发布标志着部署智能自动化竞赛的加速。虽然谷歌提供了 AI “大脑”,但其价值是通过波士顿动力和越疆机器人等硬件合作伙伴解锁的。该模型通过 Gemini API 提供,允许较小的开发人员在该平台上构建应用,从而可能加快其在物流、医疗和零售领域的采用。关键的测试将是现实世界的性能和可靠性,这将最终决定该技术的商业牵引力。
本文仅供参考,不构成投资建议。