Key Takeaways:
- Google DeepMind 發佈了 Gemini Robotics-ER 1.6 AI 模型,旨在提升機器人的自主性和推理能力。
- 該模型在讀取工業儀表方面的成功率達到 93%,較前代模型提升了 3 倍。
- 波士頓動力公司已將該模型集成到其 Spot 機器人中,用於執行高級自主巡檢任務。
Key Takeaways:

(P1) Google DeepMind 正憑藉其全新的 Gemini Robotics-ER 1.6 模型加大對自主工業系統的推動力度。該模型在處理複雜推理任務時的成功率是其前代模型的三倍。該模型於 4 月 14 日發佈,賦予了機器人先進的空間理解和決策能力,直接瞄準了價值 2000 億美元的工業機器人市場,在該市場中,效率和自主性至關重要。
(P2) 波士頓動力公司(Boston Dynamics)Spot 部門副總裁兼總經理 Marco da Silva 表示:「Gemini Robotics ER 1.6 這樣的進步是向能夠更好理解和操作物理世界的機器人邁出的重要一步。儀表讀取和更可靠的任務推理等能力將使 Spot 能夠完全自主地觀察、理解並對現實世界的挑戰做出反應。」
(P3) 根據 Google DeepMind 的數據,新模型在儀表讀取任務中表現出 93% 的成功率,較之前的 ER 1.5 版本提升了 3 倍。在空間和物理推理基準測試中,它也超越了通用型的 Gemini 3.0 Flash 模型。一項關鍵增強是多視圖推理,允許系統同時處理和綜合來自多個攝像頭饋送的信息,從而創建一個連貫的 3D 世界觀。
(P4) 這一進展使谷歌母公司 Alphabet 處於能夠獲取更大工業自動化支出份額的有利地位,對老牌企業和進入該領域的其他科技公司發起了挑戰。對於波士頓動力等公司而言,集成更先進的 AI 意味著更高價值的檢查和監測服務,而整個行業則在觀察這些新功能是否能在受控基準之外可靠運行。
Gemini Robotics-ER 1.6 的一個顯著特點是其讀取模擬和數字儀表的能力,這是監控製造工廠和精煉廠設備的關鍵任務。這一功能源於與波士頓動力公司的合作,旨在解決現實世界的工業需求。該模型可以解釋刻度線、單位標籤,甚至通過生成代碼來分析視覺數據,從而補償攝像頭畸變,DeepMind 將這種技術稱為「智能體視覺」(agentic vision)。
與之相配合的是空間推理能力的重大升級。通過融合來自多個視角的數據(例如機器人的頂部和腕部攝像頭),該模型可以準確跟蹤物體並確定任務完成情況。這對於決定是重試動作還是進入下一步至關重要,是自主操作的核心組件。在對抗性空間推理任務中,該模型的安全合規性也比以前的版本提高了 10%。
波士頓動力公司已通過 Orbit 軟件平台將 ER 1.6 集成到其 Spot 機器人中,增強了其 AI 視覺檢測(AIVI)系統。Spot 現在可以自主監測儀表、檢測洩漏並進行安全審計。該集成包含一項「透明推理」功能,可向操作員顯示 AI 的決策過程,解決了工業環境中的問責制問題。
此次發佈反映了將大型 AI 模型與物理機器人相結合的更廣泛行業趨勢,這一概念越來越多地被稱為「物理 AI」或「具身智能」。
這種 AI 與機器人的融合旨在超越預編程的自動化,轉向能夠感知、推理並適應動態環境的系統。競爭對手不僅包括老牌工業自動化公司,還包括 Figure AI 等專注於 AI 的初創公司。
對於投資者而言,Gemini Robotics-ER 1.6 的發佈標誌著部署智能自動化競賽的加速。雖然谷歌提供了 AI 「大腦」,但其價值是通過波士頓動力和越疆機器人等硬件合作夥伴解鎖的。該模型通過 Gemini API 提供,允許較小的開發人員在該平台上構建應用,從而可能加快其在物流、醫療和零售領域的採用。關鍵的測試將是現實世界的性能和可靠性,這將最終決定該技術的商業牽引力。
本文僅供參考,不構成投資建議。