谷歌推出新一代機器人大腦，將任務成功率提升至 3 倍

(P1) Google DeepMind 正憑藉其全新的 Gemini Robotics-ER 1.6 模型加大對自主工業系統的推動力度。該模型在處理複雜推理任務時的成功率是其前代模型的三倍。該模型於 4 月 14 日發佈，賦予了機器人先進的空間理解和決策能力，直接瞄準了價值 2000 億美元的工業機器人市場，在該市場中，效率和自主性至關重要。

(P2) 波士頓動力公司（Boston Dynamics）Spot 部門副總裁兼總經理 Marco da Silva 表示：「Gemini Robotics ER 1.6 這樣的進步是向能夠更好理解和操作物理世界的機器人邁出的重要一步。儀表讀取和更可靠的任務推理等能力將使 Spot 能夠完全自主地觀察、理解並對現實世界的挑戰做出反應。」

(P3) 根據 Google DeepMind 的數據，新模型在儀表讀取任務中表現出 93% 的成功率，較之前的 ER 1.5 版本提升了 3 倍。在空間和物理推理基準測試中，它也超越了通用型的 Gemini 3.0 Flash 模型。一項關鍵增強是多視圖推理，允許系統同時處理和綜合來自多個攝像頭饋送的信息，從而創建一個連貫的 3D 世界觀。

(P4) 這一進展使谷歌母公司 Alphabet 處於能夠獲取更大工業自動化支出份額的有利地位，對老牌企業和進入該領域的其他科技公司發起了挑戰。對於波士頓動力等公司而言，集成更先進的 AI 意味著更高價值的檢查和監測服務，而整個行業則在觀察這些新功能是否能在受控基準之外可靠運行。

讀取儀表與 3D 視覺

Gemini Robotics-ER 1.6 的一個顯著特點是其讀取模擬和數字儀表的能力，這是監控製造工廠和精煉廠設備的關鍵任務。這一功能源於與波士頓動力公司的合作，旨在解決現實世界的工業需求。該模型可以解釋刻度線、單位標籤，甚至通過生成代碼來分析視覺數據，從而補償攝像頭畸變，DeepMind 將這種技術稱為「智能體視覺」（agentic vision）。

與之相配合的是空間推理能力的重大升級。通過融合來自多個視角的數據（例如機器人的頂部和腕部攝像頭），該模型可以準確跟蹤物體並確定任務完成情況。這對於決定是重試動作還是進入下一步至關重要，是自主操作的核心組件。在對抗性空間推理任務中，該模型的安全合規性也比以前的版本提高了 10%。

波士頓動力的集成與更廣泛的行業轉型

波士頓動力公司已通過 Orbit 軟件平台將 ER 1.6 集成到其 Spot 機器人中，增強了其 AI 視覺檢測（AIVI）系統。Spot 現在可以自主監測儀表、檢測洩漏並進行安全審計。該集成包含一項「透明推理」功能，可向操作員顯示 AI 的決策過程，解決了工業環境中的問責制問題。

此次發佈反映了將大型 AI 模型與物理機器人相結合的更廣泛行業趨勢，這一概念越來越多地被稱為「物理 AI」或「具身智能」。

庫卡 (Kuka)，一家主要的工業機器人製造商，最近概述了其「自動化 2.0」戰略，核心是將 AI 與其系統集成，以創建更具適應性、意圖驅動的機器人。
PIA Automation 成立了具身智能和人形機器人新部門，並與 Agibot 合作開發用於智能工廠的機器人。
越疆機器人 (Agile Robots) 運營著超過 20,000 台機器人，目前也在與 Google DeepMind 合作，利用真實工廠數據來完善模型性能。

這種 AI 與機器人的融合旨在超越預編程的自動化，轉向能夠感知、推理並適應動態環境的系統。競爭對手不僅包括老牌工業自動化公司，還包括 Figure AI 等專注於 AI 的初創公司。

對於投資者而言，Gemini Robotics-ER 1.6 的發佈標誌著部署智能自動化競賽的加速。雖然谷歌提供了 AI 「大腦」，但其價值是通過波士頓動力和越疆機器人等硬件合作夥伴解鎖的。該模型通過 Gemini API 提供，允許較小的開發人員在該平台上構建應用，從而可能加快其在物流、醫療和零售領域的採用。關鍵的測試將是現實世界的性能和可靠性，這將最終決定該技術的商業牽引力。

本文僅供參考，不構成投資建議。