主なポイント:
- Google DeepMindは、ロボットの自律性と推論を向上させるAIモデル「Gemini Robotics-ER 1.6」をリリースしました。
- このモデルは、産業機器の読み取りにおいて93%の成功率を達成し、前モデルから3倍の向上を遂げました。
- ボストン・ダイナミクスは、高度な自律巡回タスクのために、この新しいモデルを同社のロボット「Spot」に統合しました。
主なポイント:

(P1) Google DeepMindは、複雑な推論タスクにおいて前モデルの3倍の成功率を誇る新しい「Gemini Robotics-ER 1.6」モデルにより、自律型産業システムの推進を加速させています。4月14日にリリースされたこのモデルは、ロボットに高度な空間認識能力と意思決定能力を装備させ、効率性と自律性が極めて重要な2000億ドル規模の産業用ロボティクス市場を直接的なターゲットとしています。
(P2) ボストン・ダイナミクスのSpot部門副社長兼ゼネラルマネージャーであるマルコ・ダ・シルバ氏は、「Gemini Robotics ER 1.6のような進歩は、物理世界をより良く理解し、操作できるロボットへの重要な一歩となる」と述べています。「計器の読み取りや、より信頼性の高いタスク推論などの機能により、Spotは現実世界の課題を完全に自律的に見て、理解し、反応できるようになるでしょう。」
(P3) Google DeepMindによると、新モデルは計器読み取りタスクで93%の成功率を示し、以前のER 1.5バージョンから3倍の改善を達成しました。また、空間および物理推論のベンチマークにおいて、汎用モデルのGemini 3.0 Flashを凌駕しています。主要な強化点の一つはマルチビュー推論であり、複数のカメラフィードからの情報を同時に処理・統合することで、一貫した3D世界観を構築することを可能にしています。
(P4) この展開により、グーグルの親会社であるアルファベットは、産業自動化支出におけるシェア拡大を狙う立場となり、既存の主要企業やこの分野に参入する他のテック企業に挑戦状を叩きつけています。ボストン・ダイナミクスのような企業にとって、より高度なAIの統合は、より価値の高い点検・監視サービスにつながります。一方、業界全体は、これらの新機能が制御されたベンチマークの外でどれほど信頼性を持って動作できるかを注視しています。
Gemini Robotics-ER 1.6の際立った機能は、製造工場や精製所における機器監視の重要タスクであるアナログおよびデジタル計器の読み取り能力です。この機能は、現実世界の産業ニーズに対応するためにボストン・ダイナミクスとの提携から生まれました。このモデルは目盛りや単位ラベルを解釈し、さらには視覚データを分析するためのコードを生成することでカメラの歪みさえも補正します。DeepMindはこの技術を「エージェンティック・ビジョン(agentic vision)」と呼んでいます。
これは空間推論の大幅なアップグレードと組み合わされています。ロボットの頭上カメラや手首に装着されたカメラなど、複数の視点からのデータを融合することで、モデルは物体を正確に追跡し、タスクの完了を判断できます。これは、動作をリトライするか次のステップに進むかを決定するために不可欠であり、自律運用のコアコンポーネントです。敵対的な空間推論タスクにおけるモデルの安全性コンプライアンスも、以前のバージョンより10%向上しました。
ボストン・ダイナミクスは、Orbitソフトウェアプラットフォームを介してER 1.6をSpotロボットに統合し、AI視覚点検(AIVI)システムを強化しました。Spotは、自律的にゲージを監視し、漏洩を検出し、安全監査を実施できるようになりました。この統合には「透明な推論」機能が含まれており、オペレーターにAIの意思決定プロセスを表示することで、産業現場における責任の所在に関する懸念に対応しています。
このリリースは、大規模AIモデルを物理的なロボットと組み合わせるという業界の広範なトレンドを反映しており、この概念は「フィジカルAI」または「具身知能(エンボディドAI)」と呼ばれることが増えています。
AIとロボティクスのこの融合は、事前にプログラムされた自動化を超えて、動的な環境を認識し、推論し、適応できるシステムへと移行することを目指しています。競争相手には、既存の産業自動化企業だけでなく、Figure AIのようなAIに特化したスタートアップも含まれます。
投資家にとって、Gemini Robotics-ER 1.6の発表は、インテリジェント・オートメーション導入競争の加速を意味します。グーグルがAIの「脳」を提供する一方で、その価値はボストン・ダイナミクスやAgile Robotsのようなハードウェアパートナーを通じて解き放たれます。Gemini APIを通じてモデルが利用可能になることで、より小規模な開発者がプラットフォーム上で構築できるようになり、物流、ヘルスケア、小売業全体での採用が早まる可能性があります。鍵となる試練は、現実世界でのパフォーマンスと信頼性であり、それが最終的にこの技術の商業的な牽引力を決定することになります。
本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。