Bộ não robot mới của Google giúp tăng tỷ lệ thành công của nhiệm vụ lên gấp 3 lần

(P1) Google DeepMind đang đẩy mạnh nỗ lực phát triển các hệ thống công nghiệp tự hành với mô hình Gemini Robotics-ER 1.6 mới, giúp tăng gấp ba tỷ lệ thành công của phiên bản tiền nhiệm trong các tác vụ lập luận phức tạp. Được phát hành vào ngày 14 tháng 4, mô hình này trang bị cho robot khả năng hiểu biết không gian và ra quyết định tiên tiến, trực tiếp nhắm vào thị trường robot công nghiệp trị giá 200 tỷ USD, nơi hiệu quả và tính tự chủ là tối quan trọng.

(P2) "Những tiến bộ như Gemini Robotics ER 1.6 đánh dấu một bước quan trọng hướng tới những robot có thể hiểu và vận hành tốt hơn trong thế giới vật lý," Marco da Silva, Phó Chủ tịch kiêm Tổng Giám đốc mảng Spot tại Boston Dynamics cho biết. "Các khả năng như đọc thiết bị và lập luận tác vụ đáng tin cậy hơn sẽ cho phép Spot nhìn thấy, thấu hiểu và phản ứng với các thách thức trong thế giới thực một cách hoàn toàn tự chủ."

(P3) Theo Google DeepMind, mô hình mới cho thấy tỷ lệ thành công 93% trong các tác vụ đọc thiết bị, cải thiện gấp 3 lần so với phiên bản ER 1.5 trước đó. Nó cũng vượt qua mô hình Gemini 3.0 Flash đa năng trong các bài kiểm tra lập luận không gian và vật lý. Một cải tiến then chốt là lập luận đa góc nhìn, cho phép hệ thống xử lý và tổng hợp thông tin từ nhiều nguồn cấp dữ liệu camera cùng lúc để tạo ra một góc nhìn thế giới 3D nhất quán.

(P4) Sự phát triển này giúp Alphabet, công ty mẹ của Google, chiếm lĩnh thị phần lớn hơn trong chi tiêu cho tự động hóa công nghiệp, thách thức các đối thủ lâu đời và các công ty công nghệ khác đang gia nhập lĩnh vực này. Đối với các công ty như Boston Dynamics, việc tích hợp AI tiên tiến hơn sẽ chuyển thành các dịch vụ giám sát và kiểm tra có giá trị cao hơn, trong khi toàn ngành đang quan sát xem liệu những khả năng mới này có thể hoạt động ổn định bên ngoài các môi trường thử nghiệm có kiểm soát hay không.

Đọc Đồng hồ và Nhìn trong Không gian 3D

Một tính năng nổi bật của Gemini Robotics-ER 1.6 là khả năng đọc các thiết bị cơ và kỹ thuật số, một nhiệm vụ quan trọng để giám sát thiết bị trong các nhà máy sản xuất và nhà máy lọc dầu. Chức năng này ra đời từ sự hợp tác với Boston Dynamics nhằm giải quyết các nhu cầu công nghiệp thực tế. Mô hình giải thích các vạch chia, nhãn đơn vị và thậm chí xử lý được hiện tượng biến dạng camera bằng cách tạo mã để phân tích dữ liệu hình ảnh, một kỹ thuật mà DeepMind gọi là "thị giác tác nhân" (agentic vision).

Điều này đi kèm với một bản nâng cấp đáng kể trong lập luận không gian. Bằng cách hợp nhất dữ liệu từ nhiều góc nhìn, chẳng hạn như camera trên đầu và camera gắn trên cổ tay của robot, mô hình có thể theo dõi chính xác các đối tượng và xác định việc hoàn thành nhiệm vụ. Điều này rất quan trọng để quyết định xem nên thử lại một hành động hay chuyển sang bước tiếp theo, một thành phần cốt lõi của vận hành tự chủ. Khả năng tuân thủ an toàn của mô hình trong các tác vụ lập luận không gian đối kháng cũng được cải thiện 10% so với các phiên bản trước.

Tích hợp Boston Dynamics và Sự dịch chuyển rộng lớn của ngành

Boston Dynamics đã tích hợp ER 1.6 vào robot Spot của mình thông qua nền tảng phần mềm Orbit, tăng cường hệ thống Kiểm tra Thị giác AI (AIVI). Spot hiện có thể tự chủ theo dõi các đồng hồ đo, phát hiện rò rỉ và thực hiện kiểm tra an toàn. Việc tích hợp bao gồm tính năng "lập luận minh bạch", hiển thị cho người vận hành quy trình ra quyết định của AI, giải quyết các lo ngại về trách nhiệm giải trình trong môi trường công nghiệp.

Bản phát hành phản ánh xu hướng rộng lớn hơn của ngành trong việc kết hợp các mô hình AI lớn với robot vật lý, một khái niệm ngày càng được gọi là "AI vật lý" hoặc "AI hiện thân".

Kuka, một nhà sản xuất robot công nghiệp lớn, gần đây đã phác thảo chiến lược "Tự động hóa 2.0", tập trung vào việc tích hợp AI với các hệ thống của mình để tạo ra các robot có khả năng thích ứng và hoạt động theo ý định tốt hơn.
PIA Automation đã ra mắt một bộ phận mới cho AI hiện thân và robot hình người, hợp tác với Agibot để phát triển robot cho các nhà máy thông minh.
Agile Robots, đơn vị vận hành hơn 20.000 robot, cũng đang hợp tác với Google DeepMind để tinh chỉnh hiệu suất mô hình bằng dữ liệu thực tế từ nhà máy.

Sự hội tụ này giữa AI và robot học nhằm mục đích vượt xa tự động hóa được lập trình sẵn để hướng tới các hệ thống có thể nhận thức, lập luận và thích ứng với môi trường năng động. Sự cạnh tranh không chỉ bao gồm các công ty tự động hóa công nghiệp lâu đời mà còn cả các startup tập trung vào AI như Figure AI.

Đối với các nhà đầu tư, việc ra mắt Gemini Robotics-ER 1.6 báo hiệu sự tăng tốc trong cuộc đua triển khai tự động hóa thông minh. Trong khi Google cung cấp "bộ não" AI, giá trị của nó được mở khóa thông qua các đối tác phần cứng như Boston Dynamics và Agile Robots. Sự sẵn có của mô hình thông qua API Gemini cho phép các nhà phát triển nhỏ hơn xây dựng trên nền tảng này, có khả năng đẩy nhanh việc áp dụng trong lĩnh vực logistics, y tế và bán lẻ. Thử thách then chốt sẽ là hiệu suất và độ tin cậy trong thế giới thực, điều cuối cùng sẽ quyết định sức hút thương mại của công nghệ này.

Bài viết này chỉ nhằm mục đích thông tin và không cấu thành lời khuyên đầu tư.