AI mới của Nvidia tự viết mã cho robot, đánh bại chuyên gia con người trong 4 trên 7 nhiệm vụ

Nvidia đang mở rộng sự thống trị của mình từ huấn luyện AI sang điều khiển robot với việc phát hành CaP-X, một khung mã nguồn mở cho phép robot tự tạo phần mềm điều khiển trong thời gian thực. Tác nhân hàng đầu của khung này, CaP-Agent0, đã chứng minh hiệu suất trong các nhiệm vụ phức tạp ngang ngửa hoặc vượt qua các chương trình viết tay bởi các chuyên gia con người, báo hiệu một sự thay đổi lớn trong cách các hệ thống tự trị học hỏi và thích nghi.

"Về triển vọng của 'Code as Policy' (CaP) cho robot, tôi rất hào hứng!" Ken Goldberg, giáo sư tại UC Berkeley, cho biết trong một nhận xét về đợt phát hành.

Trong các bài kiểm tra điểm chuẩn bằng khung CaP-Bench, CaP-Agent0, vốn không yêu cầu huấn luyện trước, đã đạt được tỷ lệ thành công tương đương hoặc vượt qua các chương trình do chuyên gia con người viết trong 4 trên 7 nhiệm vụ thao tác cốt lõi. Hiệu suất này đạt được chỉ bằng cách sử dụng các lệnh nguyên tử cơ bản nhất, một kịch bản mà ngay cả các mô hình lớn tiên tiến như o1 của OpenAI và Gemini 3 Pro của Google cũng thất bại nếu không có cách tiếp cận có cấu trúc của khung này. Mô hình CaP-X cũng chứng minh tính mạnh mẽ vượt trội trong các nhiệm vụ dài hơi (long-horizon) so với các mô hình đầu-cuối (end-to-end) như OpenVLA.

Sự phát triển này củng cố cách tiếp cận "Code as Policy", nơi các mô hình AI tạo ra mã rõ ràng thay vì các đầu ra mạng thần kinh hộp đen. Đối với Nvidia, điều này mở rộng con hào ngăn cách của họ từ việc chỉ bán các GPU huấn luyện AI sang việc cung cấp các khung phần mềm cốt lõi chạy các robot hỗ trợ AI. Động thái này có thể chiếm lĩnh giá trị đáng kể trong thị trường robot và tự động hóa đang phát triển, gây thêm áp lực lên các đối thủ đang cố gắng xây dựng hệ sinh thái AI toàn diện.

Từ Hộp Đen VLA đến Code as Policy

Việc phát hành CaP-X giải quyết các hạn chế chính trong hai phương pháp thống trị về điều khiển robot. Các phương pháp truyền thống yêu cầu các kỹ sư phải tỉ mỉ viết mã cho mọi hành động, một quy trình chính xác nhưng cứng nhắc và thất bại khi khái quát hóa sang các vật thể hoặc môi trường mới. Gần đây hơn, các mô hình Tầm nhìn-Ngôn ngữ-Hành động (VLA) đầu-cuối, lấy cảm hứng từ sự thành công của các mô hình ngôn ngữ lớn, đã cho thấy khả năng ấn tượng. Tuy nhiên, các mô hình VLA này hoạt động như các "hộp đen", gây khó khăn cho việc gỡ lỗi và thường yêu cầu các tập dữ liệu mới khổng lồ để thích ứng với các nhiệm vụ mới.

Mô hình "Code as Policy" (CaP), được Google đề xuất lần đầu tiên vào năm 2022, cung cấp một con đường thứ ba. Thay vì để một mô hình lớn xuất ra một hành động trừu tượng, nó tạo ra mã Python có thể đọc được để gọi trực tiếp các API điều khiển của robot. CaP-X của Nvidia là một bước tiến hóa đáng kể của ý tưởng này. Nó tạo ra một "bộ khung" hoàn chỉnh cho phép một tác nhân lập trình không chỉ viết mã mà còn nhận phản hồi từ môi trường, tự gỡ lỗi các lỗi của chính mình và lưu các quy trình thành công vào một thư viện kỹ năng có thể tái sử dụng. Trong khung này, ngay cả một mô hình VLA mạnh mẽ cũng có thể được coi là một công cụ khác, được gọi bởi một dòng mã duy nhất để xử lý một nhiệm vụ thao tác phức tạp cụ thể mà nó xuất sắc.

Khám phá chi tiết Khung CaP-X

CaP-X không phải là một mô hình đơn lẻ mà là một bộ công cụ được thiết kế để hoạt động cùng nhau. Cốt lõi là CaP-Gym, một môi trường tương tác kết nối "bộ não" AI với một robot mô phỏng hoặc vật lý, cung cấp phản hồi theo thời gian thực cho từng dòng mã được tạo ra. Nó bao gồm các công cụ nhận thức tích hợp giúp dịch các hình ảnh thô thành các khái niệm ngữ nghĩa như "một quả táo" hoặc "một chiếc cốc". Về phía điều khiển, nó trừu tượng hóa các chuyển động khớp cấp thấp, cho phép AI lập trình trong không gian Cartesian trực quan hơn.

Để đo lường tiến độ, nhóm nghiên cứu đã phát triển CaP-Bench, một điểm chuẩn kiểm tra cụ thể khả năng viết mã chức năng cho robot, phục hồi sau lỗi và kết hợp phản hồi hình ảnh của AI. Chính trên điểm chuẩn này, CaP-Agent0, tác nhân chủ lực của khung, đã chứng minh ưu thế của mình. Tác nhân này sử dụng vòng lặp suy luận nhiều vòng và có thể tạo song song nhiều giải pháp mã tiềm năng để tìm ra giải pháp hiệu quả. Khi một giải pháp thành công, nó sẽ tự động được thêm vào thư viện kỹ năng bền vững, cho phép tác nhân học hỏi và cải thiện theo thời gian. Nghiên cứu cũng giới thiệu CaP-RL, sử dụng học tăng cường để tinh chỉnh chính mô hình lập trình, cải thiện trực giác mã hóa của nó dựa trên phản hồi của môi trường.

Trong khi CaP-X cho thấy sức mạnh đáng kể trong logic và lập kế hoạch, các nhà nghiên cứu lưu ý rằng nó có thể kém hiệu quả hơn ở các nhiệm vụ yêu cầu phản hồi hình ảnh tần số cao, chẳng hạn như rót nước. Hướng đi tương lai hứa hẹn nhất là một phương pháp tiếp cận hỗn hợp, nơi một AI tạo mã xử lý chiến lược cấp cao và phục hồi lỗi trong khi giao phó các nhiệm vụ vận động tinh cho một mô hình VLA chuyên dụng.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.