JD.com huy động tới 600.000 người để thu thập dữ liệu AI
Vào ngày 16 tháng 3, gã khổng lồ thương mại điện tử Trung Quốc JD.com đã công bố kế hoạch xây dựng trung tâm thu thập dữ liệu thông minh hóa thân lớn nhất thế giới, phát động một chiến dịch lớn nhằm giải quyết "nạn đói dữ liệu" đang làm tê liệt ngành robot. Sáng kiến này dự kiến sẽ huy động hơn 100.000 nhân viên của JD và lên đến 500.000 nhân sự bên ngoài, bao gồm 100.000 công dân chỉ riêng ở thành phố Suqian. Mục tiêu là tích lũy hơn 10 triệu giờ dữ liệu tương tác vật lý trong thế giới thực trong vòng hai năm, cung cấp nguyên liệu thô cần thiết để đào tạo các robot tinh vi thực hiện các nhiệm vụ phức tạp. Chiến thuật "biển người" này đại diện cho một nỗ lực mạnh mẽ để giải quyết nút thắt chính cho robot AI, nơi dữ liệu đào tạo chất lượng cao hiện quan trọng hơn kiến trúc mô hình hoặc sức mạnh tính toán thô.
Dự án này được tích hợp sâu sắc với tham vọng công nghiệp của Trung Quốc, đặc biệt là trong Khu phát triển kinh tế và kỹ thuật Yizhuang ở Bắc Kinh. Khu vực này, nơi có hơn 300 công ty robot và ngành công nghiệp trị giá 10 tỷ nhân dân tệ, cung cấp phần cứng và địa điểm thử nghiệm. Sáng kiến của JD nhằm mục đích cung cấp "bộ não" bằng cách tạo ra các bộ dữ liệu khổng lồ từ các kịch bản logistics, công nghiệp và bán lẻ trong thế giới thực của riêng mình, tạo ra một hệ thống vòng lặp kín từ thu thập dữ liệu đến lặp lại phần cứng.
Mạng lưới logistics giải quyết vấn đề dữ liệu robot chi phí cao
Chiến lược của JD.com tận dụng hoạt động kinh doanh cốt lõi của mình như một lợi thế cạnh tranh trong cuộc chạy đua vũ trang AI. Không giống như các công ty phần mềm thuần túy hoặc các công ty khởi nghiệp robot, chuỗi cung ứng vật lý rộng lớn của JD cung cấp một nguồn tương tác phức tạp trong thế giới thực liên tục và rộng lớn. Cách tiếp cận này trực tiếp giải quyết hai trở ngại lớn trong việc thu thập dữ liệu robot: khoảng cách "Sim-to-Real" và chi phí cắt cổ. Mặc dù nhiều công ty khởi nghiệp dựa vào mô phỏng ảo, các mô hình này thường không thể chuyển sang thế giới thực vì chúng không thể tái tạo hoàn hảo các đặc tính vật lý tinh tế như ma sát hoặc biến dạng của vật liệu dẻo.
Giải pháp thay thế, robot vận hành từ xa để ghi lại hành động của con người, hiệu quả nhưng không thể mở rộng về mặt kinh tế. Ước tính của ngành cho thấy chi phí thu thập và làm sạch một nhiệm vụ tương tác phức tạp, chất lượng cao duy nhất lên tới vài trăm đô la. Bằng cách tích hợp việc thu thập dữ liệu vào hoạt động hàng ngày của nhân viên giao hàng và nhân viên kho, JD nhằm mục đích vượt qua nút thắt này. Mô hình này, tương tự như cách Tesla sử dụng các Gigafactory của mình để đào tạo robot Optimus, biến cơ sở hạ tầng hoạt động hiện có của công ty thành một dây chuyền sản xuất dữ liệu độc quyền, tạo ra rào cản đáng kể cho các đối thủ cạnh tranh thiếu quyền truy cập vào thế giới vật lý như vậy.
Các chuyên gia đặt câu hỏi liệu 10 triệu giờ có thể giải quyết được nút thắt chất lượng không
Mặc dù dự án có quy mô lớn, các chuyên gia trong ngành đang thận trọng xem xét liệu số lượng có thể chuyển thành chất lượng cần thiết cho một bước đột phá hay không. Thách thức cốt lõi trong robot không phải là thiếu video mà là thiếu "cặp trạng thái-hành động" bao gồm phản hồi vật lý chính xác, chẳng hạn như lực, mô-men xoắn và dữ liệu xúc giác. Đơn giản là quay phim một nhân viên giao hàng đang giao một gói hàng cung cấp dữ liệu hình ảnh cho mô hình thế giới của robot nhưng gần như vô dụng để đào tạo chính sách kiểm soát của nó – cách nắm giữ một vật thể đủ chắc chắn mà không làm hỏng nó.
JD.com dường như nhận thức được thách thức này, họ đã chỉ rõ rằng kế hoạch của họ bao gồm việc thu thập "1 triệu giờ dữ liệu cơ thể robot" trong năm đầu tiên. Điều này cho thấy một phương pháp tiếp cận kết hợp, kết hợp video lấy con người làm trung tâm rộng rãi để hiểu chung với dữ liệu độ trung thực cao, có mục tiêu hơn từ các robot thực hiện nhiệm vụ. Tuy nhiên, các vấn đề cơ bản vẫn còn, bao gồm việc thiếu một tiêu chuẩn dữ liệu phổ quát. Dữ liệu được thu thập cho một loại robot thường không tương thích với loại khác do cấu hình phần cứng khác nhau. Khi JD đẩy ngành này vào một giai đoạn cạnh tranh tài sản nặng mới, thành công của nó sẽ tùy thuộc vào việc giải quyết không chỉ vấn đề khối lượng dữ liệu mà còn cả những thách thức khó khăn hơn nhiều về chất lượng dữ liệu, tiêu chuẩn hóa và tuân thủ.