Người sáng lập Shengshu Technology đưa ra 3 lý do tại sao video sẽ thống trị mô hình thế giới AI

Khi ngành công nghiệp AI chuyển hướng từ việc tạo nội dung sang việc thấu hiểu thế giới vật lý, một cuộc tranh luận gay gắt về con đường đúng đắn để xây dựng "mô hình thế giới" đang nóng lên.

Shengshu Technology đang thúc đẩy phương pháp tiếp cận ưu tiên video để xây dựng các mô hình thế giới AI, lập luận rằng nó cung cấp một con đường mở rộng và hiệu quả hơn để tạo ra trí tuệ hiện thân so với các phương pháp mô phỏng 3D được các phòng thí nghiệm học thuật ưa chuộng.

"Video là định dạng dữ liệu tự nhiên nhất để ghi lại thế giới thực," người sáng lập Shengshu và là nhà nghiên cứu AI của Đại học Thanh Hoa, Zhu Jun, cho biết trong một cuộc phỏng vấn vào ngày 29 tháng 3. "Chìa khóa là dạy cho mô hình cách học hiệu quả các quy tắc vận hành của thế giới vật lý từ đó."

Chiến lược của Zhu dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc đã được chứng minh là có khả năng mở rộng hiệu quả với nhiều dữ liệu và tham số hơn. Điều này trái ngược với phương pháp tái tạo 3D của World Labs (do Fei-Fei Li dẫn dắt) và các mô hình dự đoán trừu tượng từ đội ngũ của Yann LeCun, tạo nên một cuộc đối đầu về kỹ thuật.

Kết quả của cuộc tranh luận về kiến trúc này có thể quyết định những người dẫn đầu trong thị trường robot và AI hiện thân mới sơ khai. Lĩnh vực này đang thu hút sự đầu tư đáng kể khi các công ty đua nhau phát triển tự động hóa, điều vốn đã tác động đến thị trường lao động, với việc ngành công nghệ của Ấn Độ báo cáo mức giảm 24% so với cùng kỳ năm trước về các vị trí tuyển dụng đang hoạt động vào đầu năm 2026 do việc áp dụng AI.

Đặt cược vào khả năng mở rộng của Video

Cốt lõi trong lập luận của Zhu dựa trên hai trụ cột: dữ liệu và khả năng mở rộng kiến trúc. Ông cho rằng để một mô hình thực sự hiểu thế giới, nó cần tiếp cận với một tập dữ liệu khổng lồ, không ngừng mở rộng. Video, ông lập luận, là định dạng phong phú và phổ biến nhất để nắm bắt vật lý và tính nhân quả của thế giới thực.

"Chúng tôi suy nghĩ từ các nguyên tắc cơ bản của các mô hình nền tảng," Zhu giải thích. "Bạn cần dữ liệu có thể mở rộng và một kiến trúc có thể mở rộng quy mô."

Con đường tập trung vào video này khác với các đối thủ cạnh tranh tập trung vào việc tạo ra các môi trường 3D hoặc mô phỏng có độ trung thực cao. Mặc dù các phương pháp đó cung cấp các môi trường đào tạo có thể kiểm soát được, Zhu tin rằng chúng không hiệu quả cho mục tiêu cuối cùng của máy móc. Một robot, ông lập luận, không cần phải dựng hình hoàn hảo từng pixel để hiểu cách cầm một chiếc cốc; nó chỉ cần nhận thức được trạng thái của chính mình và dự đoán vật lý của hành động. Bằng cách đào tạo trên một lượng lớn video thực tế, các mô hình có thể học được những động lực này mà không tốn kém chi phí tính toán cho việc dựng hình.

Phương pháp này được củng cố bởi kiến trúc DiT, mà Shengshu là một trong những đơn vị đầu tiên áp dụng và đã xác nhận khả năng mở rộng của nó. Khi có thêm nhiều dữ liệu và tham số được bổ sung, hiệu suất của mô hình dự kiến sẽ cải thiện, một yếu tố quan trọng để xây dựng một "trung tâm trí tuệ" thực sự đa năng cho robot trong tương lai.

Từ các pixel ảo đến hành động vật lý

Một thách thức chính là chuyển đổi các quan sát video thụ động thành các hành động có thể thực thi. Shengshu đang giải quyết vấn đề này bằng cách xây dựng một khuôn mẫu mô hình thế giới thống nhất được thiết kế để thu hẹp khoảng cách giữa "tạo ra" và "hành động". Mô hình không chỉ xem video; nó đang học các mô hình cơ bản của chuyển động, tương tác và hệ quả.

Zhu đã báo cáo kết quả ban đầu đầy hứa hẹn từ phương pháp thống nhất này, lưu ý rằng nó thể hiện hiệu ứng mở rộng dữ liệu đáng kể và khả năng tổng quát hóa mạnh mẽ trên hơn 50 tác vụ khác nhau. Các tác vụ này trải dài từ các nhiệm vụ kỹ thuật số như giải CAPTCHA bằng cánh tay robot đến các thao tác vật lý phức tạp như xử lý các vật thể linh hoạt.

"Chúng tôi thấy rằng khi số lượng tác vụ tăng lên, hiệu suất không những không giảm mà thực tế còn cải thiện," Zhu nói, đối lập điều này với các mô hình Thị giác-Ngôn ngữ-Hành động (VLA) truyền thống có thể suy giảm khi có thêm nhiều tác vụ. Điều này gợi ý rằng một mô hình thống nhất duy nhất có thể là một con đường khả thi hơn để đạt được trí tuệ tổng quát so với việc đào tạo các mô hình riêng biệt cho từng tác vụ.

Sự thúc đẩy cho AI có thể hành động trong thế giới diễn ra khi ngành công nghiệp bán dẫn, vốn cung cấp năng lượng cho các mô hình này, đang phải vật lộn với chi phí năng lượng khổng lồ. Tại diễn đàn SEMICON China 2026, các nhà lãnh đạo ngành như Foxconn và BOE đã nhấn mạnh cách chính AI đang được sử dụng để giảm tiêu thụ điện năng của nhà máy từ 10-20%, một bước cần thiết để hỗ trợ việc mở rộng công suất trong tương lai cần thiết cho việc đào tạo các mô hình thế giới ngày càng lớn hơn.

Nhìn về phía trước, Zhu tỏ ra lạc quan, dự đoán rằng sự hội tụ của các tập dữ liệu khổng lồ, các kiến trúc hoàn thiện như DiT và sức mạnh tính toán đủ lớn sẽ dẫn đến những đột phá lớn trong vòng một đến hai năm tới. Ông coi môi trường gia đình và văn phòng, với tính chất phi cấu trúc và năng động, là nơi thử nghiệm cuối cùng và là giải thưởng giá trị nhất cho một mô hình thế giới thành công. Đối với các nhà đầu tư, chìa khóa sẽ là xác định công ty nào sở hữu ba nguồn lực quan trọng cho biên giới mới này: dữ liệu có thể mở rộng, kiến trúc mô hình có thể mở rộng và tài nguyên tính toán khổng lồ để đào tạo chúng.

Bài viết này chỉ mang tính chất cung cấp thông tin và không cấu thành lời khuyên đầu tư.