京東動員六十萬人構建AI機器人數據護城河

京東動員多達六十萬人進行AI數據採集

3月16日，中國電商巨頭京東宣布計劃建設全球最大的具身智能數據採集中心，併發起一項大規模行動，以應對困擾機器人行業的“數據饑荒”。該倡議計劃動員超過10萬名自有員工和多達50萬名外部人員，其中包括僅宿遷市的10萬名市民。目標是在兩年內累積超過1000萬小時的真實世界物理交互數據，為訓練執行複雜任務的精密機器人提供所需的原始材料。這種“人海戰術”代表了一種強力嘗試，旨在解決AI機器人面臨的主要瓶頸，即高質量訓練數據目前比模型架構或原始計算能力更為關鍵。

該項目與中國，特別是北京亦莊經濟技術開發區的產業雄心深度融合。亦莊經濟技術開發區擁有300多家機器人公司和100億人民幣的產業規模，提供硬體和測試場地。京東的倡議旨在通過從其自身的真實世界物流、工業和零售場景中生成海量數據集來提供“大腦”，從而建立一個從數據採集到硬體迭代的閉環系統。

物流網路解決機器人數據採集高成本問題

京東的戰略利用其核心業務，在AI軍備競賽中形成了競爭優勢。與純軟件公司或機器人初創企業不同，京東龐大的實體供應鏈提供了海量、持續的複雜真實世界交互數據來源。這種方法直接解決了機器人數據獲取中的兩大主要障礙：“虛實鴻溝”（Sim-to-Real Gap）和高昂的成本。儘管許多初創企業依賴虛擬仿真，但這些模型往往難以遷移到真實世界，因為它們無法完美復現摩擦或柔性材料變形等細微物理現象。

另一種方案，即通過遠程操作機器人記錄人類行為，雖然有效但經濟上不可行。行業估計，捕獲和清洗一個高質量、複雜的交互任務的數據成本高達數百美元。通過將數據採集整合到其快遞員和倉庫工人的日常運營中，京東旨在繞過這一瓶頸。這種模式類似於特斯拉如何利用其超級工廠訓練Optimus機器人，它將公司的現有運營基礎設施轉化為專有數據生產線，為缺乏此類物理世界訪問權限的競爭對手設置了巨大的進入壁壘。

專家質疑1000萬小時能否解決質量瓶頸

儘管該項目規模宏大，但行業專家仍在審慎評估，數量是否能轉化為實現突破所需的質量。機器人領域的核心挑戰并非缺乏視頻，而是缺乏包含精確物理反饋（例如力、扭矩和觸覺數據）的“狀態-動作對”（state-action pairs）。簡單地記錄快遞員遞送包裹僅為機器人的世界模型提供視覺數據，但對於訓練其控制策略——如何在不損壞物體的情況下牢固抓取——幾乎毫無用處。

京東似乎已經意識到了這一挑戰，其計劃明確指出第一年將收集“100萬小時的機器人本體數據”。這表明了一種混合方法，即將廣泛的人類中心視頻用於一般理解，並結合來自執行任務機器的更具針對性的高保真數據。然而，一些根本性問題依然存在，包括缺乏統一的數據標準。由於硬體配置不同，為一種機器人收集的數據往往與另一種機器人互不兼容。隨著京東將該行業推向重資產競爭的新階段，其成功將不僅取決於解決數據量問題，還將取決於解決數據質量、標準化和合規性等更嚴峻的挑戰。