生數科技創始人：視頻將主導 AI 世界模型的三大理由

隨著 AI 行業從生成內容轉向理解物理世界，關於構建「世界模型」正確路徑的激烈辯論正日趨白熱化。

生數科技正致力於通過視頻優先的方法來構建 AI 世界模型，認為與學術實驗室青睞的 3D 模擬方法相比，該路徑在創造具身智能方面更具擴展性和效率。

「視頻是記錄真實世界最自然的数据格式，」生數科技創始人、清華大學 AI 研究員朱軍在 3 月 29 日的採訪中表示。「關鍵在於教會模型有效地從中學習物理世界的運行規則。」

朱軍的策略依賴於擴散變換器（DiT）架構，該架構已被證明能隨著數據和參數規模的增加而有效擴展。這與李飛飛 World Labs 的 3D 重建路徑以及 Yann LeCun 團隊的抽象預測模型形成了鮮明對比，一場技術對決拉開了序幕。

這場架構之爭的結果可能決定新興機器人和具身 AI 市場的領導者。該領域正吸引大量投資，各大公司競相開發已在衝擊勞動力市場的自動化技術。數據顯示，受 AI 普及影響，印度科技行業在 2026 年初的活躍職位空缺同比下降了 24%。

視頻的可擴展性賭注

朱軍論點的核心在於數據和架構擴展這兩大支柱。他認為，模型要真正理解世界，必須接觸海量的、不斷增長的數據集。他指出，視頻是捕捉現實世界物理特性和因果關係最豐富、最普遍的格式。

「我們從基礎模型的第一性原理出發思考，」朱軍解釋道。「你需要能夠擴展的數據和能夠擴大的架構。」

這種以視頻為中心的路徑與專注於創建高保真 3D 環境或模擬的競爭對手截然不同。雖然那些方法提供了可控的訓練環境，但朱軍認為這對於機器的終極目標來說效率低下。他認為，機器人不需要完美渲染每個像素就能理解如何拿起杯子；它只需要感知自身狀態並預測動作的物理過程。通過在大規模真實世界視頻上進行訓練，模型可以在沒有渲染計算開銷的情況下學習這些動態規律。

這一方法由 DiT 架構支撐，生數科技是最早採用該架構的公司之一，並驗證了其擴展性。隨著更多數據和參數的加入，模型性能預計將進一步提升，這對於構建未來機器人真正的通用「智能中樞」至關重要。

從虛擬像素到物理動作

一個核心挑戰是將被動的視頻觀察轉化為可執行的動作。生數科技正通過構建統一的世界模型框架來解決這一問題，旨在彌合「生成」與「動作」之間的鴻溝。該模型不僅僅是在觀看視頻，它還在學習運動、交互及其後果的底層模式。

朱軍報告了這種統一路徑的初步成效，指出其表現出顯著的數據規模效應，並在 50 多項不同任務中具有強大的泛化能力。這些任務範圍廣泛，從機器人手臂破解驗證碼等數字任務，到處理柔性物體等複雜的物理操作。

「我們觀察到，隨著任務數量的增加，性能不僅沒有下降，反而有所提升，」朱軍說。他將其與傳統的視覺-語言-動作（VLA）模型進行了對比，後者往往會隨著任務增加而性能下降。這表明，單一的統一模型可能是實現通用智能比為每個任務訓練獨立模型更可行的路徑。

就在推動 AI 進入物理世界同時，為其提供動力的半導體行業正面臨巨大的能源成本挑戰。在 SEMICON China 2026 論壇上，富士康和京東方等行業巨頭強調了如何利用 AI 自身將工廠功耗降低 10-20%，這是支持訓練更大規模世界模型所需產能擴張的必要步驟。

展望未來，朱軍持樂觀態度，預測海量數據、DiT 等成熟架構以及充足算力的融合將在未來一至兩年內帶來重大突破。他認為家庭和辦公環境具有非結構化和動態特性，是世界模型最終的試金石，也是最具有價值的終極目標。對於投資者而言，關鍵將是識別哪些公司擁有這一新前沿領域的三大關鍵資源：可擴展的数据、可擴展的模型架構以及訓練它們所需的海量計算資源。

本文僅供參考，不構成投資建議。