生数科技の創業者、動画がAI世界モデルを主導する3つの理由を指摘

AI業界の焦点がコンテンツ生成から物理世界の理解へと移る中、「世界モデル」構築の正しい道を巡る激しい議論が熱を帯びている。

生数科技（Shengshu Technology）は、AI世界モデル構築において動画優先のアプローチを提唱している。これは、アカデミックな研究所が好む3Dシミュレーション手法よりも、身体性インテリジェンス（具身智能）を実現するための拡張性と効率性に優れた道であるとの主張だ。

「動画は現実世界を記録するための最も自然なデータ形式だ」と、生数科技の創業者であり清華大学のAI研究者でもある朱軍氏は、3月29日のインタビューで語った。「重要なのは、動画から物理世界の動作規則を効果的に学習するようモデルを教え込むことだ」

朱氏の戦略は、データやパラメータの増加に伴い効果的にスケールすることが証明されているディフュージョン・トランスフォーマー（DiT）アーキテクチャに依存している。これは、フェイフェイ・リ氏率いるWorld Labsの3D再構成アプローチや、ヤン・ルカン氏のチームによる抽象的予測モデルとは対照的であり、技術的な対決の舞台が整いつつある。

このアーキテクチャを巡る議論の結果は、黎明期にあるロボティクスおよび身体性AI市場のリーダーを決定づける可能性がある。この分野には多額の投資が集まっており、各社が自動化技術の開発を競っている。この動きはすでに労働市場に影響を与えており、インドのテックセクターではAIの導入により、2026年初頭のアクティブな求人数が前年同期比で24%減少したと報告されている。

動画の拡張性への賭け

朱氏の主張の核心は、データとアーキテクチャの拡張（スケーリング）という2つの柱にある。モデルが世界を真に理解するためには、膨大かつ拡大し続けるデータセットへのアクセスが必要だと彼は主張する。動画は、現実世界の物理法則や因果関係を捉えるための、最も豊富で普遍的な形式であるという考えだ。

「我々は基盤モデルの第一原理から考えている」と朱氏は説明する。「拡張可能なデータと、規模を拡大できるアーキテクチャが必要なのだ」

この動画中心の道は、高精度な3D環境やシミュレーションの作成に焦点を当てる競合他社とは一線を画す。それらの手法は制御可能な訓練環境を提供するが、朱氏はマシンの最終的な目標に対しては非効率であると考えている。ロボットがカップを持ち上げる方法を理解するために、すべてのピクセルを完璧にレンダリングする必要はない。自身の状態を感知し、動作の物理的結果を予測できれば十分なのだ。膨大な実世界の動画で訓練することで、モデルはレンダリングに伴う計算負荷なしに、これらのダイナミクスを学習できる。

このアプローチはDiTアーキテクチャによって支えられており、生数科技はいち早くこれを採用し、その拡張性を検証してきた。データとパラメータが追加されるにつれ、モデルの性能向上は確実視されており、これは将来のロボットのための真の汎用「インテリジェンス・ハブ」を構築する上で極めて重要な要素となる。

仮想ピクセルから物理的な行動へ

大きな課題は、受動的な動画観察を実行可能な行動へと変換することだ。生数科技は、「生成」と「行動」のギャップを埋めるために設計された統一世界モデルフレームワークを構築することで、この問題に取り組んでいる。モデルは単に動画を見ているのではなく、動き、相互作用、そしてその結果という根底にあるパターンを学習しているのだ。

朱氏は、この統一アプローチによる有望な初期結果を報告し、データスケーリング効果が顕著であり、50以上の異なるタスクにわたって強力な汎用能力を示していると述べた。タスクは、ロボットアームによるCAPTCHAの解除といったデジタルタスクから、柔軟な物体の操作といった複雑な物理的操作まで多岐にわたる。

「タスクの数が増えても、パフォーマンスが低下しないどころか、実際には向上していることが確認されている」と朱氏は述べ、タスクが増えると性能が低下しがちな従来の視覚・言語・行動（VLA）モデルとの違いを強調した。これは、タスクごとに個別のモデルを訓練するよりも、単一の統一モデルの方が汎用知能へのより現実的な道であることを示唆している。

AIを現実世界で行動させる動きが進む一方で、これらのモデルを支える半導体業界は膨大なエネルギーコストに直面している。SEMICON China 2026フォーラムでは、フォックスコンやBOEといった業界リーダーが、AI自体の活用によって工場の消費電力を10〜20%削減する方法を強調した。これは、より大規模な世界モデルの訓練に必要となる将来の生産能力拡張を支えるための不可欠なステップだ。

先を見据え、朱氏は楽観的だ。膨大なデータセット、DiTのような成熟したアーキテクチャ、そして十分な計算能力の融合が、今後1〜2年以内に大きなブレイクスルーをもたらすと予測している。彼は、非構造的でダイナミックな性質を持つ家庭やオフィス環境を、世界モデルの究極の試験場であり、最も価値のある目標と見なしている。投資家にとっての鍵は、この新たなフロンティアにおいて、拡張可能なデータ、拡張可能なモデルアーキテクチャ、そしてそれらを訓練するための膨大な計算資源という3つの重要な資源をどの企業が保持しているかを見極めることにあるだろう。

本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。