Key Takeaways:
- 阿里巴巴はロボットが物理世界を理解するためのAIモデルを発表
- 本モデルはACE ROBOTICSのKairosやWorld Labsを含む競争の激しい分野に参入
- 世界モデルは言語ベースのAIを超え、具現化知能へのシフトを意味する
Key Takeaways:

アリババグループ(Alibaba Group Holding Ltd.)は、ロボットが物理世界を知覚し相互作用することを支援する人工知能モデルを発表し、中国のハイテク大手や世界的なスタートアップ企業の間で、従来の言語ベースのAIを超える「世界モデル」を構築する動きが加速する中に参入した。
具体的な名称やパラメータ数は開示されていないが、本モデルはロボットに空間環境、物体間の関係、物理的ダイナミクスを理解する能力を与えることを目的としており、これらは従来の視覚言語行動(VLA)システムでは長らく実現が困難だった capabilities である。アリババのこの動きは、AI業界が大規模言語モデルから、現実世界の物理現象をシミュレーション・予測できる世界モデルへと焦点を移している時期に行われた。
「世界モデルは具現化知能における次のフロンティアであり、AIをテキスト生成から物理世界の理解へと移行させるものです」と、ACE ROBOTICSの会長であるXiaogang Wang氏は今月初めの声明で述べた。同社のオープンソース世界モデルKairosは最近、ロボット操作ベンチマークRoboTwin 2.0で96.1%のスコアを獲得するなど、4つのグローバルな具現化知能ベンチマークでトップに立った。
アリババの参入により、急速に拡大する競争領域に挑むことになる。ACE ROBOTICSのKairos-4Bモデルは、わずか40億のパラメータでWorldModelBench Robotベンチマークにおいて9.30の総合スコアを達成し、Nvidia Corp.などが持つ最大280億のパラメータを備えたシステムを上回った。Fei-Fei Li氏のWorld Labs(評価額10億ドル)は、昨年11月にMarbleアプリを発表し、世界モデルを用いて視覚的またはテキストによるプロンプトからインタラクティブな3D空間のレプリカを生成している。
競争環境は中国と米国の両方に広がっている。NvidiaのCosmos 3.0は、視覚推論、世界生成、行動予測を単一のシステムに統合する統一アーキテクチャを採用しており、これはACE ROBOTICSが2025年12月に初めて導入したのと同じ設計思想である。アリババのモデルは、ロボット開発者やハードウェアメーカーからの支持を得るために、これらのベンチマークに匹敵するか、それを上回る性能が求められる。
アリババにとって、本モデルはクラウドコンピューティングやエンタープライズソフトウェアを超えたAIへの野心を拡大するものである。同社はTongyi Qianwen(Qwen)大規模言語モデルファミリーに多額の投資を行っており、現在は産業オートメーション、物流、スマートリテールといった分野で新たな収益源を開拓できる可能性のある具現化AIに進出している。アリババグループのクラウドコンピューティング部門であるAlibaba Cloudは、本モデルをエンタープライズ顧客に提供するための自然なプラットフォームとなるだろう。
ロボットAI市場は大きな機会を意味する。ACE ROBOTICSは2026年上半期に、Geely CapitalやShenzhen Capital Groupを含む投資家から数億ドルを調達しており、具現化知能に対する投資家の強い関心を示している。アリババの規模と既存のクラウドインフラは、小規模な競合他社に対して流通面での優位性をもたらす可能性があるが、確立されたベンチマークと比較した同社モデルの性能は未だ検証されていない。
この発表を受けてアリババの株価は上昇して取引された。世界モデルへの同社の進出は、成長を続けるロボットソフトウェアスタックにおけるシェア獲得競争に参入することを意味する。この分野では、照明、レイアウト、物体、センサーノイズといった未経験の環境に一般化する能力が依然として中核的な技術的課題となっている。ただし、独立したベンチマーク結果がなければ、アリババのモデルがKairos(LIBERO-Plusベンチマークで89.0を達成)のようなリーダーのシーンレベル一般化スコアや、Kairos-4Bのようなパラメータ効率に匹敵するかどうかを評価するのは時期尚早である。
本記事は情報提供のみを目的としており、投資助言を構成するものではありません。