Alibaba dévoile un modèle d'IA pour permettre aux robots de comprendre le monde réel

Alibaba Group Holding Ltd. a publié un modèle d'intelligence artificielle conçu pour aider les robots à percevoir et interagir avec le monde physique, rejoignant ainsi une course croissante entre les géants technologiques chinois et les startups mondiales pour construire des « modèles du monde » qui vont au-delà de l'IA traditionnelle basée sur le langage.

Le modèle, dont le nom spécifique et le nombre de paramètres n'ont pas été divulgués, vise à doter les robots de la capacité de comprendre les environnements spatiaux, les relations entre objets et la dynamique physique — des capacités qui ont longtemps échappé aux systèmes conventionnels vision-langage-action. Cette initiative d'Alibaba intervient alors que l'industrie de l'IA déplace son attention des grands modèles de langage vers les modèles du monde capables de simuler et de prédire la physique du monde réel.

« Les modèles du monde représentent la prochaine frontière de l'intelligence incarnée, faisant passer l'IA de la génération de texte à la compréhension du monde physique », a déclaré Wang Xiaogang, président d'ACE ROBOTICS, dans un communiqué publié plus tôt ce mois-ci. Le modèle du monde open-source Kairos de son entreprise a récemment dominé quatre référentiels mondiaux d'intelligence incarnée, obtenant notamment un score de 96,1 % sur le benchmark de manipulation à deux bras RoboTwin 2.0.

L'entrée d'Alibaba la confronte à un domaine en pleine expansion. Le modèle Kairos-4B d'ACE ROBOTICS, avec seulement 4 milliards de paramètres, a obtenu un score global de 9,30 sur le benchmark WorldModelBench Robot, surpassant des systèmes comptant jusqu'à 28 milliards de paramètres de Nvidia Corp. et d'autres. World Labs, la société de Fei-Fei Li valorisée à 1 milliard de dollars, a lancé son application Marble en novembre, utilisant des modèles du monde pour générer des répliques 3D interactives d'espaces à partir de prompts visuels ou textuels.

Le paysage concurrentiel s'étend à la fois à la Chine et aux États-Unis. Cosmos 3.0 de Nvidia, introduit cette année, adopte une architecture unifiée qui intègre le raisonnement visuel, la génération du monde et la prédiction d'actions dans un seul système — la même philosophie de conception qu'ACE ROBOTICS a introduite pour la première fois en décembre 2025. Le modèle d'Alibaba devra égaler ou dépasser ces références pour gagner l'adhésion des développeurs de robots et des fabricants de matériel.

Pour Alibaba, ce modèle étend ses ambitions en matière d'IA au-delà du cloud computing et des logiciels d'entreprise. L'entreprise a massivement investi dans sa famille de grands modèles de langage Tongyi Qianwen (Qwen) et s'avance désormais vers l'IA incarnée, un marché qui pourrait débloquer de nouvelles sources de revenus dans l'automatisation industrielle, la logistique et le commerce de détail intelligent. Alibaba Cloud, la branche cloud computing de l'entreprise, serait la plateforme naturelle pour proposer le modèle aux clients professionnels.

Le marché de l'IA robotique représente une opportunité considérable. ACE ROBOTICS a levé plusieurs centaines de millions de dollars au premier semestre 2026 auprès d'investisseurs incluant Geely Capital et Shenzhen Capital Group, signalant un fort appétit des investisseurs pour l'intelligence incarnée. L'échelle d'Alibaba et son infrastructure cloud existante pourraient lui conférer un avantage en termes de distribution par rapport à ses rivaux plus petits, bien que les performances de son modèle par rapport aux référentiels établis restent à vérifier.

Les actions d'Alibaba ont progressé suite à cette annonce. La percée de l'entreprise dans les modèles du monde la positionne pour conquérir une part de la pile logicielle robotique en pleine croissance, où la capacité à généraliser dans des environnements inconnus — éclairage, agencements, objets et bruit des capteurs — reste le défi technique central. Cependant, sans résultats de référence indépendants, il est trop tôt pour évaluer si le modèle d'Alibaba peut égaler les scores de généralisation au niveau scénique des leaders comme Kairos, qui a obtenu 89,0 sur le benchmark LIBERO-Plus, ou l'efficacité paramétrique de modèles comme Kairos-4B.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.