Alors que l'industrie de l'IA passe de la génération de contenu à la compréhension du monde physique, un débat intense sur la voie à suivre pour construire des « modèles du monde » s'intensifie.
Shengshu Technology défend une approche privilégiant la vidéo pour construire des modèles du monde d'IA, affirmant qu'elle offre une voie plus évolutive et efficace pour créer une intelligence incarnée que les méthodes de simulation 3D privilégiées par les laboratoires universitaires.
« La vidéo est le format de données le plus naturel pour enregistrer le monde réel », a déclaré Zhu Jun, fondateur de Shengshu et chercheur en IA à l'université de Tsinghua, lors d'un entretien le 29 mars. « La clé est d'apprendre au modèle à assimiler efficacement les règles de fonctionnement du monde physique à partir de celle-ci. »
La stratégie de Zhu repose sur une architecture Diffusion Transformer (DiT), qui a prouvé sa capacité à monter en charge efficacement avec davantage de données et de paramètres. Cela contraste avec l'approche de reconstruction 3D de World Labs (Fei-Fei Li) et les modèles de prédiction abstraits de l'équipe de Yann LeCun, préparant le terrain pour un affrontement technique.
L'issue de ce débat architectural pourrait déterminer les leaders du marché naissant de la robotique et de l'IA incarnée. Ce secteur attire des investissements massifs alors que les entreprises s'affrontent pour développer une automatisation qui impacte déjà le marché du travail : le secteur technologique indien a rapporté une baisse de 24 % sur un an des ouvertures de postes actifs début 2026 en raison de l'adoption de l'IA.
Le pari de l'évolutivité sur la vidéo
Le cœur de l'argument de Zhu repose sur deux piliers : les données et l'évolutivité de l'architecture. Il soutient que pour qu'un modèle comprenne réellement le monde, il a besoin d'accéder à un ensemble de données massif et en constante expansion. La vidéo, selon lui, est le format le plus abondant et le plus universel pour capturer la physique et la causalité du monde réel.
« Nous réfléchissons à partir des principes fondamentaux des modèles de base », a expliqué Zhu. « Vous avez besoin de données évolutives et d'une architecture capable de monter en puissance. »
Cette voie centrée sur la vidéo diverge de celle des concurrents qui se concentrent sur la création d'environnements 3D ou de simulations de haute fidélité. Bien que ces méthodes offrent des terrains d'entraînement contrôlables, Zhu estime qu'elles sont inefficaces pour l'objectif ultime de la machine. Un robot, soutient-il, n'a pas besoin d'un rendu parfait de chaque pixel pour comprendre comment ramasser une tasse ; il a seulement besoin de percevoir son propre état et de prédire la physique de l'action. En s'entraînant sur de vastes quantités de vidéos du monde réel, les modèles peuvent apprendre ces dynamiques sans la charge de calcul liée au rendu.
Cette approche est soutenue par l'architecture DiT, que Shengshu a été l'un des premiers à adopter et dont il a validé l'évolutivité. À mesure que davantage de données et de paramètres sont ajoutés, les performances du modèle devraient s'améliorer, un facteur crucial pour construire un véritable « centre d'intelligence » polyvalent pour les futurs robots.
Des pixels virtuels à l'action physique
L'un des principaux défis consiste à traduire l'observation vidéo passive en actions exécutables. Shengshu s'y attaque en construisant un cadre de modèle du monde unifié conçu pour combler le fossé entre la « génération » et l'« action ». Le modèle ne se contente pas de regarder des vidéos ; il apprend les modèles sous-jacents de mouvement, d'interaction et de conséquence.
Zhu a fait état de premiers résultats prometteurs, notant que cette approche unifiée démontre des effets d'échelle de données significatifs et de fortes capacités de généralisation sur plus de 50 tâches différentes. Celles-ci vont de tâches numériques comme la résolution de CAPTCHA avec un bras robotique à des manipulations physiques complexes comme la manipulation d'objets flexibles.
« Nous constatons qu'à mesure que le nombre de tâches augmente, les performances non seulement ne déclinent pas, mais elles s'améliorent réellement », a déclaré Zhu, contrastant cela avec les modèles Vision-Language-Action (VLA) traditionnels qui peuvent se dégrader avec plus de tâches. Cela suggère qu'un modèle unique et unifié pourrait être une voie plus viable vers l'intelligence générale que l'entraînement de modèles séparés pour chaque tâche.
Cette poussée vers une IA capable d'agir dans le monde intervient alors que l'industrie des semi-conducteurs, qui alimente ces modèles, est confrontée à des coûts énergétiques immenses. Lors du forum SEMICON China 2026, des leaders de l'industrie comme Foxconn et BOE ont souligné comment l'IA elle-même est utilisée pour réduire la consommation d'énergie des usines de 10 à 20 %, une étape nécessaire pour soutenir l'expansion future des capacités requises pour l'entraînement de modèles du monde toujours plus vastes.
Pour l'avenir, Zhu est optimiste, prédisant que la convergence de jeux de données massifs, d'architectures matures comme DiT et d'une puissance de calcul suffisante mènera à des percées majeures d'ici un à deux ans. Il voit les environnements domestiques et de bureau, avec leur nature non structurée et dynamique, comme le banc d'essai ultime et le prix le plus précieux pour un modèle du monde réussi. Pour les investisseurs, la clé sera d'identifier les entreprises qui possèdent les trois ressources critiques pour cette nouvelle frontière : des données évolutives, une architecture de modèle évolutive et les ressources de calcul massives pour les entraîner.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.