El fundador de Shengshu señala 3 razones por las que el video dominará los modelos de mundo de la IA

A medida que la industria de la IA pasa de generar contenido a comprender el mundo físico, se intensifica un feroz debate sobre el camino correcto para construir "modelos de mundo".

Shengshu Technology está defendiendo un enfoque que prioriza el video para construir modelos de mundo de IA, argumentando que ofrece un camino más escalable y eficiente para crear inteligencia física que los métodos de simulación 3D favorecidos por los laboratorios académicos.

"El video es el formato de datos más natural para registrar el mundo real", afirmó Zhu Jun, fundador de Shengshu e investigador de IA de la Universidad de Tsinghua, en una entrevista el 29 de marzo. "La clave es enseñar al modelo a aprender eficazmente las reglas de funcionamiento del mundo físico a partir de él".

La estrategia de Zhu se basa en una arquitectura de Transformador de Difusión (DiT), que ha demostrado escalar eficazmente con más datos y parámetros. Esto contrasta con el enfoque de reconstrucción 3D de World Labs de Fei-Fei Li y los modelos de predicción abstractos del equipo de Yann LeCun, preparando el escenario para un enfrentamiento técnico.

El resultado de este debate arquitectónico podría determinar a los líderes en el naciente mercado de la robótica y la IA física. Este sector está atrayendo una inversión significativa mientras las empresas compiten por desarrollar una automatización que ya está impactando los mercados laborales; el sector tecnológico de la India reportó una caída interanual del 24% en las vacantes de empleo activas a principios de 2026 debido a la adopción de la IA.

La apuesta por la escalabilidad del video

El núcleo del argumento de Zhu se basa en dos pilares: los datos y el escalado arquitectónico. Sostiene que para que un modelo comprenda verdaderamente el mundo, necesita acceso a un conjunto de datos masivo y en constante expansión. El video, argumenta, es el formato más abundante y universal para capturar la física y la causalidad del mundo real.

"Pensamos desde los principios fundamentales de los modelos base", explicó Zhu. "Se necesitan datos que puedan escalar y una arquitectura que pueda ampliarse".

Este camino centrado en el video diverge de los competidores que se enfocan en crear entornos 3D de alta fidelidad o simulaciones. Si bien esos métodos ofrecen entornos de entrenamiento controlables, Zhu cree que son ineficientes para el objetivo final de la máquina. Un robot, argumenta, no necesita renderizar cada píxel perfectamente para entender cómo recoger una taza; solo necesita percibir su propio estado y predecir la física de la acción. Al entrenar con grandes cantidades de video del mundo real, los modelos pueden aprender estas dinámicas sin la carga computacional del renderizado.

Este enfoque está respaldado por la arquitectura DiT, que Shengshu fue de los primeros en adoptar y cuya escalabilidad ha validado. A medida que se agregan más datos y parámetros, se espera que el rendimiento del modelo mejore, un factor crucial para construir un "centro de inteligencia" verdaderamente de propósito general para los futuros robots.

De los píxeles virtuales a la acción física

Un desafío clave es traducir la observación pasiva de video en acciones ejecutables. Shengshu está abordando esto mediante la construcción de un marco de modelo de mundo unificado diseñado para cerrar la brecha entre la "generación" y la "acción". El modelo no solo está viendo videos; está aprendiendo los patrones subyacentes de movimiento, interacción y consecuencia.

Zhu informó resultados tempranos prometedores de este enfoque unificado, señalando que demuestra efectos significativos de escalado de datos y sólidas capacidades de generalización en más de 50 tareas diferentes. Estas van desde tareas digitales como resolver CAPTCHAs con un brazo robótico hasta manipulaciones físicas complejas como el manejo de objetos flexibles.

"Estamos viendo que a medida que aumenta el número de tareas, el rendimiento no solo no disminuye, sino que en realidad mejora", dijo Zhu, contrastando esto con los modelos tradicionales de Visión-Lenguaje-Acción (VLA) que pueden degradarse con más tareas. Esto sugiere que un modelo único y unificado puede ser un camino más viable hacia la inteligencia general que entrenar modelos separados para cada tarea.

El impulso por una IA que pueda actuar en el mundo surge mientras la industria de semiconductores, que alimenta estos modelos, lidia con inmensos costos de energía. En el foro SEMICON China 2026, líderes de la industria como Foxconn y BOE destacaron cómo la propia IA se está utilizando para reducir el consumo de energía de las plantas entre un 10 y un 20%, un paso necesario para respaldar la futura expansión de capacidad requerida para entrenar modelos de mundo cada vez más grandes.

De cara al futuro, Zhu es optimista y predice que la convergencia de conjuntos de datos masivos, arquitecturas maduras como DiT y suficiente potencia de cómputo conducirá a grandes avances en los próximos uno o dos años. Ve los entornos del hogar y la oficina, con su naturaleza dinámica y no estructurada, como el banco de pruebas definitivo y el premio más valioso para un modelo de mundo exitoso. Para los inversores, la clave será identificar qué empresas poseen los tres recursos críticos para esta nueva frontera: datos escalables, una arquitectura de modelo escalable y los recursos de cómputo masivos para entrenarlos.

Este artículo tiene fines informativos únicamente y no constituye asesoramiento de inversión.