JD.com moviliza a 600.000 personas para construir un foso de datos en robótica de IA

JD.com moviliza hasta 600.000 personas para la recolección de datos de IA

El 16 de marzo, el gigante chino del comercio electrónico JD.com anunció planes para construir el centro de recolección de datos de inteligencia encarnada más grande del mundo, lanzando una campaña masiva para abordar la "hambruna de datos" que paraliza la industria robótica. La iniciativa tiene la intención de movilizar a más de 100.000 de sus propios empleados y hasta 500.000 personas externas, incluyendo 100.000 ciudadanos solo en la ciudad de Suqian. El objetivo es acumular más de 10 millones de horas de datos de interacción física en el mundo real en dos años, proporcionando la materia prima necesaria para entrenar robots sofisticados para tareas complejas. Esta táctica de "mar humana" representa un intento de fuerza bruta para resolver lo que se ha convertido en el principal cuello de botella para la robótica de IA, donde los datos de entrenamiento de alta calidad son ahora más críticos que la arquitectura del modelo o la potencia de cálculo bruta.

El proyecto está profundamente integrado con las ambiciones industriales de China, particularmente dentro de la Zona de Desarrollo Económico y Técnico de Yizhuang en Beijing. La zona, que alberga a más de 300 empresas de robótica y una industria de 10 mil millones de yuanes, proporciona el hardware y los campos de prueba. La iniciativa de JD tiene como objetivo proporcionar el "cerebro" generando conjuntos de datos masivos a partir de sus propios escenarios logísticos, industriales y minoristas del mundo real, creando un sistema de circuito cerrado desde la recolección de datos hasta la iteración del hardware.

La red logística resuelve el problema de los datos de alto costo de la robótica

La estrategia de JD.com aprovecha su negocio principal como una ventaja competitiva en la carrera armamentista de la IA. A diferencia de las empresas de software puras o las startups de robótica, la extensa cadena de suministro física de JD ofrece una vasta y continua fuente de interacciones complejas en el mundo real. Este enfoque aborda directamente los dos principales obstáculos en la adquisición de datos robóticos: la brecha "Sim-to-Real" y los costos prohibitivos. Si bien muchas startups confían en simulaciones virtuales, estos modelos a menudo no logran transferirse al mundo real porque no pueden replicar perfectamente las físicas matizadas como la fricción o la deformación de materiales flexibles.

La alternativa, la operación remota de robots para registrar acciones humanas, es efectiva pero económicamente inviable. Las estimaciones de la industria sitúan el costo de capturar y limpiar una sola tarea de interacción compleja y de alta calidad en varios cientos de dólares. Al integrar la recolección de datos en las operaciones diarias de sus mensajeros y trabajadores de almacén, JD busca eludir este cuello de botella. Este modelo, similar a cómo Tesla utiliza sus Gigafábricas para entrenar a sus robots Optimus, transforma la infraestructura operativa existente de una empresa en una línea de producción de datos propietaria, creando una barrera de entrada significativa para los competidores que carecen de dicho acceso al mundo físico.

Expertos cuestionan si 10 millones de horas pueden resolver el cuello de botella de la calidad

A pesar de la gran escala del proyecto, los expertos de la industria están escudriñando con cautela si la cantidad puede traducirse en la calidad necesaria para un avance. El desafío central en robótica no es la falta de video, sino la escasez de "pares estado-acción" que incluyen retroalimentación física precisa, como fuerza, torsión y datos táctiles. Simplemente grabar a un mensajero entregando un paquete proporciona datos visuales para el modelo mundial de un robot, pero es casi inútil para entrenar su política de control, cómo sujetar firmemente un objeto sin aplastarlo.

JD.com parece estar al tanto de este desafío, especificando que su plan incluye la recolección de "1 millón de horas de datos corporales de robot" en el primer año. Esto sugiere un enfoque híbrido, que combina videos amplios centrados en humanos para una comprensión general con datos de alta fidelidad más específicos de robots que realizan tareas. Sin embargo, persisten problemas fundamentales, incluida la falta de un estándar de datos universal. Los datos recolectados para un tipo de robot a menudo son incompatibles con otro debido a diferentes configuraciones de hardware. A medida que JD impulsa a la industria a una nueva fase de competencia de activos pesados, su éxito dependerá no solo de resolver el problema del volumen de datos, sino también de los desafíos mucho más difíciles de la calidad, estandarización y cumplimiento de los datos.