CoreWeave entrena DeepSeek-V3 en 2 minutos y establece récord en la nube de IA

CoreWeave entrenó el modelo DeepSeek-V3 de 671 mil millones de parámetros en poco más de dos minutos, un resultado que valida la estrategia de infraestructura integral del proveedor de nube nativa de IA.

CoreWeave Inc. entrenó DeepSeek-V3, un modelo de 671 mil millones de parámetros, en 2,02 minutos con 8.192 GPU NVIDIA GB300 — el resultado más rápido en el benchmark MLPerf Training v6.0 y el clúster GB300 más grande presentado en la ronda.

"Entrenar DeepSeek-V3 en dos minutos en el clúster GB300 más grande refleja años de inversión en ingeniería de extremo a extremo, desde el metal hasta el modelo", afirmó Chen Goldberg, vicepresidenta ejecutiva de producto e ingeniería de CoreWeave.

La empresa demostró escalabilidad casi lineal en tres tamaños de clúster: 2,02 minutos con 8.192 GPU, 3,09 minutos con 4.096 GPU y 5,54 minutos con 2.048 GPU. CoreWeave también entrenó Llama-3.1-405B en 9,77 minutos con 4.096 GPU GB300, utilizando un 20 % menos de GPU en comparación con despliegues GB200 equivalentes. En un clúster compacto de 64 GPU B200, entrenó GPT-OSS-20B en 26,98 minutos y Llama-3.1-8B en 16,54 minutos.

Los resultados, obtenidos en la misma infraestructura disponible para los clientes, refuerzan la posición de CoreWeave frente a los hiperescaladores en el mercado especializado de entrenamiento de IA. Las acciones de CoreWeave cotizan en Nasdaq bajo el ticker CRWV desde su salida a bolsa en marzo de 2025.

Lo que revelan los resultados de MLPerf v6.0 sobre el mercado de entrenamiento de IA

MLPerf Training v6.0, publicado el 16 de junio por MLCommons, incorporó dos nuevos benchmarks — DeepSeek V3 y GPT-OSS 20B — ambos basados en la arquitectura Mixture-of-Experts, que activa solo una fracción de los parámetros totales de un modelo por token. DeepSeek V3 utiliza 671 mil millones de parámetros totales con 37 mil millones activados por token, lo que lo convierte en el benchmark más grande en la historia del conjunto. GPT-OSS 20B, con 21 mil millones de parámetros totales y 3,6 mil millones activados, fue diseñado como un punto de entrada para organizaciones con configuraciones de hardware más reducidas.

La ronda contó con 24 organizaciones participantes en 95 sistemas únicos, utilizando 13 aceleradores de hardware diferentes y 19 procesadores host. Las presentaciones de sistemas en la nube se duplicaron con creces en comparación con la versión 5.1 de hace seis meses, lo que refleja el creciente mercado del entrenamiento de IA alojado. El 60 % de los sistemas presentados eran multimodo.

"La brecha entre el rendimiento en benchmarks y la realidad de producción sigue siendo uno de los desafíos más persistentes en la infraestructura de IA", afirmó Brendan Burke, director de investigación de Futurum Research. "Los resultados de CoreWeave en MLPerf Training v6.0, en particular entrenar DeepSeek-V3 en dos minutos en el clúster GB300 más grande del benchmark, demuestran que la experiencia integral en IA potencia las ganancias de rendimiento en el mundo real a medida que llega nuevo hardware".

Cómo la pila de infraestructura de CoreWeave impulsó los resultados

CoreWeave atribuyó su rendimiento a optimizaciones en cada capa de su plataforma. CoreWeave Mission Control realiza comprobaciones de estado continuas en sistemas a escala de rack, validando condiciones de hardware, firmware, red y térmicas antes y durante trabajos de entrenamiento a gran escala para reducir cuellos de botella. El planificador SUNK de la empresa es consciente de la topología, y co-ubica grupos paralelos de expertos dentro del mismo dominio NVL72 para minimizar la comunicación entre racks en cargas de trabajo MoE. Una estrategia de red rail-aware equilibra el tráfico en la fibra para evitar puntos calientes a escala de miles de GPU.

Las ejecuciones utilizaron NVIDIA NeMo Framework Release 26.04 con gráficos CUDA y fragmentación paralela de tensores, pipeline y contexto adaptada a la topología GB300 NVL72, además de NVIDIA Spectrum-X Ethernet con RoCE para la fibra de escalado.

CoreWeave fue el único participante en escalar una plataforma GB300 más allá de 2.048 GPU en DeepSeek-V3. La empresa es también la única nube de IA en obtener la clasificación Platino más alta tanto en SemiAnalysis ClusterMAX 1.0 como en 2.0.

Lo que esto significa para el panorama competitivo de la nube de IA

Los resultados de CoreWeave en los benchmarks llegan en un momento en que la demanda de infraestructura de entrenamiento de IA se acelera. Sharon AI (SHAZ) subió aproximadamente un 25 % el viernes tras anunciar una colaboración estratégica de cómputo por seis años con NVIDIA que podría incluir hasta 40.000 GPU GB300 en 72 megavatios de nueva capacidad de centro de datos en Australia. El acuerdo expande la huella total de la fábrica de IA de Sharon AI a 132 megavatios.

Para CoreWeave, los resultados de MLPerf proporcionan una validación independiente de su plataforma en un momento en que las empresas están evaluando proveedores de nube para cargas de trabajo de IA a gran escala. La capacidad de la empresa para ofrecer escalabilidad casi lineal en los modelos MoE más exigentes — utilizando la misma infraestructura que ofrece a sus clientes — crea un diferenciador medible frente a Amazon Web Services, Microsoft Azure y Google Cloud, que también presentaron resultados en la ronda v6.0.

La acción de CoreWeave, que salió a bolsa en marzo de 2025, ha sido un indicador de la expansión de la infraestructura de IA. Los resultados de MLPerf ofrecen a los inversores un benchmark concreto para evaluar si el enfoque integral de la empresa se traduce en una ventaja competitiva sostenible a medida que el mercado de entrenamiento de IA se orienta hacia arquitecturas de cómputo disperso.

Este artículo es solo con fines informativos y no constituye asesoramiento de inversión.