La empresa china de IA DeepSeek ha lanzado una actualización importante de su base de código DeepGEMM, introduciendo una nueva arquitectura llamada "Mega MoE" diseñada para reducir los altos costos computacionales asociados con los modelos de Mezcla de Expertos (MoE). La actualización tiene como objetivo resolver un problema crítico de eficiencia en la IA al fusionar múltiples pasos complejos en una sola operación de GPU, lo que potencialmente le da a DeepSeek una ventaja de costos significativa en el entrenamiento y despliegue de sus modelos a gran escala.
"DeepGEMM es una biblioteca de núcleos Tensor Core unificada de alto rendimiento, que integra primitivas computacionales clave para los modelos de lenguaje grandes modernos", escribió el equipo de infraestructura de DeepSeek en la descripción del proyecto. La biblioteca ahora incluye "MoE fusionado con superposición de comunicación (Mega MoE)" como un componente central, lo que indica un enfoque estratégico en la eficiencia extrema.
Los modelos MoE tradicionales, aunque potentes, son notoriamente ineficientes. Procesan la información enrutando diferentes "tokens" de datos a subredes "expertas" especializadas, pero esto implica una secuencia fragmentada de operaciones separadas en la GPU: despacho de tokens, dos transformaciones lineales, una función de activación y la combinación de los resultados. Mega MoE reemplaza todo este flujo de trabajo desarticulado con un único "mega-núcleo" unificado que ejecuta todo el proceso a la vez. Fundamentalmente, también permite que la comunicación de datos entre las GPU ocurra al mismo tiempo que el cálculo, eliminando el tiempo de inactividad que afecta a las configuraciones multi-GPU actuales.
Este impulso por la eficiencia es fundamental en una industria dominada por los gastos de capital masivos requeridos para el entrenamiento de IA. Al reducir potencialmente el costo de ejecutar modelos MoE, que son utilizados por laboratorios de primer nivel como Google y Mistral AI, DeepSeek podría obtener una ventaja competitiva. La actualización también insinúa la estrategia de hardware de la empresa, con analistas que sugieren que las técnicas avanzadas están optimizadas para los últimos aceleradores de IA de la serie B de Nvidia, lo que contradice los rumores de que la empresa dependía únicamente del hardware doméstico.
Fusionando núcleos para conquistar la ineficiencia
La innovación central de Mega MoE es su alejamiento de la ejecución convencional paso a paso de las capas MoE. Mientras que los métodos anteriores requerían el lanzamiento de múltiples núcleos (pequeños programas que se ejecutan en la GPU) para cada etapa del proceso, Mega MoE los consolida. Piense en ello como transformar una línea de montaje lenta de múltiples estaciones en una sola cinta transportadora que funciona continuamente.
Este enfoque "fusionado" aborda directamente el problema de la infrautilización de la GPU. En el entrenamiento estándar de MoE en múltiples GPU, se pierde una cantidad significativa de tiempo mientras los procesadores esperan a que los datos se transfieran entre ellos. Al diseñar el núcleo para superponer esta comunicación de datos con el cálculo activo en los Tensor Cores, DeepSeek garantiza que el costoso hardware realice un trabajo útil durante un porcentaje de tiempo mucho mayor. El resultado es un aumento directo en el rendimiento, especialmente en las grandes configuraciones de múltiples nodos requeridas para entrenar modelos de vanguardia.
Superando límites con FP4 y hardware futuro
Más allá del núcleo fusionado, la actualización de DeepSeek revela un impulso agresivo hacia los límites del ahorro computacional. El equipo está experimentando con formatos de datos de menor precisión, incluido un indexador FP4 para logits de MQA. El uso de números de punto flotante de 4 bits, por debajo de los formatos de 8 o 16 bits más comunes, puede reducir drásticamente el uso de memoria y aumentar la velocidad de cálculo, aunque requiere una ingeniería sofisticada para mantener la precisión del modelo.
Este enfoque en técnicas de optimización de vanguardia ha alimentado las especulaciones sobre el hardware subyacente de DeepSeek. Según el análisis del usuario de X St4r, los métodos específicos que se están implementando en Mega MoE son más adecuados para los aceleradores de IA más avanzados de Nvidia, probablemente la arquitectura Blackwell. Esto sugiere que, a pesar de las tensiones comerciales geopolíticas, DeepSeek continúa utilizando chips de primer nivel del líder del mercado, un factor clave para los inversores que siguen el panorama competitivo frente a otros actores importantes como OpenAI, Anthropic y sus proveedores de hardware como AMD e Intel. Si bien DeepSeek señaló que el proyecto aún está en desarrollo y los datos de rendimiento están por llegar, la medida señala una dirección estratégica clara: hacer que la IA de vanguardia sea más viable económicamente.
Para los inversores, el enfoque de DeepSeek en la optimización de la infraestructura es un diferenciador clave. En un mercado donde la principal barrera de entrada es el inmenso costo del entrenamiento y la inferencia, cualquier empresa que pueda reducir fundamentalmente esa curva de costos gana una poderosa ventaja competitiva. Esta actualización presiona a otros laboratorios de IA y proveedores de la nube para que igualen este nivel de eficiencia. El éxito de Mega MoE no solo podría mejorar la economía unitaria de los propios modelos de DeepSeek, sino también influir en el diseño del software y hardware de IA de próxima generación en toda la industria.
Este artículo tiene únicamente fines informativos y no constituye asesoramiento de inversión.