Los 744 mil millones de parámetros de GLM-5 priorizan la ingeniería sobre los puntos de referencia
La firma china de IA Zhipu ha detallado su modelo GLM-5 de 744 mil millones de parámetros, marcando una evolución significativa de la búsqueda de métricas de clasificación a la consecución de una "inteligencia de grado de ingeniería". El modelo fue entrenado con 28,5 billones de tokens y se centra en ejecutar de forma autónoma tareas complejas de ingeniería de software de varios pasos. Este enfoque, que Zhipu denomina "Ingeniería Agente", permite al modelo planificar, escribir y depurar de forma independiente sistemas completos a partir de un objetivo de alto nivel. En pruebas como el punto de referencia Vending-Bench 2, que simula la gestión de un negocio durante un año, GLM-5 ocupó el primer lugar entre los modelos de código abierto, demostrando su capacidad para la toma de decisiones estratégicas a largo plazo.
La innovación de atención dispersa reduce la carga computacional hasta 2 veces
En el centro de la eficiencia de GLM-5 se encuentra un nuevo mecanismo de atención dispersa DeepSeek (DSA). A diferencia de los sistemas de atención tradicionales, donde la complejidad computacional crece cuadráticamente con la longitud de entrada, DSA identifica y procesa dinámicamente solo los tokens de datos más críticos. Esta innovación reduce la carga de trabajo de computación de atención entre 1,5 y 2 veces dentro de su ventana de contexto de 200.000 tokens. Crucialmente, Zhipu logró esta eficiencia sin la degradación de rendimiento típica asociada con otros métodos de atención dispersa. El resultado es una arquitectura de modelo que puede manejar contextos más grandes y ofrecer un mayor rendimiento en el mismo hardware, una ventaja crítica para desarrollar IA rentable en un entorno con recursos computacionales limitados.
El soporte nativo para GPU chinas reduce los costos de implementación en un 50%
El aspecto más estratégicamente significativo de GLM-5 es su optimización nativa a nivel de sistema para GPU domésticas chinas. El modelo está completamente adaptado para hardware de Huawei Ascend, Moore Threads, Hygon, Cambricon y otros. Esto va más allá de la simple compatibilidad, implicando una reestructuración completa de la pila, desde la programación de la caché KV hasta las estrategias de procesamiento paralelo distribuido. Este codiseño de software y hardware es altamente efectivo, permitiendo que un único nodo de computación nacional iguale el rendimiento de un clúster que utiliza dos GPU internacionales principales. Para el procesamiento de secuencias de datos largas, esta optimización profunda reduce los costos de implementación en un sustancial 50%, desafiando directamente el dominio del mercado de los proveedores de hardware extranjeros y acelerando el camino de China hacia un ecosistema de IA totalmente independiente.