La nueva API de Zhipu AI alcanza los 400 tokens por segundo en la carrera de velocidad

Zhipu AI está intensificando la carrera de velocidad en la inteligencia artificial empresarial con el lanzamiento de una nueva API para su modelo GLM-5.1 que alcanza los 400 tokens por segundo, un nuevo hito para las API comerciales de modelos de lenguaje grandes. El movimiento desafía a los actores establecidos y destaca el creciente enfoque del mercado en el rendimiento de inferencia como un factor clave para la adopción empresarial.

"La versión de alta velocidad GLM-5.1 está diseñada para escenarios con requisitos extremadamente altos de latencia de respuesta, como programación con IA, interacción en tiempo real y toma de decisiones comerciales", anunció la compañía en un comunicado.

La API GLM-5.1-highspeed está disponible inicialmente para clientes empresariales seleccionados en la plataforma Maas de Zhipu. La velocidad de salida de 400 tokens/segundo está dirigida directamente a casos de uso empresarial de baja latencia, como aplicaciones de voz en tiempo real y lógica de negocios automatizada, que han sido difíciles de atender con modelos más lentos y conversacionales.

Esta medida presiona a los competidores globales al establecer un nuevo punto de referencia de rendimiento para la inferencia basada en API. A medida que empresas como Kore.ai y Cerebras también superan los límites de velocidad y eficiencia, el enfoque cambia de la capacidad pura del modelo al rendimiento de grado de producción, lo que afecta a miles de millones en gasto de TI empresarial en infraestructura de IA.

Un campo concurrido lucha por milisegundos

El anuncio de Zhipu no ocurre en el vacío. Toda la industria de la IA se encuentra en una feroz batalla por reducir la latencia. Si bien los 400 tokens/segundo de Zhipu establecen un récord para una API comercial, otras compañías están registrando velocidades aún mayores con configuraciones especializadas. La startup de chips Cerebras anunció recientemente que su plataforma ejecuta el modelo Kimi K2.6 de un billón de parámetros a 981 tokens por segundo, casi siete veces más rápido que las nubes basadas en GPU. Sin embargo, esto depende del exclusivo motor de escala de oblea (wafer-scale engine) de Cerebras, una arquitectura de hardware especializada no accesible a través de una API general.

La competencia se extiende más allá del puro rendimiento del hardware. El proveedor de plataformas de IA empresarial Kore.ai lanzó recientemente su plataforma Artemis, diseñada para que las empresas construyan y gobiernen agentes de IA. El lanzamiento subraya que, si bien la velocidad es crítica, factores como la gobernanza, la seguridad y la neutralidad del proveedor son igualmente importantes para la adopción en industrias reguladas como las finanzas y la salud. Esto sitúa el punto de referencia de velocidad de Zhipu en un contexto más amplio, compitiendo con los ecosistemas de gigantes como Microsoft, Google y Salesforce.

De la potencia bruta a estar listo para la empresa

La búsqueda de una generación de tokens más rápida está impulsada por una clara necesidad comercial. Para que la IA se integre en los procesos comerciales centrales, debe operar en tiempo real. Los casos de uso como la transcripción de voz en tiempo real, el análisis de datos interactivo para operadores financieros o las recomendaciones dinámicas de comercio electrónico requieren respuestas casi instantáneas que muchos modelos actuales no pueden proporcionar. Zhipu se dirige directamente a este segmento de mercado, donde unos pocos cientos de milisegundos de latencia pueden hacer que un producto no sea viable.

Para los inversores, esta tendencia señala una maduración del mercado de la IA. Si bien el tamaño del modelo y las puntuaciones de referencia históricamente han acaparado los titulares, la capacidad de servir estos modelos de manera rápida y rentable es donde se captura el valor. La oferta de Zhipu podría reducir la barrera para que las empresas implementen una IA más sofisticada, capturando potencialmente cuota de mercado de los operadores tradicionales más lentos. El éxito de las plataformas de Zhipu, Kore.ai y otros dependerá de su capacidad para ofrecer no solo un modelo rápido, sino una solución empresarial completa, fiable y segura.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.