Los últimos modelos de IA internos de Microsoft muestran un cambio estratégico claro, pero las pruebas del mundo real revelan una brecha de rendimiento persistente con los actores establecidos.
Microsoft ha lanzado tres modelos de inteligencia artificial propios, un movimiento visto por los observadores de la industria como un paso significativo para reducir su dependencia del socio OpenAI. Los nuevos modelos — MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 — cubren la transcripción de voz, la generación de voz y la creación de imágenes, y ahora están disponibles comercialmente a través de la plataforma Microsoft Foundry.
"Este movimiento marca el esfuerzo de Microsoft por construir su propia pila de tecnología de IA", comentó un informe mediático, reflejando la visión de que la compañía está diversificando sus capacidades de IA. La plataforma Foundry ofrece ahora la serie MAI de Microsoft junto con modelos de OpenAI y Anthropic, brindando a los clientes acceso a múltiples proveedores a través de una sola API.
Los puntos de referencia oficiales de la compañía afirman ganancias de rendimiento significativas. Se informa que MAI-Transcribe-1 es 2,5 veces más rápido que el producto Azure Fast existente, MAI-Voice-1 puede generar 60 segundos de audio en solo un segundo, y MAI-Image-2 ofrece una mejora de al menos el doble en la velocidad de generación de imágenes. El precio se ha fijado en 0,36 $ por hora para la transcripción, 22 $ por millón de caracteres para la generación de voz y comienza en 5 $ por millón de tokens para las instrucciones de texto a imagen.
Para los inversores, el lanzamiento plantea una pregunta crítica: ¿puede el desarrollo interno de Microsoft cerrar la brecha de rendimiento con los modelos líderes de socios como OpenAI y competidores como Google? Si bien el contrato de Microsoft con OpenAI se extiende hasta 2032, la viabilidad económica de su estrategia interna depende de lograr un rendimiento competitivo, un factor que determinará los retornos a largo plazo de su importante inversión en I+D.
MAI-Transcribe-1 falla en pruebas de audio de alta velocidad
En las pruebas, el modelo MAI-Transcribe-1 mostró resultados mixtos. Si bien transcribió con precisión una escena de la película Infernal Affairs a velocidad normal, falló cuando el audio se reprodujo al doble de velocidad. El modelo malinterpretó una frase sobre la "academia de policía" (警校) y "agentes encubiertos" (卧底) como si tratara de "Cambridge" (剑桥) y "contadores" (会计), alterando completamente el contexto.
La estabilidad del modelo se vio desafiada aún más con una discusión intensa y de ritmo rápido de la película Cold War, donde no pudo producir ninguna salida. Estas pruebas muestran que, si bien el modelo es competente para el habla estándar, su rendimiento disminuye con audio complejo que involucra alta velocidad o emociones fuertes, exponiendo una brecha en comparación con los líderes del mercado como Whisper de OpenAI.
Los modelos de voz e imagen muestran promesa con limitaciones
Los otros modelos demostraron tanto fortalezas como debilidades. MAI-Voice-1 produjo estilos de audio impresionantemente distintos, incluido un acento inglés shakesperiano con ritmo teatral y un acento estadounidense moderno y brillante. La salida del modelo incluyó detalles finos como el sonido de la saliva, agregando un alto grado de realismo.
MAI-Image-2, que ocupa el tercer lugar en la clasificación de usuarios de Arena.ai detrás de los modelos de Google y OpenAI, produjo representaciones de alta calidad de paisajes naturales a partir de instrucciones detalladas. Sin embargo, no pudo generar imágenes cuando se le dieron instrucciones complejas que involucraban múltiples sujetos y escenas, lo que indica una limitación en el manejo de solicitudes de usuario intrincadas. El gigante de la publicidad WPP se destaca como uno de los primeros grandes usuarios empresariales del modelo.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.