UBS descubre que el 60% de las empresas ya controlan el gasto en IA ante el aumento de los costos de tokens

Aproximadamente el 60% de las empresas han impuesto controles al gasto en IA, según UBS, ya que el consumo de tokens por parte de agentes y herramientas de codificación eleva los costos al nivel de escrutinio de los directores financieros y obliga a un cambio hacia modelos más baratos, incluidas las alternativas chinas de código abierto.

"Este es un gran obstáculo, no uno pequeño", dijo Ali Ghodsi, director ejecutivo de Databricks, al describir este reajuste.

La brecha de precios entre los diferentes niveles es considerable: Haiku 4.5 de Anthropic cobra 5 dólares por millón de tokens de salida, mientras que su modelo superior Fable/Mythos 5 cuesta 50 dólares, un diferencial de diez veces que hace que el enrutamiento de modelos sea económicamente viable. Según el informe, una empresa vio a un solo usuario acumular 35.000 dólares en costos mensuales de IA en AWS Bedrock. Otra redujo sus herramientas internas de IA de cinco a dos después de agotar su presupuesto de tokens.

Este cambio amenaza el crecimiento de los ingresos de los proveedores premium de IA, como Anthropic y OpenAI, al tiempo que crea oportunidades para alternativas más baratas. Los modelos chinos de código abierto —Qwen de Alibaba, DeepSeek, MiniMax y GLM de Zhipu— están entrando en las listas de adquisiciones empresariales. Según el informe, un importante banco global ha implementado Qwen de forma local para equilibrar su uso de Claude de Anthropic.

El enrutamiento de modelos redefine la curva de costos

La respuesta técnica más trascendental es el enrutamiento de modelos: asignar tareas simples a modelos baratos y reservar los costosos para razonamiento complejo. Palantir Technologies comercializó este enfoque hace aproximadamente un mes con AIP Evolve, que en un caso redujo los costos de tokens de un cliente en un 97%. El producto logró una adopción del 90% en tres semanas desde su lanzamiento, según el informe.

El lanzamiento por parte de Microsoft de su modelo MAI "Thinking", un sistema de 35 mil millones de parámetros, también apunta a este término medio: lo suficientemente potente para tareas de razonamiento, pero más barato que los modelos de frontera. La estrategia refleja un impulso más amplio de la industria hacia una IA "suficientemente buena" a precios más bajos.

La presión sobre los costos está acelerando la adopción de modelos chinos de código abierto. AWS Bedrock ahora incluye MiniMax, Kimi de Moonshot, Qwen, DeepSeek y GLM en su catálogo de modelos. Microsoft ofrece DeepSeek a través de Azure AI Foundry. Si bien estos modelos suelen ser gratuitos o de bajo costo, lo que limita los ingresos directos para sus desarrolladores, crean oportunidades de asociación: BMW y Alibaba colaboraron recientemente en torno a Qwen para aplicaciones automotrices. La implementación local de modelos de código abierto también evita los riesgos regulatorios de utilizar IA china alojada externamente, lo que los hace viables para industrias reguladas como la banca.

Proveedores de nube y software enfrentan presiones desiguales

Las plataformas en la nube están relativamente aisladas del cambio en el gasto. AWS, Azure y Google Cloud operan mercados multimodelo, por lo que los clientes que pasan de modelos premium a más baratos pueden reducir el crecimiento de los ingresos por API, pero aún consumen capacidad de cómputo. "Cuanto más gestionan las empresas sus costos, más probable es que centralicen la selección, implementación y facturación de modelos en una única plataforma en la nube", escribieron los analistas de UBS.

La demanda de hardware también se mantiene intacta. Los chips GB200 y GB300 de Nvidia apenas comienzan sus envíos en volumen, y las cargas de trabajo multimodales (audio, video, IA física) continúan expandiendo el perímetro de cómputo. La pregunta para los inversores es si la compresión de precios de las empresas de modelos eventualmente limitará el poder de fijación de precios de las GPU en la nube.

Las plataformas SaaS más grandes enfrentan la posición más compleja. Salesforce, ServiceNow y Workday están impulsando la transición de precios por usuario a precios basados en consumo justo cuando los clientes se vuelven sensibles a los costos. Este desfase temporal podría ralentizar sus esfuerzos de monetización de IA. Sin embargo, las empresas de software también tienen una oportunidad como optimizadoras de costos de IA. AIP Evolve de Palantir es el ejemplo más claro, pero la ventaja estructural pertenece a cualquier plataforma que pueda actuar como una capa de enrutamiento independiente del modelo.

UBS Evidence Lab encuestó a unas 130 empresas y encontró que solo el 8% ha implementado agentes de IA en producción a escala. Otro 37% los utiliza en producción limitada, el 29% está realizando pruebas piloto y el 26% utiliza solo Copilot o herramientas de codificación sin implementación de agentes. El grueso del consumo de tokens por parte de agentes autónomos aún no ha comenzado. Harvey, un asistente legal de IA, vio su consumo de tokens crecer de 1 billón en enero a entre 12 y 13 billones en mayo, una señal de que la optimización y la expansión pueden coexistir.

Los controles de gasto difieren fundamentalmente del recorte presupuestario en la nube posterior a la pandemia de 2022 a 2024. Aquello era un recorte de uso maduro. Esto es una gobernanza de costos durante una etapa temprana de difusión tecnológica. El resultado no es una desaparición de la demanda de IA, sino una reordenación de los ganadores: los proveedores de modelos premium enfrentan un crecimiento de ingresos más lento, las plataformas de optimización de costos se benefician, los proveedores de nube recogen cargas de trabajo multimodelo y los modelos chinos de código abierto ganan terreno en la infraestructura empresarial global.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.