瑞银调查：60%企业已设限AI支出，Token成本飙升加速转向低成本模型

瑞银（UBS）发现，约60%的企业已对AI支出实施管控。由于AI代理和编码工具带来的Token消耗将成本推至CFO级别的审视范围，企业被迫转向包括中国开源模型在内的更廉价模型。

Databricks首席执行官阿里·戈西（Ali Ghodsi）在描述这一重新调整时表示："这是一个重大的减速带，而不是一个小问题。"

不同级别模型之间的价格差距十分悬殊：Anthropic的Haiku 4.5每百万输出Token收费5美元，而其顶级模型Fable/Mythos 5收费50美元——两者相差十倍，这使得模型路由在经济上极具吸引力。报告指出，一家公司的一名用户在AWS Bedrock上每月AI成本高达3.5万美元。另一家公司在烧完Token预算后，将内部AI工具从五个削减到两个。

这一转变对Anthropic和OpenAI等高端AI供应商的收入增长构成威胁，同时为更廉价的替代方案创造了机遇。中国开源模型——阿里巴巴的Qwen、DeepSeek、MiniMax以及智谱的GLM——正进入企业采购清单。报告称，一家全球大型银行已本地部署Qwen，以平衡其使用Anthropic的Claude。

模型路由重塑成本曲线

最具影响力的技术应对方案是模型路由——将简单任务分配给廉价模型，将昂贵模型留给复杂推理任务。Palantir Technologies大约在一个月前通过AIP Evolve将该方案商业化，在一家客户案例中将Token成本削减了97%。报告称，该产品在发布后三周内实现了90%的采纳率。

微软发布MAI"思考"模型——一个350亿参数的参数量系统——同样瞄准了这一中间地带：其推理能力足够强大，但成本低于前沿模型。这一策略反映出整个行业正朝着"足够好"且价格更低的AI方向推进。

成本压力正加速中国开源模型的采用。AWS Bedrock现已在其模型目录中列出MiniMax、月之暗面的Kimi、Qwen、DeepSeek和GLM。微软通过Azure AI Foundry提供DeepSeek。尽管这些模型通常免费或成本极低，限制了开发者的直接收入，但它们创造了合作关系机会——宝马和阿里巴巴最近围绕Qwen在汽车应用领域展开合作。本地部署开源模型还可避免使用外部托管中国AI的监管风险，使其适用于银行等受监管行业。

云平台和软件提供商面临不均等的压力

云平台在这一支出转变中相对免疫。AWS、Azure和Google Cloud运营着多模型市场，因此客户从高端模型转向廉价模型可能会减少API收入增长，但仍会消耗算力。瑞银分析师写道："企业管理成本越多，他们就越有可能将模型选择、部署和计费集中到单一云平台上。"

硬件需求也保持坚挺。英伟达的GB200和GB300芯片刚刚开始批量出货，多模态工作负载——音频、视频、物理AI——也在持续扩大算力边界。对投资者而言，问题在于模型公司的价格压缩最终是否会限制云GPU的定价能力。

最大的SaaS平台面临最复杂的处境。Salesforce、ServiceNow和Workday正推动从按席位定价向按用量定价转变，而恰逢客户对成本变得敏感。这一时机错位可能拖慢它们的AI变现进程。然而，软件公司也拥有作为AI成本优化器的机会。Palantir的AIP Evolve是最明显的例子，但任何能够充当模型无关路由层的平台都拥有结构性优势。

瑞银Evidence Lab调查了约130家公司，发现只有8%的企业已在生产中规模化部署AI代理。另有37%的企业在有限生产中使用AI代理，29%在试点阶段，26%仅使用Copilot或编码工具，尚未部署AI代理。自主AI代理带来的Token消耗大头尚未到来。AI法律助手Harvey的Token消耗量从1月份的1万亿增长到了5月份的12万亿至13万亿——这证明优化与扩张可以共存。

当前的支出管控与2022至2024年疫情后的云预算收缩有着根本不同。当时是对成熟使用量的削减。而这是技术早期扩散阶段的成本治理。其结果并非AI需求消失，而是赢家的重新排序：高端模型提供商的收入增长放缓，成本优化平台受益，云平台承接多模型工作负载，中国开源模型在全球企业基础设施中获得立足之地。

本文仅供参考，不构成投资建议。