企业AI支出正进入成本管控阶段,这将对高端模型供应商构成威胁,同时为包括中国开源模型在内的更廉价替代方案打开大门。
企业AI支出正进入成本管控阶段,这将对高端模型供应商构成威胁,同时为包括中国开源模型在内的更廉价替代方案打开大门。

瑞银(UBS)发现,约60%的企业已对AI支出实施管控。由于AI代理和编码工具带来的Token消耗将成本推至CFO级别的审视范围,企业被迫转向包括中国开源模型在内的更廉价模型。
Databricks首席执行官阿里·戈西(Ali Ghodsi)在描述这一重新调整时表示:"这是一个重大的减速带,而不是一个小问题。"
不同级别模型之间的价格差距十分悬殊:Anthropic的Haiku 4.5每百万输出Token收费5美元,而其顶级模型Fable/Mythos 5收费50美元——两者相差十倍,这使得模型路由在经济上极具吸引力。报告指出,一家公司的一名用户在AWS Bedrock上每月AI成本高达3.5万美元。另一家公司在烧完Token预算后,将内部AI工具从五个削减到两个。
这一转变对Anthropic和OpenAI等高端AI供应商的收入增长构成威胁,同时为更廉价的替代方案创造了机遇。中国开源模型——阿里巴巴的Qwen、DeepSeek、MiniMax以及智谱的GLM——正进入企业采购清单。报告称,一家全球大型银行已本地部署Qwen,以平衡其使用Anthropic的Claude。
模型路由重塑成本曲线
最具影响力的技术应对方案是模型路由——将简单任务分配给廉价模型,将昂贵模型留给复杂推理任务。Palantir Technologies大约在一个月前通过AIP Evolve将该方案商业化,在一家客户案例中将Token成本削减了97%。报告称,该产品在发布后三周内实现了90%的采纳率。
微软发布MAI"思考"模型——一个350亿参数的参数量系统——同样瞄准了这一中间地带:其推理能力足够强大,但成本低于前沿模型。这一策略反映出整个行业正朝着"足够好"且价格更低的AI方向推进。
成本压力正加速中国开源模型的采用。AWS Bedrock现已在其模型目录中列出MiniMax、月之暗面的Kimi、Qwen、DeepSeek和GLM。微软通过Azure AI Foundry提供DeepSeek。尽管这些模型通常免费或成本极低,限制了开发者的直接收入,但它们创造了合作关系机会——宝马和阿里巴巴最近围绕Qwen在汽车应用领域展开合作。本地部署开源模型还可避免使用外部托管中国AI的监管风险,使其适用于银行等受监管行业。
云平台和软件提供商面临不均等的压力
云平台在这一支出转变中相对免疫。AWS、Azure和Google Cloud运营着多模型市场,因此客户从高端模型转向廉价模型可能会减少API收入增长,但仍会消耗算力。瑞银分析师写道:"企业管理成本越多,他们就越有可能将模型选择、部署和计费集中到单一云平台上。"
硬件需求也保持坚挺。英伟达的GB200和GB300芯片刚刚开始批量出货,多模态工作负载——音频、视频、物理AI——也在持续扩大算力边界。对投资者而言,问题在于模型公司的价格压缩最终是否会限制云GPU的定价能力。
最大的SaaS平台面临最复杂的处境。Salesforce、ServiceNow和Workday正推动从按席位定价向按用量定价转变,而恰逢客户对成本变得敏感。这一时机错位可能拖慢它们的AI变现进程。然而,软件公司也拥有作为AI成本优化器的机会。Palantir的AIP Evolve是最明显的例子,但任何能够充当模型无关路由层的平台都拥有结构性优势。
瑞银Evidence Lab调查了约130家公司,发现只有8%的企业已在生产中规模化部署AI代理。另有37%的企业在有限生产中使用AI代理,29%在试点阶段,26%仅使用Copilot或编码工具,尚未部署AI代理。自主AI代理带来的Token消耗大头尚未到来。AI法律助手Harvey的Token消耗量从1月份的1万亿增长到了5月份的12万亿至13万亿——这证明优化与扩张可以共存。
当前的支出管控与2022至2024年疫情后的云预算收缩有着根本不同。当时是对成熟使用量的削减。而这是技术早期扩散阶段的成本治理。其结果并非AI需求消失,而是赢家的重新排序:高端模型提供商的收入增长放缓,成本优化平台受益,云平台承接多模型工作负载,中国开源模型在全球企业基础设施中获得立足之地。
本文仅供参考,不构成投资建议。