关键点:
- 包括 OpenAI 和 Google 在内的主要 AI 提供商正从仅限代币的定价转向针对搜索和运行时间等服务的多维计费。
- 企业 AI 成本现在很大程度上取决于具体任务,搜索密集型工作负载与推理密集型工作负载差异巨大。
- 这一变化给仅靠代币价格竞争的提供商带来了压力,并创造了对新型 AI 成本管理和优化工具的需求。
关键点:

随着包括 OpenAI、Google 和 Anthropic 在内的主要提供商超越简单的按代币定价,AI 经济学正在发生根本性转变。2026 年 4 月的一项行业分析显示,这些公司引入了多维计费,对搜索、运行时间和缓存等服务分别收费,从根本上改变了企业计算和规划 AI 预算的方式。
“未来将扩展到许可、IP 协议和基于结果的定价,”OpenAI 首席财务官 Sarah Friar 在 2026 年 1 月的一份声明中表示,这标志着公司正从单一的、基于使用量的 API 模型转向战略转型。
这种新的定价格局已经显现。Google 现在将“接地”(搜索增强)和上下文缓存列为单独的计费项。Anthropic 在分层缓存乘数的基础上,对会话运行时间收取每小时 0.08 美元的费用。OpenAI 的价格表则像一份资源菜单,对网络搜索、按小时计费的容器使用以及按每天每 GB 计费的文件存储分别收费。
对企业而言,结果是“每个代币的成本”这一简单指标现已过时。这种转变可能会使原始 AI 模型推理商品化,给仅在代币价格上竞争的提供商带来压力,同时为能够有效整合高级服务并对其定价的平台创造竞争优势。这种复杂性预计还将推动企业对新型 AI 成本管理和优化工具的需求。
AI 账单的主要驱动因素不再是模型本身,而是正在执行的任务性质。对于 Google Gemini 2.5 Flash-Lite 上的轻量级、高频检索任务,单次调用的代币成本可能仅为 0.0009 美元。然而,如果该调用包含超出免费额度的“接地提示词”,仅接地费用就达 0.035 美元——几乎是代币成本的 40 倍。在这种工作负载中,搜索等外部工具占据了发票的主要部分。
相反,对于使用 OpenAI GPT-5.4 等尖端模型进行的推理密集型编码会话,代币成本仍是主要因素。在 Anthropic 的 Opus 4.6 上进行一次包含 50,000 个输入代币和 15,000 个输出代币的会话成本为 0.625 美元,而相应的一小时会话运行费仅为 0.08 美元。这表明对于复杂的推理任务,模型本身仍然代表了总成本的很大一部分。公司现在必须分析其具体的用例来了解其总成本,因为通用的“AI 单位成本”已不复存在。
为了理解这种新的经济模型,行业分析师提出了一个五层结算堆栈,描绘了价值如何被创造和计费。底层是效用层,包括计算、代币、搜索和存储等可衡量的资源。其上是用于互操作性的协议层,用于提示词和技能等序列化专业知识的知识层,以及用于管理“数字劳动力”的执行层。
顶层是结果与责任层,计费直接与性能挂钩。Intercom 针对每个“已解决”的客户问题收费 0.99 美元,是这一趋势的明确信号。随着 AI 经济的成熟,价值预计将向上层迁移。虽然底层效用层会像电力一样商品化,但深度嵌入业务背景和问责机制的上层将获得基于价值的高溢价定价。值得关注的关键信号是,企业合同何时开始减少对代币价格的关注,而更多地关注服务级别协议和可验证的结果。
本文仅供参考,不构成投资建议。