在企业级 AI 军备竞赛中,极速响应已成为无法容忍延迟的应用场景的关键竞争优势。
在企业级 AI 军备竞赛中,极速响应已成为无法容忍延迟的应用场景的关键竞争优势。

智谱 AI 正在升级企业级人工智能的速度竞赛,为其 GLM-5.1 模型推出了全新的 API,处理速度达到每秒 400 tokens,创下了商用大语言模型 API 的新高。此举向老牌企业发起了挑战,并凸显了市场日益关注推理性能,将其视为企业采用 AI 的关键因素。
该集团在一份声明中表示:“GLM-5.1 高速版专为对响应延迟要求极高的场景而设计,例如 AI 编程、实时交互以及业务决策。”
GLM-5.1-highspeed API 最初仅向智谱 MaaS 平台上的部分企业客户开放。每秒 400 tokens 的输出速度正对着低延迟的企业用例——如实时语音应用和自动化业务逻辑,这些领域此前难以通过速度较慢、侧重对话的模型来满足需求。
这一举措通过为基于 API 的推理建立新的性能标杆,给全球竞争对手带来了压力。随着 Kore.ai 和 Cerebras 等公司也在挑战速度和效率的极限,行业重心正从单纯的模型能力转向生产级性能,这将影响到数以十亿美元计的企业 IT 基础设施 AI 支出。
智谱的声明并非孤立事件。整个 AI 行业正陷入一场降低延迟的激战。虽然智谱的每秒 400 tokens 刷新了商用 API 的记录,但其他公司通过专用配置发布了更快的速度。芯片初创公司 Cerebras 最近宣布,其平台运行万亿参数模型 Kimi K2.6 的速度达到每秒 981 tokens,比基于 GPU 的云快了近 7 倍。然而,这依赖于 Cerebras 独特的晶圆级引擎,这是一种通过通用 API 无法获得的专用硬件架构。
竞争范围超出了单纯的硬件性能。企业 AI 平台提供商 Kore.ai 最近推出了 Artemis 平台,旨在让企业能够构建和管理 AI 智能体。此次发布强调了虽然速度至关重要,但在金融和医疗等受监管行业,治理、安全和供应商中立性对于落地同样重要。这让智谱的速度基准置于更广泛的背景下,与微软、谷歌和 Salesforce 等巨头的生态系统展开竞争。
对更快 token 生成速度的追求源于明确的商业需求。要让 AI 成为核心业务流程不可或缺的一部分,它必须实现实时运行。实时语音转录、金融交易员的交互式数据分析或动态电子商务推荐等用例,都需要近乎即时的响应,而许多当前模型无法提供这种响应。智谱直接瞄准了这一细分市场,在这些市场中,几百毫秒的延迟就可能导致产品失去生命力。
对于投资者而言,这一趋势标志着 AI 市场的成熟。虽然模型规模和基准测试得分在历史上一直占据头条,但快速且具有成本效益地服务这些模型才是获取价值所在。智谱的产品可能会降低企业部署更复杂 AI 的门槛,潜在地从速度较慢的在位者手中夺取市场份额。智谱、Kore.ai 等平台的成功将取决于它们是否不仅能提供快速的模型,还能提供完整、可靠且安全的企级解决方案。
本文仅供参考,不构成投资建议。