智谱 AI 新 API 速度达每秒 400 tokens，领跑 AI 性能竞赛

智谱 AI 正在升级企业级人工智能的速度竞赛，为其 GLM-5.1 模型推出了全新的 API，处理速度达到每秒 400 tokens，创下了商用大语言模型 API 的新高。此举向老牌企业发起了挑战，并凸显了市场日益关注推理性能，将其视为企业采用 AI 的关键因素。

该集团在一份声明中表示：“GLM-5.1 高速版专为对响应延迟要求极高的场景而设计，例如 AI 编程、实时交互以及业务决策。”

GLM-5.1-highspeed API 最初仅向智谱 MaaS 平台上的部分企业客户开放。每秒 400 tokens 的输出速度正对着低延迟的企业用例——如实时语音应用和自动化业务逻辑，这些领域此前难以通过速度较慢、侧重对话的模型来满足需求。

这一举措通过为基于 API 的推理建立新的性能标杆，给全球竞争对手带来了压力。随着 Kore.ai 和 Cerebras 等公司也在挑战速度和效率的极限，行业重心正从单纯的模型能力转向生产级性能，这将影响到数以十亿美元计的企业 IT 基础设施 AI 支出。

毫秒必争：拥挤的赛道

智谱的声明并非孤立事件。整个 AI 行业正陷入一场降低延迟的激战。虽然智谱的每秒 400 tokens 刷新了商用 API 的记录，但其他公司通过专用配置发布了更快的速度。芯片初创公司 Cerebras 最近宣布，其平台运行万亿参数模型 Kimi K2.6 的速度达到每秒 981 tokens，比基于 GPU 的云快了近 7 倍。然而，这依赖于 Cerebras 独特的晶圆级引擎，这是一种通过通用 API 无法获得的专用硬件架构。

竞争范围超出了单纯的硬件性能。企业 AI 平台提供商 Kore.ai 最近推出了 Artemis 平台，旨在让企业能够构建和管理 AI 智能体。此次发布强调了虽然速度至关重要，但在金融和医疗等受监管行业，治理、安全和供应商中立性对于落地同样重要。这让智谱的速度基准置于更广泛的背景下，与微软、谷歌和 Salesforce 等巨头的生态系统展开竞争。

从原始算力迈向企业级应用

对更快 token 生成速度的追求源于明确的商业需求。要让 AI 成为核心业务流程不可或缺的一部分，它必须实现实时运行。实时语音转录、金融交易员的交互式数据分析或动态电子商务推荐等用例，都需要近乎即时的响应，而许多当前模型无法提供这种响应。智谱直接瞄准了这一细分市场，在这些市场中，几百毫秒的延迟就可能导致产品失去生命力。

对于投资者而言，这一趋势标志着 AI 市场的成熟。虽然模型规模和基准测试得分在历史上一直占据头条，但快速且具有成本效益地服务这些模型才是获取价值所在。智谱的产品可能会降低企业部署更复杂 AI 的门槛，潜在地从速度较慢的在位者手中夺取市场份额。智谱、Kore.ai 等平台的成功将取决于它们是否不仅能提供快速的模型，还能提供完整、可靠且安全的企级解决方案。

本文仅供参考，不构成投资建议。