智譜 AI 新 API 速度達每秒 400 tokens，領跑 AI 性能競賽

智譜 AI 正在升級企業級人工智能的速度競賽，為其 GLM-5.1 模型推出了全新的 API，處理速度達到每秒 400 tokens，創下了商用大語言模型 API 的新高。此舉向老牌企業發起了挑戰，並凸顯了市場日益關注推理性能，將其視為企業採用 AI 的關鍵因素。

該集團在一份聲明中表示：「GLM-5.1 高速版專為對響應延遲要求極高的場景而設計，例如 AI 編程、實時交互以及業務決策。」

GLM-5.1-highspeed API 最初僅向智譜 MaaS 平台上的部分企業客戶開放。每秒 400 tokens 的輸出速度正對著低延遲的企業用例——如實時語音應用和自動化業務邏輯，這些領域此前難以通過速度較慢、側重對話的模型來滿足需求。

這一舉措通過為基於 API 的推理建立新的性能標桿，給全球競爭對手帶來了壓力。隨著 Kore.ai 和 Cerebras 等公司也在挑戰速度和效率的極限，行業重心正從單純的模型能力轉向生產級性能，這將影響到數以十億美元計的企業 IT 基礎設施 AI 支出。

毫秒必爭：擁擠的賽道

智譜的聲明並非孤立事件。整個 AI 行業正陷入一場降低延遲的激戰。雖然智譜的每秒 400 tokens 刷新了商用 API 的記錄，但其他公司通過專用配置發布了更快的速度。芯片初創公司 Cerebras 最近宣布，其平台運行萬億參數模型 Kimi K2.6 的速度達到每秒 981 tokens，比基於 GPU 的雲快了近 7 倍。然而，這依賴於 Cerebras 獨特的晶圓級引擎，這是一種通過通用 API 無法獲得的專用硬件架構。

競爭範圍超出了單純的硬件性能。企業 AI 平台提供商 Kore.ai 最近推出了 Artemis 平台，旨在讓企業能夠構建和管理 AI 智能體。此次發布強調了雖然速度至關重要，但在金融和醫療等受監管行業，治理、安全和供應商中立性對於落地同樣重要。這讓智譜的速度基準置於更廣泛的背景下，與微軟、谷歌和 Salesforce 等巨頭的生態系統展開競爭。

從原始算力邁向企業級應用

對更快 token 生成速度的追求源於明確的商業需求。要讓 AI 成為核心業務流程不可或缺的一部分，它必須實現實時運行。實時語音轉錄、金融交易員的交互式數據分析或動態電子商務推薦等用例，都需要近乎即時的響應，而許多當前模型無法提供這種響應。智譜直接瞄準了這一細分市場，在這些市場中，幾百毫秒的延遲就可能導致產品失去生命力。

對於投資者而言，這一趨勢標誌著 AI 市場的成熟。雖然模型規模和基準測試得分在歷史上一直占據頭條，但快速且具有成本效益地服務這些模型才是獲取價值所在。智譜的產品可能會降低企業部署更複雜 AI 的門檻，潛在地從速度較慢的在位者手中奪取市場份額。智譜、Kore.ai 等平台的成功將取決於它們是否不僅能提供快速的模型，還能提供完整、可靠且安全的企級解決方案。

本文僅供參考，不構成投資建議。