在企業級 AI 軍備競賽中,極速響應已成為無法容忍延遲的應用場景的關鍵競爭優勢。
在企業級 AI 軍備競賽中,極速響應已成為無法容忍延遲的應用場景的關鍵競爭優勢。

智譜 AI 正在升級企業級人工智能的速度競賽,為其 GLM-5.1 模型推出了全新的 API,處理速度達到每秒 400 tokens,創下了商用大語言模型 API 的新高。此舉向老牌企業發起了挑戰,並凸顯了市場日益關注推理性能,將其視為企業採用 AI 的關鍵因素。
該集團在一份聲明中表示:「GLM-5.1 高速版專為對響應延遲要求極高的場景而設計,例如 AI 編程、實時交互以及業務決策。」
GLM-5.1-highspeed API 最初僅向智譜 MaaS 平台上的部分企業客戶開放。每秒 400 tokens 的輸出速度正對著低延遲的企業用例——如實時語音應用和自動化業務邏輯,這些領域此前難以通過速度較慢、側重對話的模型來滿足需求。
這一舉措通過為基於 API 的推理建立新的性能標桿,給全球競爭對手帶來了壓力。隨著 Kore.ai 和 Cerebras 等公司也在挑戰速度和效率的極限,行業重心正從單純的模型能力轉向生產級性能,這將影響到數以十億美元計的企業 IT 基礎設施 AI 支出。
智譜的聲明並非孤立事件。整個 AI 行業正陷入一場降低延遲的激戰。雖然智譜的每秒 400 tokens 刷新了商用 API 的記錄,但其他公司通過專用配置發布了更快的速度。芯片初創公司 Cerebras 最近宣布,其平台運行萬億參數模型 Kimi K2.6 的速度達到每秒 981 tokens,比基於 GPU 的雲快了近 7 倍。然而,這依賴於 Cerebras 獨特的晶圓級引擎,這是一種通過通用 API 無法獲得的專用硬件架構。
競爭範圍超出了單純的硬件性能。企業 AI 平台提供商 Kore.ai 最近推出了 Artemis 平台,旨在讓企業能夠構建和管理 AI 智能體。此次發布強調了雖然速度至關重要,但在金融和醫療等受監管行業,治理、安全和供應商中立性對於落地同樣重要。這讓智譜的速度基準置於更廣泛的背景下,與微軟、谷歌和 Salesforce 等巨頭的生態系統展開競爭。
對更快 token 生成速度的追求源於明確的商業需求。要讓 AI 成為核心業務流程不可或缺的一部分,它必須實現實時運行。實時語音轉錄、金融交易員的交互式數據分析或動態電子商務推薦等用例,都需要近乎即時的響應,而許多當前模型無法提供這種響應。智譜直接瞄準了這一細分市場,在這些市場中,幾百毫秒的延遲就可能導致產品失去生命力。
對於投資者而言,這一趨勢標誌著 AI 市場的成熟。雖然模型規模和基準測試得分在歷史上一直占據頭條,但快速且具有成本效益地服務這些模型才是獲取價值所在。智譜的產品可能會降低企業部署更複雜 AI 的門檻,潛在地從速度較慢的在位者手中奪取市場份額。智譜、Kore.ai 等平台的成功將取決於它們是否不僅能提供快速的模型,還能提供完整、可靠且安全的企級解決方案。
本文僅供參考,不構成投資建議。