重點摘要:
- 95%的企業AI工作負載仍使用昂貴的前沿模型處理簡單任務
- DeepSeek V4 Pro輸入成本低7倍,輸出成本低17倍
- CFO正以未來人力換取AI代幣,因成本壓力持續攀升
重點摘要:

95%的企業AI工作負載仍運行在昂貴的前沿模型上——即使是用於文本摘要和郵件分類這類簡單任務——與此同時,財務長們開始以未來人力換取更便宜的代幣,這一結構性轉變正重塑企業科技預算。
「每個代幣的成本問題已從工程團隊搬到董事會議室,」Edgen企業AI分析師Alex Nguyen表示。「財務長們意識到,他們可以用一個運行在較便宜模型上的AI代理取代三名初級分析師,而在10倍規模下,這筆帳完全算得過來。」
算術結果十分鮮明。DeepSeek的V4 Pro模型在SWE-bench Verified編碼基準中得分80.6%,在先進的MMLU-Pro推理指數中得分87.5,其成本為每百萬輸入代幣0.435美元、每百萬輸出代幣0.87美元——輸入成本比Anthropic的Claude Sonnet或OpenAI的GPT-5.5-Med低7倍,輸出成本低17倍。其輕量版V4 Flash比Claude Haiku等入門級替代方案便宜10到25倍。根據該公司公布的定價,在中國本地託管時,DeepSeek的快取讀取定價比西方雲端替代方案便宜87倍。
成本差距正迫使市場重新評估。Uber在今年的頭四個月就用光了其2026年全年用於Claude Code和Cursor的預算,其營運長告訴員工,若沒有更好的產品來證明其價值,這筆開支「越來越難合理化」。Airbnb的Brian Chesky表示,該公司避免在生產環境中過度依賴OpenAI的最新模型,轉而青睞阿里巴巴的Qwen等更快、更便宜的替代方案。Pinterest的技術長證實,該公司透過在專有的「品味圖譜」上對阿里巴巴開源的Qwen模型進行後訓練,以降低90%的成本實現了接近前沿模型的品質。
代幣成本危機正加速企業AI市場的永久性分化。 VentureBeat的2026年第一季企業用戶調查(對象為員工人數超過100人的組織)發現,「每個代幣成本或授權模式」作為主要選擇標準的比例從1月到3月間由25.4%躍升至36.7%,僅次於原始性能。根據Andreessen Horowitz的基礎設施分析,企業生產環境現在平均同時部署14種不同的模型,以按價格路由工作負載並避免單一供應商鎖定。
在領先的開發者模型代理平台OpenRouter上,DeepSeek的V4 Flash在過去一週躍居首位,代幣消耗量激增48%。DeepSeek的前三大模型在該平台上處理了近6兆個代幣,而OpenAI的高端GPT-5.5則滑落至第15位,處理量為4700億個代幣。OpenRouter近期完成了1.13億美元的B輪融資,投資方包括ServiceNow Ventures、Snowflake Ventures、Databricks Ventures、Nvidia的NVentures以及Google的CapitalG——這表明企業基礎設施供應商正押注於多模型路由作為預設架構。
這一結構性利潤壓縮不會對所有西方實驗室造成同等打擊。Anthropic仍受惠於Claude Code等高利潤軟體產品的保護,工程團隊在核心生產開發中為確定性準確性付費。OpenAI面臨更大風險:其更大份額的企業收入依賴於高流量、通用型API代幣流——正是開源權重模型正在商品化的層面。DeepSeek的架構將其1.6兆參數模型的鍵值快取壓縮至5.48GB的高頻寬記憶體,用於100萬個代幣的上下文循環——而可比西方架構需要89GB——這使得其成本優勢是結構性的,而非促銷性的。
對於企業科技採購者而言,算盤正從「哪個模型最好」轉向「哪個模型在該價格點上最適合這項特定任務」。隨著多步驟自主代理的部署推動AI代幣消耗呈指數級增長,未能優化其推理路由的公司面臨利潤壓縮的風險。而那些採用分層模型架構——將高端前沿模型保留給關鍵任務推理,同時將高流量背景任務路由至更便宜的開源權重替代方案——的公司則有望抓住財務長們現在所要求的成本節省。
本文僅供參考,不構成投資建議。