企業AI成本壓力迫使財務長以代幣換人力

95%的企業AI工作負載仍運行在昂貴的前沿模型上——即使是用於文本摘要和郵件分類這類簡單任務——與此同時，財務長們開始以未來人力換取更便宜的代幣，這一結構性轉變正重塑企業科技預算。

「每個代幣的成本問題已從工程團隊搬到董事會議室，」Edgen企業AI分析師Alex Nguyen表示。「財務長們意識到，他們可以用一個運行在較便宜模型上的AI代理取代三名初級分析師，而在10倍規模下，這筆帳完全算得過來。」

算術結果十分鮮明。DeepSeek的V4 Pro模型在SWE-bench Verified編碼基準中得分80.6%，在先進的MMLU-Pro推理指數中得分87.5，其成本為每百萬輸入代幣0.435美元、每百萬輸出代幣0.87美元——輸入成本比Anthropic的Claude Sonnet或OpenAI的GPT-5.5-Med低7倍，輸出成本低17倍。其輕量版V4 Flash比Claude Haiku等入門級替代方案便宜10到25倍。根據該公司公布的定價，在中國本地託管時，DeepSeek的快取讀取定價比西方雲端替代方案便宜87倍。

成本差距正迫使市場重新評估。Uber在今年的頭四個月就用光了其2026年全年用於Claude Code和Cursor的預算，其營運長告訴員工，若沒有更好的產品來證明其價值，這筆開支「越來越難合理化」。Airbnb的Brian Chesky表示，該公司避免在生產環境中過度依賴OpenAI的最新模型，轉而青睞阿里巴巴的Qwen等更快、更便宜的替代方案。Pinterest的技術長證實，該公司透過在專有的「品味圖譜」上對阿里巴巴開源的Qwen模型進行後訓練，以降低90%的成本實現了接近前沿模型的品質。

代幣成本危機正加速企業AI市場的永久性分化。 VentureBeat的2026年第一季企業用戶調查（對象為員工人數超過100人的組織）發現，「每個代幣成本或授權模式」作為主要選擇標準的比例從1月到3月間由25.4%躍升至36.7%，僅次於原始性能。根據Andreessen Horowitz的基礎設施分析，企業生產環境現在平均同時部署14種不同的模型，以按價格路由工作負載並避免單一供應商鎖定。

在領先的開發者模型代理平台OpenRouter上，DeepSeek的V4 Flash在過去一週躍居首位，代幣消耗量激增48%。DeepSeek的前三大模型在該平台上處理了近6兆個代幣，而OpenAI的高端GPT-5.5則滑落至第15位，處理量為4700億個代幣。OpenRouter近期完成了1.13億美元的B輪融資，投資方包括ServiceNow Ventures、Snowflake Ventures、Databricks Ventures、Nvidia的NVentures以及Google的CapitalG——這表明企業基礎設施供應商正押注於多模型路由作為預設架構。

這一結構性利潤壓縮不會對所有西方實驗室造成同等打擊。Anthropic仍受惠於Claude Code等高利潤軟體產品的保護，工程團隊在核心生產開發中為確定性準確性付費。OpenAI面臨更大風險：其更大份額的企業收入依賴於高流量、通用型API代幣流——正是開源權重模型正在商品化的層面。DeepSeek的架構將其1.6兆參數模型的鍵值快取壓縮至5.48GB的高頻寬記憶體，用於100萬個代幣的上下文循環——而可比西方架構需要89GB——這使得其成本優勢是結構性的，而非促銷性的。

對於企業科技採購者而言，算盤正從「哪個模型最好」轉向「哪個模型在該價格點上最適合這項特定任務」。隨著多步驟自主代理的部署推動AI代幣消耗呈指數級增長，未能優化其推理路由的公司面臨利潤壓縮的風險。而那些採用分層模型架構——將高端前沿模型保留給關鍵任務推理，同時將高流量背景任務路由至更便宜的開源權重替代方案——的公司則有望抓住財務長們現在所要求的成本節省。

本文僅供參考，不構成投資建議。