SpaceX 將 Colossus 1 出租給 Anthropic，歷經 2600 億美元運算策略轉向

SpaceX 無法讓自家的 Colossus 1 資料中心成功訓練 Grok，因此將整座設施以每月 12.5 億美元的價格出租給 Anthropic。

位於曼菲斯的 SpaceX Colossus 1 資料中心原本肩負訓練該公司最先進 Grok 模型的使命。根據知情人士向彭博透露，SpaceX 自家工程師無法克服延遲與硬體不匹配的問題，這座設施反倒成了 Anthropic 每月 12.5 億美元的支出。

「SpaceX 認為，這座設施用於創造收入比閒置更有價值，」SpaceX 財務長 Bret Johnsen 在一份聲明中表示。他補充說，該公司並未放棄內部 AI 工作，並保有提前 90 天通知收回運算容量的權利。

這座超過 300 兆瓦的設施容納了超過 22 萬顆 Nvidia GPU，涵蓋多個晶片世代——Hopper 與 Blackwell 系統，以及較舊的加速器。這種硬體異質性在分散式訓練中造成了瓶頸，較慢的晶片迫使較快的晶片等待。而 Colossus 2 和 3 則圍繞 Blackwell 晶片進行了更統一的建置，避免了這個問題。Colossus 1 與另外兩座相距超過 10 英里的園區之間的網路連結引入了延遲，使得跨站點訓練不切實際。

這項租賃安排將 SpaceX 從 AI 建造者轉變為 AI 房東。加上 10 月起與 Google 達成的每月 9.2 億美元交易，SpaceX 每月從原本為自家建造的運算基礎設施中收取約 21.7 億美元——年化達 260 億美元。這些合約的總價值超過 7000 億美元，成為 SpaceX IPO 路演的核心亮點，該公司的目標估值約為 7500 億美元。

Colossus 1 為何無法訓練 Grok

SpaceX 在 122 天內建成了 Colossus 1——該公司在 IPO 路演中宣稱這一速度超越了行業平均水平。但速度是有代價的。該設施的混合硬體庫存，將較舊的 Nvidia 加速器與較新的 Hopper 和 Blackwell 晶片結合在一起，造成了性能不匹配，進而降低了訓練效率。在分散式 AI 集群中，整個系統以最慢元件的速度運行。

連接 Colossus 1 與其他兩個園區的網路基礎設施加劇了問題。訓練前沿模型需要節點之間超快速、低延遲的連結。由於 Colossus 1 距離其他站點超過 10 英里，老舊的網路設備無法維持大規模訓練運行所需的同步速度。

結果：SpaceX 最具野心的 AI 訓練集群實際上陷入停擺。該公司沒有投資昂貴的網路升級與硬體標準化，而是選擇將這部分運算能力外部變現。

價值 260 億美元的意外生意

Anthropic 將在 2029 年 5 月之前每月支付 12.5 億美元，以換取 Colossus 1 和 Colossus II 設施的存取權——三年約 450 億美元。這筆交易為 Anthropic 提供了一條臨時的生命線，因為該公司在 Claude、Claude Code 和 Opus 模型系列的需求難以預測的情況下苦苦掙扎。用戶反映，由於該公司數月來一直受制於運算容量限制，高峰時段出現速率限制和性能下降。

這項安排是暫時性的：一份為期 180 天的租約，附有 90 天的相互取消條款。馬斯克曾表示，如果「運算變得極度緊張」，SpaceX 可以收回運算容量。但 Grok 的吸引力正在下降——下載量從 1 月的 2000 萬次降至 4 月的 830 萬次，付費轉換率僅為 ChatGPT 的五分之一——使得收回的必要性不那麼迫切。

對投資人而言，此次策略轉向引發了關於 SpaceX AI 基礎設施敘事的質疑。該公司在 IPO 路演中將資料中心建設計劃作為一項戰略優勢來呈現，強調建設速度與規模。如今 Colossus 1 的技術限制迫使公司將其出租給外部——而且還是競爭對手——這一事實使上述故事變得複雜。批評者還質疑租賃定價是否高於市場水平，以及交易結構是否涉及馬斯克相關實體之間的循環融資。

SpaceX 股價在那斯達克首日上市開盤約 150 美元，較 IPO 發行價溢價 11%，早盤一度飆升 30%，最終收漲 19%。該股一度將 SpaceX 市值推升至 2.2 兆美元以上。

對 AI 行業更廣泛的啟示：擁有硬體並不等於能夠使用它。地理位置、網路連接與整合複雜性，都可能使一座資料中心淪為擱淺產能。在前沿實驗室競相爭奪 10 萬 GPU 以上集群的時代，運算的物理限制——而不僅僅是模型架構——正成為最關鍵的瓶頸。

本文僅供參考，不構成投資建議。