Tether 旗下的 AI 部門將 Google 的 TurboQuant 開源,將 AI 工作記憶體壓縮五倍,適用於本地端裝置。
Tether 旗下的 AI 部門將 Google 的 TurboQuant 開源,將 AI 工作記憶體壓縮五倍,適用於本地端裝置。

Tether 旗下的 AI 部門將 Google 的 TurboQuant 開源,將 AI 工作記憶體壓縮五倍,適用於本地端裝置。
迫使 AI 工作負載必須進入資料中心的記憶體瓶頸正在消融。Tether 的 AI 研究團隊於週一開源了 TurboQuant,這是 Google KV 快取壓縮演算法的正式生產版本,可將記憶體消耗降低高達五倍,同時保持輸出品質。
「如果長上下文 AI 只能在最大的資料中心內運作,那麼 AI 將由擁有最多硬體的人所塑造,」Tether 執行長 Paolo Ardoino 表示。「TurboQuant 讓記憶體不再是一道高牆,從而改變了本地端 AI 所能做到的事。」
KV 快取——即 Transformer 模型在會話期間用來追蹤上下文的工作記憶體——會隨著對話時間拉長而擴張。在大約 262,000 個 token(相當於數小時的對話或數百頁文字)的情況下,一個 40 億參數模型的 KV 快取約消耗 8 GB 記憶體。四個並行會話在計入模型本身之前,就會將其推高至 32 GB。TurboQuant 可將該快取壓縮至原始大小的五分之一,使長上下文 AI 能夠在消費級 GPU、手機與邊緣裝置上運作。
此次發布使 Tether 的 QVAC Fabric——其從 llama.cpp 分支出來並開源的本地端 AI 引擎——成為去中心化 AI 推論競賽中一個不容忽視的競爭者。如果 TurboQuant 的五倍壓縮效果能在不同模型架構中維持,它有可能將相當比例的部分推論工作負載從雲端供應商手中轉移出去,後者包括 Amazon Web Services、Microsoft Azure 以及 Google Cloud,這些公司 2025 年在 AI 基礎設施上的總支出估計高達 2300 億美元。
該演算法最初由 Google Research 於 2026 年 3 月 24 日發表,專門針對 KV 快取進行量化——將數值精度從 16 位元或 32 位元浮點數壓縮至 4 位元或 2 位元表示。與許多壓縮技術不同,TurboQuant 無需重新訓練或微調模型。開發者可透過 Tether 的 QVAC SDK 0.12.0 將其應用於現有模型,該 SDK 包含完整的量化管線、常用推論引擎的框架適配器,以及針對工作負載調校的部署設定檔。
對開發者與新創公司而言,其影響是實務層面而非理論層面。團隊不必再圍繞著短上下文視窗與純雲端部署來設計 AI 產品,而是可以在消費級硬體上支援更長的會話。程式碼助手可以記住整個程式碼庫;法律文件審查工具可以在筆電上處理數百頁的合約;家教應用程式可以在整個學習階段維持上下文——所有這些都無需將數據路由至遠端資料中心。
Tether 的實作建立在先前的壓縮研究成果之上,包括 PolarQuant 與 Quantized Johnson-Lindenstrauss,透過疊加多種技術來針對效率問題的不同環節。該公司一直在將其 AI 版圖擴展到穩定幣業務之外——正是穩定幣使其在加密貨幣領域家喻戶曉——近期發布的產品包括用於私人裝置端 AI 的 QVAC Workbench、用於本地端健康追蹤的 QVAC Health,以及 QVAC MedPsy——一個設計在手機與穿戴式裝置上運行的醫療 AI 模型系列。
此次開源是一項策略性佈局,旨在壯大圍繞 QVAC Fabric 的生態系統,並將 Tether 的工具組定位為去中心化 AI 的預設基礎設施。任何開發者都可以獲取程式碼,將其整合到推論管線中,並立即獲得記憶體節省的效益。
雲端 GPU 供應商面臨的競爭威脅最為嚴峻。Nvidia 的 H100 與 B200 GPU 主導著資料中心推論市場,其定價高昂,部分原因是它們是目前唯一能夠大規模運行長上下文工作負載的硬體。如果本地端硬體在 TurboQuant 的協助下也能處理相同的工作負載,雲端推論的可及市場規模可能會縮小。Nvidia 的資料中心營收在最近一個財年達到 475 億美元,其中推論業務估計約佔 40%。
不過,五倍壓縮的主張是否在不同模型架構與上下文長度下都能成立,仍有待獨立基準測試的驗證。量化技術有時在實際使用中,面對更長的對話或更複雜的推理任務時,效能會出現衰減。Tether 並未揭露其壓縮主張的測試條件。
Tether 並非上市公司,但其對整個 AI 生態系統的影響是可以量化的。本地端裝置每釋放一個 GB 的記憶體,就降低了將推論路由到雲端 API 的誘因,有可能壓縮雲端推論供應商的總可及市場。對於 Nvidia、AMD 以及雲端巨頭的投資人而言,問題在於本地端推論效率的提升需要多長時間才能轉化為資料中心需求的減少——這個時間軸是以年為單位計算,而非季度。
本文僅供資訊參考,不構成投資建議。