商湯科技推出的全新 SenseNova U1 模型摒棄了幾乎所有主流圖像生成系統所使用的核心 VAE 組件,這一根本性的架構轉變有望降低成本並減少視覺偽影。
返回
商湯科技推出的全新 SenseNova U1 模型摒棄了幾乎所有主流圖像生成系統所使用的核心 VAE 組件,這一根本性的架構轉變有望降低成本並減少視覺偽影。

隨著 SenseNova U1 的發佈,中國人工智能公司商湯科技(00020.HK)正在挑戰大多數現代圖像生成模型的奠基性架構。該公司開源了一個擁有 20 億參數的模型預覽版,該模型基於 NEO-Unify 架構構建,直接在像素上運行,並摒棄了從 Stable Diffusion 到 Google 的 Flux 等系統所使用的變分自編碼器(VAE)。這種方法可以通過避免 VAE 的壓縮步驟,顯著降低推理開銷並提高圖像保真度。
商湯科技董事長徐立在 2026 年 3 月曾表示:「我們打算未來根據解決問題的成果而非 Token 消耗量來對人工智能產品進行收費。」這一理念與這種更高效架構的成本節約潛力相契合。
根據模型卡顯示,這個 20 億參數的預覽模型在圖像重建方面實現了 31.56 的峰值信噪比(PSNR),這一得分接近於規模大得多的 Flux 模型的 32.65 PSNR,且無需單獨的 VAE。該模型由商湯科技與南洋理工大學 S-Lab 聯合開發,並於 4 月 26 日在 Hugging Face 上發佈。此外,官方也確認將推出 80 億參數的基礎模型。
對於開發者和企業用戶而言,此次發佈標誌著人工智能技術棧正向更簡單、更高效的方向邁進。移除 VAE 消除了一大視覺偽影來源,也去除了一個需要大量調優的組件。這可能會降低構建高質量圖像生成流水線的准入門檻,並降低生產系統的運營成本,直接對 Midjourney 和 OpenAI 等西方供應商基於 API 的商業模式構成威脅。
長期以來,變分自編碼器一直是一種實踐上的權宜之計,而非根本性的必然。它將高解析度圖像壓縮成一個更小、計算上可控的潛空間,擴散過程就在其中發生。然而,這種壓縮是有損的,會丟棄細節並引入偽影,開發者需要花費大量時間進行工程化處理。SenseNova 的 NEO-Unify 架構則完全繞過了這一步驟。
通過從一開始就將視覺和語言數據視為深度關聯,該模型學會了直接在像素上進行生成。雙階段訓練策略允許模型集成來自預訓練大語言模型的語言推理能力,同時從零開始構建其視覺感知。這種理解與生成的統一路徑避免了以往多模態模型訓練中常見的性能權衡問題,即在一個領域的提升往往會導致另一個領域能力的下降。
SenseNova U1 是中國近期湧現的一系列極具競爭力的開源權重模型中的最新成員,加入了 DeepSeek、阿里巴巴的通義千問(Qwen)以及 InternVL 項目的行列。這種快速的架構實驗結合開源發佈的模式,正在構建一個強大的開發者生態系統,為 OpenAI、Google 和 Anthropic 等美國主導的封閉模型,乃至 Meta 等西方公司的開源權重模型提供了重要的替代方案。
對於企業買家,特別是在數據主權和本地基礎設施至關重要的市場,這些模型正變得日益可行。商湯科技已經在深化與國產芯片供應商的集成,此舉使其開發管線免受美國對英偉達 GPU 供應鏈出口管制的影響。架構創新、開源策略與供應鏈韌性的結合,增強了中國人工智能產業在日益碎片化的全球市場中的地位。
本文僅供參考,不構成投資建議。