商汤科技推出的全新 SenseNova U1 模型摒弃了几乎所有主流图像生成系统所使用的核心 VAE 组件,这一根本性的架构转变有望降低成本并减少视觉伪影。
返回
商汤科技推出的全新 SenseNova U1 模型摒弃了几乎所有主流图像生成系统所使用的核心 VAE 组件,这一根本性的架构转变有望降低成本并减少视觉伪影。

随着 SenseNova U1 的发布,中国人工智能公司商汤科技(00020.HK)正在挑战大多数现代图像生成模型的奠基性架构。该公司开源了一个拥有 20 亿参数的模型预览版,该模型基于 NEO-Unify 架构构建,直接在像素上运行,并摒弃了从 Stable Diffusion 到 Google 的 Flux 等系统所使用的变分自编码器(VAE)。这种方法可以通过避免 VAE 的压缩步骤,显著降低推理开销并提高图像保真度。
商汤科技董事长徐立在 2026 年 3 月曾表示:“我们打算未来根据解决问题的成果而非 Token 消耗量来对人工智能产品进行收费。”这一理念与这种更高效架构的成本节约潜力相契合。
根据模型卡显示,这个 20 亿参数的预览模型在图像重建方面实现了 31.56 的峰值信噪比(PSNR),这一得分接近于规模大得多的 Flux 模型的 32.65 PSNR,且无需单独的 VAE。该模型由商汤科技与南洋理工大学 S-Lab 联合开发,并于 4 月 26 日在 Hugging Face 上发布。此外,官方也确认将推出 80 亿参数的基础模型。
对于开发者和企业用户而言,此次发布标志着人工智能技术栈正向更简单、更高效的方向迈进。移除 VAE 消除了一大视觉伪影来源,也去除了一个需要大量调优的组件。这可能会降低构建高质量图像生成流水线的准入门槛,并降低生产系统的运营成本,直接对 Midjourney 和 OpenAI 等西方供应商基于 API 的商业模式构成威胁。
长期以来,变分自编码器一直是一种实践上的权宜之计,而非根本性的必然。它将高分辨率图像压缩成一个更小、计算上可控的潜空间,扩散过程就在其中发生。然而,这种压缩是有损的,会丢弃细节并引入伪影,开发者需要花费大量时间进行工程化处理。SenseNova 的 NEO-Unify 架构则完全绕过了这一步骤。
通过从一开始就将视觉和语言数据视为深度关联,该模型学会了直接在像素上进行生成。双阶段训练策略允许模型集成来自预训练大语言模型的语言推理能力,同时从零开始构建其视觉感知。这种理解与生成的统一路径避免了以往多模态模型训练中常见的性能权衡问题,即在一个领域的提升往往会导致另一个领域能力的下降。
SenseNova U1 是中国近期涌现的一系列极具竞争力的开源权重模型中的最新成员,加入了 DeepSeek、阿里巴巴的通义千问(Qwen)以及 InternVL 项目的行列。这种快速的架构实验结合开源发布的模式,正在构建一个强大的开发者生态系统,为 OpenAI、Google 和 Anthropic 等美国主导的封闭模型,乃至 Meta 等西方公司的开源权重模型提供了重要的替代方案。
对于企业买家,特别是在数据主权和本地基础设施至关重要的市场,这些模型正变得日益可行。商汤科技已经在深化与国产芯片供应商的集成,此举使其开发管线免受美国对英伟达 GPU 供应链出口管制的影响。架构创新、开源策略与供应链韧性的结合,增强了中国人工智能产业在日益碎片化的全球市场中的地位。
本文仅供参考,不构成投资建议。