英伟达新款开源模型 Nemotron 3 Nano Omni 旨在统一文本、视觉和语音,以创建更快、更高效的企业级 AI 智能体。
返回
英伟达新款开源模型 Nemotron 3 Nano Omni 旨在统一文本、视觉和语音,以创建更快、更高效的企业级 AI 智能体。

英伟达公司正在从硬件供应商转型为一家综合平台公司,推出了 Nemotron 3 Nano Omni 开源模型,旨在构建更高效的企业级 AI 智能体。该模型集成了文本、视觉和语音功能,其吞吐量可达竞争对手开源全能模型的 9 倍,这一举措直接挑战了专有模型和其他开源替代方案。
“我们已经采用英伟达 Nemotron 为客户重塑企业 AI 推理,”云基础设施公司 Vultr 的首席执行官 J.J. Kardwell 表示。作为早期采用者,Vultr 正在其 GPU 集群中提供该模型,并通过其无服务器推理服务进行分发。
这款新模型采用了 300 亿参数的混合专家(MoE)架构,在任何给定时间仅激活 30 亿参数,从而在高性能与成本效率之间取得了平衡。通过在单一框架内统一视觉和音频编码器,它消除了对独立感知模块的需求,降低了延迟和成本。该模型旨在运行于高端消费级硬件和企业云部署,并作为 Nvidia NIM 微服务在 Hugging Face 等平台上提供。
此次发布使英伟达能够捕捉 AI 价值链中更大的份额,从销售 GPU 转向提供智能体 AI 的基础模型和工具。这一战略使英伟达“开放且高效”的生态系统与闭源领导者及其他开源社区展开竞争。早期采用者包括 Palantir Technologies Inc. 和鸿海科技集团(Foxconn),而戴尔(Dell Technologies Inc.)、甲骨文(Oracle Corp.)和印孚瑟斯(Infosys Ltd.)等公司目前正在对该模型进行评估。此举表明,英伟达的目标不仅是成为 AI 淘金热中的“铲子”供应商,还要成为整个建筑蓝图的提供者。
Nemotron 3 Nano Omni 专门为智能体 AI(即能够理解、推理并执行复杂、多步骤任务的系统)而设计。通过在 GUI(图形用户界面)数据上训练模型,英伟达使其能够理解并与用户界面元素交互,为自动化办公流程和软件操作铺平了道路。另一家早期采用者 H Company 的首席执行官 Gautier Cloix 表示:“要构建有用的智能体,你不能等上几秒钟让模型去解读屏幕。基于 Nemotron 3 Nano Omni,我们的智能体可以快速解读全高清屏幕录像,这在以前是不切实际的。” 这种对执行和现实世界交互的关注,标志着在构建从生成内容转向执行任务的 AI 竞争中迈出了重要一步。
通过将 Nemotron 3 Nano Omni 作为开源模型发布,英伟达正在围绕其硬件培育开发者生态系统。该公司不仅提供模型权重,还提供训练数据和 NeMo 工具包以促进开发。这一战略可能会吸引广泛的开发者和企业,他们正在寻找可定制、高性能的 AI 解决方案,而不希望被锁定在封闭系统中。过去一年,Nemotron 系列的下载量已超过 5000 万次,英伟达正奠定坚实的基础。这款开源、多模态模型的成功可能会加速企业对 AI 智能体的采用,并巩固英伟达在行业未来中的核心地位。
本文仅供参考,不构成投资建议。