El nuevo modelo de código abierto de Nvidia, Nemotron 3 Nano Omni, busca unificar texto, visión y voz para crear agentes de IA empresariales más rápidos y eficientes.
Atrás
El nuevo modelo de código abierto de Nvidia, Nemotron 3 Nano Omni, busca unificar texto, visión y voz para crear agentes de IA empresariales más rápidos y eficientes.

Nvidia Corp. se está expandiendo de ser un proveedor de hardware a una compañía de plataforma integral con el lanzamiento de Nemotron 3 Nano Omni, un modelo de código abierto diseñado para construir agentes de IA empresariales más eficientes. El modelo, que integra capacidades de texto, visión y voz, puede ofrecer un rendimiento hasta nueve veces más rápido que los modelos omni abiertos de la competencia, un movimiento que desafía tanto a los modelos propietarios como a otras alternativas de código abierto.
"Hemos adoptado NVIDIA Nemotron para reinventar la inferencia de IA empresarial para nuestros clientes", dijo J.J. Kardwell, CEO de la empresa de infraestructura en la nube Vultr. Vultr, uno de los primeros en adoptarlo, está poniendo el modelo a disposición en sus clústeres de GPU y a través de su servicio de inferencia sin servidor.
El nuevo modelo cuenta con una arquitectura de Mezcla de Expertos (MoE) de 30,000 millones de parámetros que solo activa 3,000 millones de parámetros en cualquier momento dado, equilibrando el alto rendimiento con la eficiencia de costos. Al unificar los codificadores de visión y audio dentro de un único marco, elimina la necesidad de módulos de percepción separados, reduciendo la latencia y el costo. El modelo está diseñado para ejecutarse tanto en hardware de consumo de alta gama como en despliegues de nube empresarial, y está disponible como un microservicio Nvidia NIM y en plataformas como Hugging Face.
El lanzamiento posiciona a Nvidia para capturar una mayor parte de la cadena de valor de la IA, yendo más allá de la venta de GPUs para proporcionar los modelos fundacionales y las herramientas para la IA agéntica. Esta estrategia enfrenta al ecosistema "abierto y de alto rendimiento" de Nvidia contra los líderes de código cerrado y otras comunidades de código abierto. Entre los primeros en adoptarlo se encuentran Palantir Technologies Inc. y Foxconn Technology Group, mientras que empresas como Dell Technologies Inc., Oracle Corp. e Infosys Ltd. están evaluando actualmente el modelo. El movimiento sugiere que Nvidia aspira a convertirse en el proveedor de referencia no solo para las "palas" en la fiebre del oro de la IA, sino para todo el plan de construcción.
Nemotron 3 Nano Omni está diseñado específicamente para la IA agéntica: sistemas que pueden entender, razonar y ejecutar tareas complejas de múltiples pasos. Al entrenar el modelo con datos de GUI, Nvidia le permite comprender e interactuar con elementos de la interfaz de usuario, allanando el camino para automatizar los flujos de trabajo de oficina y las operaciones de software. "Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla", dijo Gautier Cloix, director ejecutivo de H Company, otro de los primeros en adoptarlo. "Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD, algo que antes no era práctico". Este enfoque en la ejecución y la interacción en el mundo real marca un paso significativo en la competencia para construir una IA que pase de generar contenido a realizar acciones.
Al lanzar Nemotron 3 Nano Omni como un modelo abierto, Nvidia está cultivando un ecosistema de desarrolladores en torno a su hardware. La compañía está proporcionando no solo los pesos del modelo, sino también los datos de entrenamiento y el kit de herramientas NeMo para fomentar el desarrollo. Esta estrategia podría atraer a una amplia base de desarrolladores y empresas que buscan soluciones de IA personalizables y de alto rendimiento sin estar bloqueados en un sistema cerrado. Con más de 50 millones de descargas para la familia Nemotron en el último año, Nvidia está construyendo una base sólida. El éxito de este modelo multimodal abierto podría acelerar la adopción de agentes de IA en las empresas y consolidar el papel central de Nvidia en el futuro de la industria.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.