Mô hình mã nguồn mở mới của Nvidia, Nemotron 3 Nano Omni, nhằm mục đích thống nhất văn bản, tầm nhìn và giọng nói để tạo ra các tác nhân AI doanh nghiệp nhanh hơn và hiệu quả hơn.
Quay lại
Mô hình mã nguồn mở mới của Nvidia, Nemotron 3 Nano Omni, nhằm mục đích thống nhất văn bản, tầm nhìn và giọng nói để tạo ra các tác nhân AI doanh nghiệp nhanh hơn và hiệu quả hơn.

Nvidia Corp. đang mở rộng từ một nhà cung cấp phần cứng thành một công ty nền tảng toàn diện với việc ra mắt Nemotron 3 Nano Omni, một mô hình mã nguồn mở được thiết kế để xây dựng các tác nhân AI doanh nghiệp hiệu quả hơn. Mô hình này, tích hợp các khả năng văn bản, tầm nhìn và giọng nói, có thể mang lại thông lượng nhanh hơn gấp 9 lần so với các mô hình omni mã nguồn mở cạnh tranh, một bước đi thách thức cả các mô hình độc quyền và các lựa chọn thay thế mã nguồn mở khác.
"Chúng tôi đã áp dụng NVIDIA Nemotron để tái tạo suy luận AI doanh nghiệp cho khách hàng của mình," J.J. Kardwell, CEO của công ty hạ tầng đám mây Vultr, cho biết. Vultr, một đơn vị sớm áp dụng, đang cung cấp mô hình này trên các cụm GPU của mình và thông qua dịch vụ suy luận không máy chủ.
Mô hình mới có kiến trúc Mixture-of-Experts (MoE) với 30 tỷ tham số, chỉ kích hoạt 3 tỷ tham số tại bất kỳ thời điểm nào, giúp cân bằng giữa hiệu suất cao và hiệu quả chi phí. Bằng cách thống nhất các bộ mã hóa tầm nhìn và âm thanh trong một khung duy nhất, nó loại bỏ nhu cầu về các mô-đun nhận thức riêng biệt, giảm độ trễ và chi phí. Mô hình được thiết kế để chạy trên cả phần cứng tiêu dùng cao cấp và triển khai đám mây doanh nghiệp, đồng thời có sẵn dưới dạng vi dịch vụ Nvidia NIM và trên các nền tảng như Hugging Face.
Việc ra mắt giúp Nvidia chiếm lĩnh thị phần lớn hơn trong chuỗi giá trị AI, vượt ra ngoài việc bán GPU để cung cấp các mô hình nền tảng và công cụ cho AI tác nhân (agentic AI). Chiến lược này đặt hệ sinh thái "mở và hiệu quả" của Nvidia vào thế đối đầu với các nhà dẫn đầu mã nguồn đóng và các cộng đồng mã nguồn mở khác. Những đơn vị sớm áp dụng bao gồm Palantir Technologies Inc. và Foxconn Technology Group, trong khi các công ty như Dell Technologies Inc., Oracle Corp. và Infosys Ltd. hiện đang đánh giá mô hình. Bước đi này cho thấy Nvidia đặt mục tiêu trở thành nhà cung cấp không chỉ cho những "chiếc xẻng" trong cơn sốt vàng AI, mà còn cho toàn bộ bản kế hoạch xây dựng.
Nemotron 3 Nano Omni được thiết kế đặc biệt cho AI tác nhân — các hệ thống có thể hiểu, suy luận và thực hiện các tác vụ phức tạp, đa bước. Bằng cách đào tạo mô hình trên dữ liệu GUI, Nvidia cho phép nó hiểu và tương tác với các yếu tố giao diện người dùng, mở đường cho việc tự động hóa quy trình làm việc văn phòng và vận hành phần mềm. "Để xây dựng các tác nhân hữu ích, bạn không thể đợi hàng giây để mô hình giải thích một màn hình," Gautier Cloix, giám đốc điều hành của H Company, một đơn vị sớm áp dụng khác, cho biết. "Bằng cách xây dựng trên Nemotron 3 Nano Omni, các tác nhân của chúng tôi có thể nhanh chóng giải thích các bản ghi màn hình full HD — một điều trước đây không thực tế." Sự tập trung vào việc thực thi và tương tác trong thế giới thực này đánh dấu một bước tiến quan trọng trong cuộc cạnh tranh xây dựng AI chuyển từ tạo nội dung sang thực hiện hành động.
Bằng cách phát hành Nemotron 3 Nano Omni dưới dạng mô hình mở, Nvidia đang nuôi dưỡng một hệ sinh thái nhà phát triển xung quanh phần cứng của mình. Công ty không chỉ cung cấp trọng số mô hình mà còn cung cấp dữ liệu đào tạo và bộ công cụ NeMo để thúc đẩy phát triển. Chiến lược này có thể thu hút một lượng lớn các nhà phát triển và doanh nghiệp đang tìm kiếm các giải pháp AI hiệu suất cao, có thể tùy chỉnh mà không bị khóa vào một hệ thống đóng. Với hơn 50 triệu lượt tải xuống cho dòng Nemotron trong năm qua, Nvidia đang xây dựng một nền tảng vững chắc. Thành công của mô hình đa phương thức, mở này có thể thúc đẩy việc áp dụng các tác nhân AI trong các doanh nghiệp và củng cố vai trò trung tâm của Nvidia trong tương lai của ngành.
Bài viết này chỉ nhằm mục đích thông tin và không cấu thành lời khuyên đầu tư.