Các mô hình AI nội bộ mới nhất của Microsoft cho thấy một sự chuyển dịch chiến lược rõ ràng, nhưng các thử nghiệm thực tế cho thấy khoảng cách hiệu suất vẫn còn tồn tại so với các đối thủ lâu đời.
Microsoft đã ra mắt ba mô hình trí tuệ nhân tạo độc quyền, một động thái được các nhà quan sát ngành coi là bước đi quan trọng hướng tới việc giảm sự phụ thuộc vào đối tác OpenAI. Các mô hình mới—MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2—bao gồm chuyển ký tự giọng nói, tạo giọng nói và tạo hình ảnh, hiện đã có sẵn trên nền tảng Microsoft Foundry.
"Động thái này đánh dấu nỗ lực của Microsoft trong việc xây dựng ngăn xếp công nghệ AI của riêng mình," một báo cáo truyền thông bình luận, phản ánh quan điểm rằng công ty đang đa dạng hóa khả năng AI của mình. Nền tảng Foundry hiện cung cấp dòng MAI của Microsoft cùng với các mô hình từ OpenAI và Anthropic, cho phép khách hàng tiếp cận nhiều nhà cung cấp thông qua một API duy nhất.
Các tiêu chuẩn chính thức của công ty tuyên bố mức tăng hiệu suất đáng kể. MAI-Transcribe-1 được báo cáo là nhanh hơn 2,5 lần so với sản phẩm Azure Fast hiện có, MAI-Voice-1 có thể tạo ra 60 giây âm thanh chỉ trong một giây và MAI-Image-2 mang lại sự cải thiện ít nhất gấp đôi về tốc độ tạo hình ảnh. Giá được ấn định ở mức 0,36 USD mỗi giờ cho chuyển ký tự, 22 USD cho mỗi triệu ký tự tạo giọng nói và bắt đầu từ 5 USD cho mỗi triệu token cho lời nhắc văn bản hình ảnh.
Đối với các nhà đầu tư, việc ra mắt đặt ra một câu hỏi quan trọng: liệu sự phát triển nội bộ của Microsoft có thể lấp đầy khoảng cách hiệu suất với các mô hình hàng đầu từ các đối tác như OpenAI và các đối thủ như Google? Mặc dù hợp đồng của Microsoft với OpenAI kéo dài đến năm 2032, tính khả thi về kinh tế của chiến lược nội bộ phụ thuộc vào việc đạt được hiệu suất cạnh tranh, một yếu tố sẽ quyết định lợi nhuận dài hạn cho khoản đầu tư R&D khổng lồ của mình.
MAI-Transcribe-1 Vấp Ngã Trong Các Thử Nghiệm Âm Thanh Tốc Độ Cao
Trong các thử nghiệm, mô hình MAI-Transcribe-1 cho thấy kết quả trái chiều. Mặc dù nó đã chuyển ký tự chính xác một cảnh trong bộ phim Vô Gian Đạo ở tốc độ bình thường, nhưng nó đã thất bại khi âm thanh được phát ở tốc độ gấp đôi. Mô hình đã hiểu sai một câu về "học viện cảnh sát" (警校) và "cảnh sát chìm" (卧底) thành "Cambridge" (剑桥) và "kế toán" (会计), làm thay đổi hoàn toàn ngữ cảnh.
Sự ổn định của mô hình tiếp tục bị thách thức với một cuộc tranh luận gay gắt, tốc độ nhanh từ bộ phim Điệp Vụ Đối Đầu, nơi nó không thể tạo ra bất kỳ đầu ra nào. Các thử nghiệm này cho thấy rằng mặc dù mô hình thành thạo giọng nói tiêu chuẩn, hiệu suất của nó giảm sút với âm thanh phức tạp liên quan đến tốc độ cao hoặc cảm xúc mạnh, bộc lộ khoảng cách so với các công ty dẫn đầu thị trường như Whisper của OpenAI.
Các Mô Hình Giọng Nói Và Hình Ảnh Cho Thấy Hứa Hẹn Nhưng Có Hạn Chế
Các mô hình khác đã chứng minh cả điểm mạnh và điểm yếu. MAI-Voice-1 tạo ra các phong cách âm thanh riêng biệt ấn tượng, bao gồm giọng tiếng Anh kiểu Shakespeare với nhịp điệu sân khấu và giọng Mỹ hiện đại, tươi sáng. Đầu ra của mô hình bao gồm các chi tiết nhỏ như âm thanh nước bọt, thêm mức độ thực tế cao.
MAI-Image-2, xếp thứ ba trên bảng xếp hạng người dùng Arena.ai sau các mô hình của Google và OpenAI, đã tạo ra các bản kết xuất chất lượng cao về cảnh quan thiên nhiên từ các lời nhắc chi tiết. Tuy nhiên, nó đã thất bại trong việc tạo hình ảnh khi nhận được các hướng dẫn phức tạp liên quan đến nhiều chủ thể và cảnh quay, cho thấy hạn chế trong việc xử lý các yêu cầu phức tạp của người dùng. Gã khổng lồ quảng cáo WPP được ghi nhận là một trong những người dùng doanh nghiệp lớn đầu tiên của mô hình này.
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.