Phòng thí nghiệm Tongyi của Alibaba đã trình làng một thuật toán mới, FIPO (Future-KL Influenced Policy Optimization), nhằm giải quyết vấn đề "đình trệ độ dài suy luận" vốn đã thách thức các mô hình học tăng cường thuần túy. Nhóm tính toán thông minh đứng sau dự án tuyên bố rằng phương pháp của họ đã đạt được hiệu suất vượt trội ở quy mô 32B, vượt qua các đối thủ đã có tên tuổi.
Người phát ngôn của Phòng thí nghiệm Tongyi của Alibaba cho biết: "Bước đột phá này giải quyết một nút thắt quan trọng trong việc huấn luyện các mô hình lớn cho các tác vụ suy luận đa bước, phức tạp. Bằng cách thưởng cho các token có ảnh hưởng nhất đến kết quả trong tương lai, chúng tôi có thể hướng dẫn mô hình tạo ra các phản hồi dài hơn, mạch lạc hơn và chính xác hơn."
Cốt lõi của FIPO là cơ chế "Future-KL". Trong học tăng cường thuần túy (Pure RL), các mô hình có thể bị kẹt trong một vòng lặp, tạo ra các đầu ra lặp lại hoặc thiển cận, một vấn đề được gọi là "đình trệ độ dài suy luận". FIPO giải quyết vấn đề này bằng cách xác định và thưởng cho các "token chính" có ảnh hưởng cao đến văn bản được tạo ra trong tương lai của mô hình. Theo thông báo của nhóm, phương pháp này đã cho phép mô hình tham số 32B của họ vượt trội hơn cả o1-mini và DeepSeek-Zero-MATH, hai mô hình ngôn ngữ lớn khác được biết đến với khả năng suy luận toán học.
Sự phát triển này có thể tăng cường đáng kể hiệu suất của dòng mô hình Qwen của Alibaba, củng cố vị thế của hãng trước các đối thủ toàn cầu như Nvidia và các đối thủ trong nước. Đối với các nhà đầu tư, khả năng vượt qua các hạn chế huấn luyện trong RL thuần túy có thể chuyển thành các sản phẩm AI mạnh mẽ và hiệu quả hơn, có khả năng tác động đến doanh thu điện toán đám mây và chiến lược AI dài hạn của Alibaba. Công ty không tiết lộ các tiêu chuẩn cụ thể hoặc chi phí của đợt huấn luyện.
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.