Cựu Giám đốc AI Alibaba chỉ trích Qwen, báo hiệu chuyển dịch sang 'Tư duy tác nhân'

Cựu lãnh đạo Qwen thừa nhận "Chúng tôi đã không làm đúng mọi thứ"

Trong tuyên bố công khai đầu tiên kể từ khi rời Alibaba, cựu giám đốc AI Qwen Lin Junyang đã đưa ra một lời chỉ trích thẳng thắn về hướng kỹ thuật trước đây của đội ngũ. Ông công khai thừa nhận, "Chúng tôi đã không làm đúng mọi thứ," đặc biệt nhắm vào nỗ lực đầy tham vọng nhằm hợp nhất các chế độ "suy nghĩ" và "hướng dẫn" vào một mô hình duy nhất. Chiến lược này đã được thử nghiệm công khai nhất với mô hình Qwen3.

Lin giải thích rằng phương pháp lai đã tạo ra một hệ thống bị thỏa hiệp. Chức năng "suy nghĩ" trở nên dài dòng và do dự, trong khi chức năng "hướng dẫn" mất đi tính trực tiếp và độ tin cậy, cuối cùng trở nên đắt đỏ hơn. Đánh giá này được hỗ trợ bởi các hành động tiếp theo của Alibaba vào nửa cuối năm 2025, khi bản cập nhật phiên bản 2507 phát hành các mô hình "Hướng dẫn" và "Suy nghĩ" riêng biệt, chuyên dụng. Lin lập luận rằng mặc dù việc kết hợp các chế độ có vẻ hợp lý về mặt khái niệm, nhưng khó khăn thực tế trong việc dung hòa các yêu cầu dữ liệu và mục tiêu hành vi khác nhau của chúng đã khiến việc tách biệt trở thành một con đường hấp dẫn và hiệu quả hơn cho việc triển khai thương mại.

"Tư duy tác nhân" được coi là sự tiến hóa tiếp theo của AI

Lin định vị kỷ nguyên "Tư duy Lý luận", được minh chứng bằng các mô hình như o1 của OpenAI và DeepSeek-R1, là đã hoàn thành phần lớn sứ mệnh của nó. Các mô hình này đã chứng minh rằng lý luận phức tạp có thể được đào tạo và mở rộng. Câu hỏi quan trọng bây giờ, ông đưa ra, là điều gì sẽ đến tiếp theo. Câu trả lời của ông là một sự thay đổi cơ bản hướng tới "Tư duy Tác nhân"—chuyển từ việc đơn thuần "suy nghĩ lâu hơn" sang "suy nghĩ để hành động."

Mô hình mới này tập trung vào việc đào tạo các tác nhân AI có thể hoạt động trong một vòng lặp kín với môi trường của chúng. Những khác biệt chính của Tư duy Tác nhân bao gồm khả năng quyết định khi nào nên ngừng suy nghĩ và hành động, chọn và sắp xếp các công cụ, xử lý phản hồi nhiễu từ thế giới thực, và sửa đổi kế hoạch sau khi thất bại. Điều này chuyển trọng tâm từ việc đưa ra một câu trả lời cuối cùng, tĩnh sang việc duy trì hành động hiệu quả, liên tục trong một môi trường động. Mục tiêu không còn chỉ là một câu trả lời đúng, mà là giải quyết vấn đề một cách mạnh mẽ và hiệu quả thông qua tương tác.

Thị trường rộng lớn hơn đón nhận "Tư duy để hành động"

Tầm nhìn của Lin phù hợp với xu hướng thị trường rộng lớn hơn, nơi giá trị của AI được đo bằng tiện ích thực tế của nó. Khái niệm này đang thu hút sự chú ý thương mại, như đã thấy với các startup như Globeholder AI ra mắt "Phòng thí nghiệm Suy nghĩ" của mình. Công ty này định nghĩa phương pháp tiếp cận của mình là "Trí tuệ Loại 2"—các hệ thống có khả năng phân tích cấu trúc và kiểm tra giả thuyết—điều này trực tiếp phản ánh mô tả của Lin về lý luận định hướng mục tiêu.

Sự tiến hóa chiến lược này đang diễn ra khi các mô hình mã nguồn mở của Trung Quốc, bao gồm Qwen của Alibaba và DeepSeek, nhanh chóng thách thức sự thống trị của các hệ thống độc quyền phương Tây như ChatGPT. Theo một báo cáo của quốc hội vào tháng 3 năm 2026, các mô hình của Trung Quốc đại diện cho một phần ngày càng tăng trong tổng số lượt tải xuống và sử dụng toàn cầu. Việc Lin ủng hộ một khung AI mới, đến từ một nhân vật chủ chốt đằng sau một trong những dự án mã nguồn mở thành công nhất của Trung Quốc, cung cấp một lộ trình chiến lược về cách các nhà phát triển có thể xây dựng các ứng dụng thực tế và mạnh mẽ hơn, làm tăng cường sự cạnh tranh toàn cầu để định nghĩa tương lai của trí tuệ nhân tạo.