Google, AI Trung Quốc vượt trội OpenAI trong chuẩn Agent đầu tiên

Edgen Stock·Mar 09 2026, 00:17

Chia sẻ đến

Chia sẻ đến

Sao chép liên kết

Những điểm chính

Chuẩn PinchBench đầu tiên tiết lộ một cục diện cạnh tranh mới cho các tác nhân AI, nơi các mô hình nhẹ hơn, hiệu quả về chi phí đang vượt trội so với các nhà lãnh đạo ngành đã được thành lập. Kết quả cho thấy đối với các tác vụ tự động hóa phức tạp, kích thước mô hình không phải là yếu tố quyết định duy nhất để thành công, tạo ra những cân nhắc mới cho các nhà phát triển và người dùng doanh nghiệp.

Mô hình nhẹ của Google dẫn đầu: Gemini 3 Flash của Google, được thiết kế cho tốc độ và hiệu quả, bất ngờ đạt vị trí cao nhất với tỷ lệ thành công 95.1%, vượt qua các mô hình lớn hơn, nổi bật hơn.
AI Trung Quốc thể hiện sức mạnh: Hai mô hình Trung Quốc, MiniMax M2.1 và Kimi K2.5, nằm trong top ba với tỷ lệ thành công lần lượt là 93.6% và 93.4%, vượt trội so với GPT-4o của OpenAI.
Hiệu quả chi phí thách thức các mô hình flagship: Chuẩn này làm nổi bật sự khác biệt đáng kể về chi phí, với Claude Opus 4.6 của Anthropic có chi phí 5.89 USD cho mỗi lần chạy so với MiniMax M2.1 chỉ 0.14 USD, mặc dù mô hình sau đạt tỷ lệ thành công cao hơn.

Gemini 3 Flash đạt tỷ lệ thành công 95.1%

Kết quả đầu tiên từ PinchBench, một chuẩn mới đánh giá các mô hình AI trên các tác vụ tác nhân phức tạp bằng công cụ OpenClaw, cho thấy Gemini 3 Flash của Google dẫn đầu 32 mô hình với tỷ lệ thành công 95.1%. Hiệu suất này đáng chú ý vì Flash được định vị là một mô hình nhẹ, hiệu quả, nhưng lại vượt qua các đối thủ nặng ký bao gồm GPT-4o của OpenAI (85.2%), flagship Claude Opus 4.6 của Anthropic (90.6%), và thậm chí cả Gemini 3 Pro của Google (91.7%). Kết quả cho thấy đối với các quy trình làm việc tự động, đa bước, các mô hình nhỏ hơn được tối ưu hóa có thể mang lại độ tin cậy vượt trội so với các mô hình lớn hơn, tổng quát hơn.

Các mô hình Trung Quốc vượt trội GPT-4o về hiệu suất

Các nhà phát triển AI Trung Quốc đã thể hiện sức mạnh cạnh tranh đáng kể, với hai mô hình giành vị trí top ba trong bảng xếp hạng tỷ lệ thành công. Mô hình M2.1 của MiniMax đạt tỷ lệ thành công 93.6%, xếp thứ hai chung cuộc, trong khi mô hình K2.5 của Kimi theo sát ở vị trí thứ ba với 93.4%. Cả hai mô hình đều vượt trội GPT-4o và nhấn mạnh khả năng tiến bộ nhanh chóng của hệ sinh thái AI trong nước của Trung Quốc. Hơn nữa, MiniMax còn xuất sắc về tốc độ xử lý, với mô hình M2.5 của họ hoàn thành toàn bộ bộ thử nghiệm trong 105.96 giây, đứng đầu về tốc độ.

Chi phí cao làm suy yếu hiệu quả của các mô hình flagship

Chuẩn này phơi bày một sự đánh đổi rõ rệt giữa chi phí và hiệu suất trong số các mô hình AI hàng đầu. Claude Opus 4.6 của Anthropic, thường được coi là một mô hình hàng đầu, ghi nhận chi phí cao nhất là 5.89 USD để hoàn thành thử nghiệm, nhưng tỷ lệ thành công 90.6% của nó lại thấp hơn so với một số lựa chọn thay thế rẻ hơn. Chẳng hạn, MiniMax M2.1 mang lại tỷ lệ thành công cao hơn (93.6%) chỉ với 0.14 USD, chiếm một phần nhỏ chi phí. Ở mức thấp nhất, GPT-5 Nano hoàn thành các tác vụ chỉ với 0.03 USD với tỷ lệ thành công 85.8%. Dữ liệu này chỉ ra rằng đối với các doanh nghiệp mở rộng tác nhân AI, việc lựa chọn một mô hình dựa trên danh tiếng thương hiệu hoặc kích thước đơn thuần có thể là một chiến lược không hiệu quả về mặt tài chính, với các mô hình tầm trung mang lại sự cân bằng hấp dẫn hơn về chi phí và độ tin cậy.