Gemini 3 Flash đạt tỷ lệ thành công 95.1%
Kết quả đầu tiên từ PinchBench, một chuẩn mới đánh giá các mô hình AI trên các tác vụ tác nhân phức tạp bằng công cụ OpenClaw, cho thấy Gemini 3 Flash của Google dẫn đầu 32 mô hình với tỷ lệ thành công 95.1%. Hiệu suất này đáng chú ý vì Flash được định vị là một mô hình nhẹ, hiệu quả, nhưng lại vượt qua các đối thủ nặng ký bao gồm GPT-4o của OpenAI (85.2%), flagship Claude Opus 4.6 của Anthropic (90.6%), và thậm chí cả Gemini 3 Pro của Google (91.7%). Kết quả cho thấy đối với các quy trình làm việc tự động, đa bước, các mô hình nhỏ hơn được tối ưu hóa có thể mang lại độ tin cậy vượt trội so với các mô hình lớn hơn, tổng quát hơn.
Các mô hình Trung Quốc vượt trội GPT-4o về hiệu suất
Các nhà phát triển AI Trung Quốc đã thể hiện sức mạnh cạnh tranh đáng kể, với hai mô hình giành vị trí top ba trong bảng xếp hạng tỷ lệ thành công. Mô hình M2.1 của MiniMax đạt tỷ lệ thành công 93.6%, xếp thứ hai chung cuộc, trong khi mô hình K2.5 của Kimi theo sát ở vị trí thứ ba với 93.4%. Cả hai mô hình đều vượt trội GPT-4o và nhấn mạnh khả năng tiến bộ nhanh chóng của hệ sinh thái AI trong nước của Trung Quốc. Hơn nữa, MiniMax còn xuất sắc về tốc độ xử lý, với mô hình M2.5 của họ hoàn thành toàn bộ bộ thử nghiệm trong 105.96 giây, đứng đầu về tốc độ.
Chi phí cao làm suy yếu hiệu quả của các mô hình flagship
Chuẩn này phơi bày một sự đánh đổi rõ rệt giữa chi phí và hiệu suất trong số các mô hình AI hàng đầu. Claude Opus 4.6 của Anthropic, thường được coi là một mô hình hàng đầu, ghi nhận chi phí cao nhất là 5.89 USD để hoàn thành thử nghiệm, nhưng tỷ lệ thành công 90.6% của nó lại thấp hơn so với một số lựa chọn thay thế rẻ hơn. Chẳng hạn, MiniMax M2.1 mang lại tỷ lệ thành công cao hơn (93.6%) chỉ với 0.14 USD, chiếm một phần nhỏ chi phí. Ở mức thấp nhất, GPT-5 Nano hoàn thành các tác vụ chỉ với 0.03 USD với tỷ lệ thành công 85.8%. Dữ liệu này chỉ ra rằng đối với các doanh nghiệp mở rộng tác nhân AI, việc lựa chọn một mô hình dựa trên danh tiếng thương hiệu hoặc kích thước đơn thuần có thể là một chiến lược không hiệu quả về mặt tài chính, với các mô hình tầm trung mang lại sự cân bằng hấp dẫn hơn về chi phí và độ tin cậy.