Opus 4.6 đạt mục tiêu hiệu suất năm 2026 sớm 10 tháng
Ajeya Cotra, một nhà dự báo AI hàng đầu thuộc cơ quan đánh giá METR, đã công khai thừa nhận rằng tốc độ tiến bộ của AI đang vượt xa cả những dự đoán gần đây nhất của cô. Trong dự báo ngày 14 tháng 1, Cotra đã dự đoán rằng các mô hình AI tiên tiến nhất sẽ đạt tỷ lệ thành công 50% trong các nhiệm vụ kỹ thuật phần mềm yêu cầu “khoảng thời gian” 24 giờ vào cuối năm 2026. Chỉ hai tháng sau, mô hình Claude Opus 4.6 mới của Anthropic đã được đánh giá với khoảng thời gian xấp xỉ 12 giờ, đạt được cột mốc này sớm gần 10 tháng so với lịch trình.
Dữ liệu hiệu suất từ bộ thử nghiệm METR cho thấy Opus 4.6 đã hoàn thành ít nhất một phần 14 trong số 19 nhiệm vụ kỹ thuật phần mềm được ước tính cần hơn 8 giờ cho một người. Cotra tuyên bố rằng với 10 tháng phát triển nữa vẫn còn trong năm, dự đoán trước đây của cô rằng AI sẽ thất bại một nửa thời gian trong các nhiệm vụ 24 giờ là “không còn đáng tin cậy”.
Nhà nghiên cứu gán 10% khả năng AI tự động hoàn toàn vào năm 2024
Hiệu suất của mô hình đã buộc Cotra phải đánh giá lại khả năng AI đạt được sự tự động hóa hoàn toàn trong toàn bộ quá trình nghiên cứu và phát triển. Cô vẫn duy trì 10% khả năng rằng một hệ thống AI có thể hoàn toàn xử lý việc hình thành ý tưởng và triển khai nghiên cứu, không cần bất kỳ sự can thiệp nào của con người, trước cuối năm nay. Đánh giá này vẫn được giữ nguyên ngay cả khi các đồng nghiệp ban đầu xem ước tính 10% của cô là quá cao khi cô lần đầu đề xuất nó.
Sự thay đổi quan điểm này rất quan trọng, vì giọng điệu thận trọng của Cotra đã thay đổi về cơ bản. Trong khi lưu ý rằng AI vẫn thiếu “khả năng phán đoán nghiên cứu” và “sự sáng tạo” ở cấp độ con người, cô cũng đã làm rõ một sự không chắc chắn mới được thúc đẩy bởi sự tiến bộ nhanh chóng. Cô tuyên bố: “Đây là lần đầu tiên tôi không thể tìm thấy bất kỳ xu hướng ổn định nào mà tôi có thể ngoại suy để nói rằng nó sẽ không xảy ra sớm.”
Sự gia tăng khả năng vượt xa các thước đo đánh giá truyền thống
Sức mạnh tăng tốc của các mô hình AI cũng đang gây áp lực lên các khuôn khổ được sử dụng để đo lường chúng. Cotra lưu ý rằng khái niệm “khoảng thời gian” trở nên ít liên quan hơn khi các tác nhân AI có khả năng xử lý các nhiệm vụ vượt quá 80 giờ. Các dự án quy mô lớn như vậy tự nhiên phù hợp để phân tách thành các nhiệm vụ con nhỏ hơn, song song có thể được quản lý bởi một AI “quản lý” và được thực hiện bởi các tác nhân AI khác.
Thực tế này đã thúc đẩy thảo luận về các tiêu chuẩn mới, chẳng hạn như đo thời gian theo lịch cần thiết để một nhóm lớn hoàn thành một dự án thay vì số giờ của một người. Mặc dù phương pháp quản lý dự án do AI điều khiển này có thể không hoàn toàn tái tạo sự hiểu biết trực quan về các nhóm con người, nhưng Cotra tin rằng nó có thể chứng tỏ “hiệu quả đáng ngạc nhiên” đối với một loại lớn các dự án phần mềm, khiến giới hạn trên của khả năng kỹ thuật AI trong năm nay cực kỳ khó ước tính.