Độ sâu tư duy của Claude Code thuộc Anthropic giảm mạnh 67%

Một báo cáo gây sốc từ Giám đốc AI của AMD cáo buộc rằng AI Claude Code của Anthropic đã chứng kiến hiệu suất xuống cấp có hệ thống kể từ tháng Hai, với "độ sâu tư duy" giảm mạnh 67% và khiến chi phí API tăng vọt gấp 122 lần cho một nhóm. Phân tích này, được đăng công khai trên GitHub, đã châm ngòi cho một làn sóng phản đối dữ dội trong cộng đồng nhà phát triển, đặt câu hỏi về độ tin cậy của trợ lý lập trình AI và gây áp lực lên đối thủ cạnh tranh Codex của OpenAI.

"Claude đã không còn có thể được tin cậy để thực hiện các nhiệm vụ kỹ thuật phức tạp nữa," Stella Laurenzo, một trưởng nhóm trong đội ngũ AI của AMD, cho biết trong báo cáo vấn đề trên GitHub. Cô cảnh báo rằng nhóm của mình đã chuyển sang các nhà cung cấp dịch vụ khác và "các đối thủ cạnh tranh khác cần được xem xét và đánh giá rất nghiêm túc" ngay bây giờ.

Phân tích của Laurenzo dựa trên 6.852 nhật ký phiên, tiết lộ sự sụt giảm mạnh mẽ về hiệu suất. Độ sâu tư duy trung bình của mô hình, một thước đo quá trình suy luận của nó, đã giảm từ khoảng 2.200 ký tự vào đầu tháng Hai xuống chỉ còn 720 ký tự vào cuối tháng. Sự sụp đổ trong suy luận này đi kèm với việc giảm 70% nỗ lực nghiên cứu trước khi viết mã, với tỷ lệ "đọc-sửa đổi" của mô hình giảm từ 6,6 xuống 2,0. Điều này dẫn đến sự gia tăng đột biến các lỗi, với việc mô hình cố gắng sửa đổi mã mà không đọc các tệp liên quan trước đó trong một trên ba lần chỉnh sửa.

Sự sụt giảm hiệu suất đã dẫn đến những hậu quả thảm khốc về chi phí. Nhóm của Laurenzo thấy hóa đơn API hàng tháng ước tính của họ, dựa trên giá Bedrock Opus, tăng vọt từ 345 USD lên 42.121 USD — tăng gấp 122 lần — trong khi tạo ra kết quả tệ hơn. Nhóm đã buộc phải đóng cửa toàn bộ cụm tác nhân (agent cluster) của họ. Báo cáo gợi ý rằng sự xuống cấp trùng hợp với việc Anthropic giới thiệu tính năng "tư duy thích ứng" và thay đổi cài đặt "nỗ lực" mặc định từ cao xuống trung bình.

Anthropic phản hồi, cộng đồng hoài nghi

Một thành viên của nhóm Claude Code, được xác định là Boris, đã phản hồi bằng cách tuyên bố rằng các thay đổi không nhằm mục đích làm suy giảm logic cơ bản của mô hình. Ông giải thích rằng tính năng ẩn quá trình tư duy của mô hình là một thay đổi về giao diện người dùng và người dùng có thể quay lại cài đặt "nỗ lực" cao hơn một cách thủ công. Tuy nhiên, nhiều nhà phát triển trong cộng đồng vẫn không thuyết phục, cho rằng ngay cả ở cài đặt nỗ lực cao nhất, hiệu suất của mô hình vẫn không đạt tiêu chuẩn. "Vấn đề còn nhiều hơn việc chỉ thay đổi mức độ tư duy mặc định sang trung bình," một người dùng bình luận trên Hacker News.

Nhà phát triển tìm kiếm giải pháp thay thế

Sự cố đã khiến nhiều nhà phát triển từ bỏ nền tảng này, với một số tuyên bố công khai rằng họ đã chuyển sang các giải pháp thay thế như Codex của OpenAI hoặc các mô hình mã nguồn mở như Qwen3.5-27b. Như một biện pháp khắc phục tạm thời, một số người dùng đang ủy quyền rõ ràng cho mô hình chỉnh sửa tệp và chia nhỏ các nhiệm vụ phức tạp thành các phần nhỏ hơn, dễ quản lý hơn. Báo cáo của Laurenzo kêu gọi sự minh bạch hơn từ Anthropic, bao gồm việc hiển thị thinking_tokens trong phản hồi API để người dùng có thể tự theo dõi độ sâu suy luận của mô hình.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.