Lỗi cấu hình làm rò rỉ 3.000 tệp về AI mới của Anthropic
Một sự cố hoạt động đáng kể tại Anthropic đã dẫn đến việc rò rỉ ngẫu nhiên mô hình trí tuệ nhân tạo thế hệ tiếp theo của họ. Vào ngày 26 tháng 3, một hệ thống quản lý nội dung (CMS) bị cấu hình sai đã khiến khoảng 3.000 tài sản nội bộ chưa được công bố trở nên công khai. Các tài liệu này đã tiết lộ sự tồn tại của 'Claude Mythos', một mô hình chủ lực mới được phát triển dưới tên mã nội bộ 'Capybara'.
Các tài liệu dự thảo bị rò rỉ đặt 'Capybara' ở một cấp độ mới cao hơn so với mô hình hàng đầu hiện tại của công ty, Opus. Các tệp mô tả mô hình mới là một 'bước nhảy vọt thế hệ', cho biết nó đạt được 'điểm số cao hơn đáng kể' so với mô hình Claude Opus 4.6 trong các thử nghiệm lập trình phần mềm, suy luận học thuật và an ninh mạng. Một phát ngôn viên của Anthropic đã xác nhận rằng công ty đang phát triển một mô hình với 'những tiến bộ đáng kể' nhưng đang tiến hành thận trọng do sức mạnh của nó.
Mô hình mới gây ra rủi ro tấn công mạng 'chưa từng có'
Những cải thiện về hiệu suất bị lu mờ bởi những cảnh báo nội bộ nghiêm trọng về ý nghĩa bảo mật của mô hình. Các tài liệu dự thảo bị rò rỉ mô tả khả năng tấn công của Claude Mythos là 'vượt xa' bất kỳ mô hình AI hiện có nào khác. Đánh giá của chính công ty kết luận rằng công nghệ này có thể cho phép một làn sóng tấn công mạng mới, trong đó 'tốc độ khai thác sẽ vượt xa khả năng phản ứng của các nhà bảo vệ'.
Mối lo ngại này được khuếch đại bởi một môi trường an ninh nơi tội phạm đã sử dụng AI để thực hiện các xâm nhập hệ thống trong vòng chưa đầy 30 phút. Sức mạnh đặc biệt của 'Capybara' đại diện cho một sự leo thang lớn của mối đe dọa này. Để đối phó, Anthropic hiện có kế hoạch từ bỏ việc phát hành công khai rộng rãi. Thay vào đó, họ sẽ cung cấp quyền truy cập sớm chủ yếu cho các tổ chức an ninh mạng để giúp họ 'đi trước làn sóng khai thác được hỗ trợ bởi AI sắp tới' và củng cố hệ thống của chính họ.