Anthropic rò rỉ tiết lộ mô hình AI quá nguy hiểm để phát hành công khai

Edgen Stock·Mar 27 2026, 07:58

Chia sẻ đến

Chia sẻ đến

Sao chép liên kết

Các điểm chính

Một lỗi cấu hình tại công ty AI Anthropic đã làm lộ gần 3.000 tài liệu nội bộ, tiết lộ một mô hình mới mạnh mẽ có tên 'Claude Mythos'. Mặc dù mô hình này đại diện cho một 'bước nhảy vọt thế hệ' về khả năng, công ty đang trì hoãn việc phát hành công khai, với lý do tiềm năng của nó có thể gây ra các cuộc tấn công mạng chưa từng có.

Một lỗi cấu hình trong hệ thống quản lý nội dung (CMS) đã vô tình khiến gần 3.000 tài liệu nội bộ của Anthropic, bao gồm các bài đăng blog và PDF dự thảo, có thể truy cập công khai.
Vụ rò rỉ đã tiết lộ một mô hình AI hàng đầu mới có tên mã 'Capybara', được cho là cho thấy những cải thiện hiệu suất đáng kể so với mô hình hàng đầu hiện tại, Claude Opus 4.6, trong mã hóa và suy luận.
Các tài liệu nội bộ mô tả mô hình này là một rủi ro an ninh mạng lớn, với khả năng tấn công 'vượt xa' bất kỳ AI hiện có nào, thúc đẩy một chiến lược phát hành thận trọng, tập trung vào các nhà bảo vệ an ninh trước tiên.

Lỗi cấu hình làm rò rỉ 3.000 tệp về AI mới của Anthropic

Một sự cố hoạt động đáng kể tại Anthropic đã dẫn đến việc rò rỉ ngẫu nhiên mô hình trí tuệ nhân tạo thế hệ tiếp theo của họ. Vào ngày 26 tháng 3, một hệ thống quản lý nội dung (CMS) bị cấu hình sai đã khiến khoảng 3.000 tài sản nội bộ chưa được công bố trở nên công khai. Các tài liệu này đã tiết lộ sự tồn tại của 'Claude Mythos', một mô hình chủ lực mới được phát triển dưới tên mã nội bộ 'Capybara'.

Các tài liệu dự thảo bị rò rỉ đặt 'Capybara' ở một cấp độ mới cao hơn so với mô hình hàng đầu hiện tại của công ty, Opus. Các tệp mô tả mô hình mới là một 'bước nhảy vọt thế hệ', cho biết nó đạt được 'điểm số cao hơn đáng kể' so với mô hình Claude Opus 4.6 trong các thử nghiệm lập trình phần mềm, suy luận học thuật và an ninh mạng. Một phát ngôn viên của Anthropic đã xác nhận rằng công ty đang phát triển một mô hình với 'những tiến bộ đáng kể' nhưng đang tiến hành thận trọng do sức mạnh của nó.

Mô hình mới gây ra rủi ro tấn công mạng 'chưa từng có'

Những cải thiện về hiệu suất bị lu mờ bởi những cảnh báo nội bộ nghiêm trọng về ý nghĩa bảo mật của mô hình. Các tài liệu dự thảo bị rò rỉ mô tả khả năng tấn công của Claude Mythos là 'vượt xa' bất kỳ mô hình AI hiện có nào khác. Đánh giá của chính công ty kết luận rằng công nghệ này có thể cho phép một làn sóng tấn công mạng mới, trong đó 'tốc độ khai thác sẽ vượt xa khả năng phản ứng của các nhà bảo vệ'.

Mối lo ngại này được khuếch đại bởi một môi trường an ninh nơi tội phạm đã sử dụng AI để thực hiện các xâm nhập hệ thống trong vòng chưa đầy 30 phút. Sức mạnh đặc biệt của 'Capybara' đại diện cho một sự leo thang lớn của mối đe dọa này. Để đối phó, Anthropic hiện có kế hoạch từ bỏ việc phát hành công khai rộng rãi. Thay vào đó, họ sẽ cung cấp quyền truy cập sớm chủ yếu cho các tổ chức an ninh mạng để giúp họ 'đi trước làn sóng khai thác được hỗ trợ bởi AI sắp tới' và củng cố hệ thống của chính họ.