Anthropic phát hành Fable 5 với các biện pháp bảo vệ khi AI lớp Mythos ra mắt công chúng

Claude Fable 5 của Anthropic mang trí tuệ lớp Mythos đến người dùng phổ thông, nhưng các truy vấn an ninh mạng tự động bị giảm cấp xuống một mô hình kém khả năng hơn.

Anthropic đã phát hành Claude Fable 5, một mô hình AI lớp Mythos có khả năng giảm cấp các truy vấn về an ninh mạng và nghiên cứu sinh học xuống hệ thống Opus 4.8 cũ hơn, đánh dấu lần đầu tiên công ty đưa công nghệ mạnh nhất của mình ra phổ biến rộng rãi.

"Chúng tôi muốn có thể cung cấp mức độ thông minh này cho người dùng phổ thông một cách an toàn," Dianne Penn, người đứng đầu bộ phận quản lý sản phẩm, nghiên cứu và phòng thí nghiệm của Anthropic, nói với The Wall Street Journal.

Fable 5 có giá 10 đô la cho mỗi triệu token đầu vào và 50 đô la cho mỗi triệu token đầu ra, thấp hơn một nửa so với giá của Claude Mythos Preview. Mô hình này vượt trội so với tất cả các hệ thống Claude trước đây trên các điểm chuẩn về kỹ thuật phần mềm, thị giác và công việc tri thức. Stripe đã sử dụng Fable 5 để hoàn tất việc di chuyển toàn bộ cơ sở mã trong một kho lưu trữ Ruby 50 triệu dòng chỉ trong một ngày, một nhiệm vụ mà công ty ước tính sẽ cần hơn hai tháng nỗ lực thủ công của kỹ sư.

Việc phát hành này cho thấy Anthropic tin rằng các bộ phân loại an toàn của họ đủ mạnh để thương mại hóa AI tiên phong mà không khiến người dùng tiếp xúc với những khả năng nguy hiểm nhất. Tuy nhiên, các thử nghiệm ban đầu cho thấy các biện pháp bảo vệ có thể rộng hơn so với quảng cáo, có khả năng hạn chế tiện ích của mô hình đối với các chuyên gia an ninh mạng – những người đại diện cho một phân khúc khách hàng quan trọng.

Cách thức hoạt động của các biện pháp bảo vệ

Fable 5 sử dụng các bộ phân loại dựa trên AI để phát hiện các yêu cầu liên quan đến an ninh mạng, sinh học, hóa học và chưng cất mô hình. Khi bị kích hoạt, hệ thống sẽ chuyển hướng truy vấn sang Claude Opus 4.8 thay vì Fable 5. Anthropic cho biết việc chuyển đổi dự phòng này xảy ra ở ít hơn 5% số phiên làm việc, nghĩa là hầu hết người dùng tương tác với mô hình Mythos đầy đủ trong quá trình sử dụng thông thường.

Công ty mô tả các biện pháp bảo vệ này là có chủ ý thận trọng, ưu tiên an toàn hơn sự thuận tiện. Anthropic đã tiến hành một chương trình săn lỗi bên ngoài và không có vụ phá vỡ bảo vệ toàn diện nào trong hơn 1.000 giờ thử nghiệm, mặc dù UK AISI đã đạt được một số tiến triển trong một khung thử nghiệm ban đầu ngắn.

Rob T. Lee, giám đốc AI và trưởng bộ phận nghiên cứu tại SANS Institute, nói với CSO rằng các tác vụ an ninh mạng thông thường của ông liên quan đến ứng phó sự cố, phát hiện và quy trình pháp y cơ bản đã tự động bị chuyển từ Fable 5 sang Opus 4.8 trong quá trình thử nghiệm ban đầu. Nếu những quan sát đó được xác nhận trong các thử nghiệm rộng hơn, điều này có thể chỉ ra rằng các bộ phân loại của Anthropic đang xác định rộng rãi các yêu cầu liên quan đến an ninh mạng thay vì phân biệt giữa hoạt động lành tính và độc hại.

Mythos 5 dành cho người bảo vệ mạng

Đối với một nhóm người dùng được chọn lọc, Anthropic cũng đang phát hành Claude Mythos 5, cùng một mô hình cơ bản với Fable 5 nhưng đã loại bỏ các biện pháp bảo vệ an ninh mạng. Thông qua Project Glasswing, khoảng 200 tổ chức bao gồm Verizon và Microsoft sẽ có quyền truy cập vào phiên bản không hạn chế này. Anthropic có kế hoạch mở rộng dần quyền truy cập thông qua một chương trình truy cập đáng tin cậy rộng hơn được phát triển với sự tham vấn của chính phủ Hoa Kỳ.

Công ty cho biết Mythos 5 sở hữu khả năng an ninh mạng mạnh nhất so với bất kỳ mô hình nào hiện có, bao gồm khả năng phát hiện lỗ hổng phần mềm, hỗ trợ phát triển khai thác và thực hiện các tác vụ an ninh mạng đa giai đoạn phức tạp. Chính những khả năng đó đã thúc đẩy Anthropic hạn chế quyền truy cập vào các phiên bản trước đó của công nghệ này.

Ý nghĩa đối với các nhà lãnh đạo bảo mật

Đối với các CISO và đội ngũ bảo mật, thông báo này đặt ra câu hỏi về tốc độ mà các tổ chức có thể thích ứng với các hệ thống AI ngày càng mạnh mẽ. Thách thức không còn đơn giản là có được quyền truy cập vào các mô hình tiên tiến mà là tích hợp chúng vào các hoạt động bảo mật theo những cách mang lại lợi ích có thể đo lường được.

Anthony Grieco, phó chủ tịch cấp cao kiêm giám đốc bảo mật và tin cậy của Cisco, cho biết các tổ chức nên tập trung vào việc triển khai các mô hình mạnh mẽ một cách hiệu quả trong khi vẫn duy trì các nguyên tắc bảo mật cơ bản vững chắc. "Tốc độ phát triển AI tiên phong đang thay đổi cục diện bảo mật trong thời gian thực, và những người phòng thủ không thể chờ đợi mọi thứ lắng xuống," Grieco cho biết trong một tuyên bố.

Đồng thời, Grieco cũng cảnh báo không nên coi AI là sự thay thế cho các thực hành bảo mật nền tảng. "AI sẽ nâng cao trần năng lực cho những người phòng thủ, nhưng khả năng phục hồi bảo mật vẫn là nền tảng quyết định liệu những lợi ích đó có chuyển thành sự bảo vệ thực sự hay không," ông nói. Ngay cả khi các mô hình AI thúc đẩy kỹ thuật phần mềm, phân tích và vận hành bảo mật, các tổ chức vẫn cần thực hiện các nguyên tắc cơ bản như vá lỗi, xác thực đa yếu tố, phân đoạn mạng và kiến trúc zero trust.

Cổ phiếu của Anthropic, vốn không được giao dịch công khai, không có tác động trực tiếp đến thị trường. Nhưng việc phát hành này gây áp lực lên các đối thủ OpenAI và Google để đạt được khả năng tương đương lớp Mythos trong khi vẫn duy trì các tiêu chuẩn an toàn tương ứng. OpenAI đã công bố đơn đăng ký S-1 bảo mật của riêng mình vào thứ Hai, và SpaceX, bao gồm cả xAI của Elon Musk, dự kiến sẽ bắt đầu giao dịch trên Nasdaq trong tuần này.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.