Mô hình tầm trung mới của Anthropic mang lại hiệu suất tác nhân gần ngang flagship với chi phí chỉ bằng một phần nhỏ, làm nóng cuộc chiến giá AI trước thềm IPO bom tấn của công ty.
Mô hình tầm trung mới của Anthropic mang lại hiệu suất tác nhân gần ngang flagship với chi phí chỉ bằng một phần nhỏ, làm nóng cuộc chiến giá AI trước thềm IPO bom tấn của công ty.

Anthropic đã phát hành Claude Sonnet 5 vào thứ Ba, một mô hình tầm trung đạt hoặc tiệm cận flagship Opus 4.8 trên các chuẩn mực chính trong khi chi phí thấp hơn 60% mỗi token, khi năng lực tác nhân đang trở thành tiêu chuẩn mới trên toàn ngành công nghiệp mô hình nền tảng.
"Có thể lập kế hoạch, sử dụng các công cụ như trình duyệt và terminal, và vận hành tự động ở mức độ mà chỉ vài tháng trước đây đòi hỏi các mô hình lớn hơn và đắt tiền hơn," Anthropic cho biết trong một bài đăng blog.
Sonnet 5 đạt 63,2% trên SWE-bench Pro về mã hóa tác nhân, tăng từ 58,1% của Sonnet 4.6 và chỉ còn cách Opus 4.8 với 69,2% một khoảng ngắn. Trên chuẩn mực công việc tri thức GDPval-AA v2, nó đã vượt qua flagship, đạt 1.618 so với 1.615 của Opus 4.8. Giá API giới thiệu được đặt ở mức 2 đô la mỗi triệu token đầu vào và 10 đô la mỗi triệu token đầu ra đến hết ngày 31 tháng 8, sau đó tăng lên 3 đô la và 15 đô la — vẫn thấp hơn nhiều so với mức 5 đô la và 25 đô la của Opus 4.8.
Đợt ra mắt diễn ra khi Anthropic đang tiến nhanh đến một IPO mà sẽ kiểm tra xem liệu định giá AI trên thị trường tư nhân có thể chịu được sự giám sát của công chúng hay không. Công ty báo cáo doanh thu vận hành đạt 47 tỷ đô la sau vòng Series H vào tháng 5, nhưng biên lợi nhuận gộp — một con số mà chưa nhà quan sát bên ngoài nào được thấy — sẽ quyết định liệu câu chuyện có đứng vững hay không, theo Harrison Rolfes, nhà phân tích tại PitchBook.
Độ tin cậy tác nhân thu hẹp khoảng cách giữa thí điểm và sản xuất
Các đối tác truy cập sớm báo cáo rằng Sonnet 5 hoàn thành các quy trình đa bước mà các mô hình trước đây thường bị đình trệ. Daniel Shepard, kỹ sư cấp cao tại Zapier, cho biết mô hình đã hoàn thành một công việc tự động hóa gồm hai phần — cập nhật bậc tài khoản Salesforce và gửi thông báo ra mắt — mà "thường bị kẹt nửa chừng" với các phiên bản trước. Sualeh Asif, đồng sáng lập của Cursor, cho biết "với Claude Sonnet 5, các tác nhân bám sát kế hoạch, tuân theo quy ước của chúng tôi và thực hiện các thay đổi đa bước sạch sẽ, tất cả với chi phí hiệu quả."
Những lời chứng thực này giải quyết khoảng cách độ tin cậy đã khiến nhiều doanh nghiệp chưa đưa AI tác nhân từ các chương trình thí điểm vào sản xuất. Một mô hình hoàn thành toàn bộ quy trình làm việc sẽ thay đổi kinh tế học của tự động hóa, đặc biệt ở mức giá của Sonnet 5. Anthropic đã giới thiệu các đường cong chi phí-hiệu suất cho thấy các nhà phát triển có thể điều chỉnh mức nỗ lực giữa Sonnet 5 và Opus 4.8 để tìm ra sự cân bằng tối ưu giữa chi phí và độ chính xác cho các trường hợp sử dụng cụ thể.
Việc phát hành này phản ánh các động thái tương tự của các đối thủ cạnh tranh. GPT-5.6 Sol của OpenAI, được ra mắt dưới dạng xem trước vào tuần trước, cho phép người dùng phân chia công việc cho các tác nhân phụ cho các tác vụ tự động dài hơn. Gemini 3.5 Flash của Google, phát hành vào tháng 5, được định vị là sự chuyển dịch từ chatbot đàm thoại sang công cụ tác nhân. Mô hình này xác nhận rằng năng lực tác nhân giờ đây là yêu cầu tối thiểu ở mọi mức giá, với yếu tố khác biệt chuyển sang hiệu quả chi phí và độ tin cậy mà không cần sự giám sát của con người.
An toàn được cải thiện nhưng vẫn tụt hậu so với các mô hình mạnh nhất
Sonnet 5 cho thấy tỷ lệ ảo giác và xu nịnh thấp hơn so với Sonnet 4.6, có khả năng từ chối các yêu cầu độc hại tốt hơn, và có khả năng chống lại các cuộc tấn công tiêm nhiễm prompt trong các bối cảnh tác nhân tốt hơn, theo đánh giá nội bộ của Anthropic. Trong cuộc kiểm toán hành vi tự động của công ty, Sonnet 5 đạt điểm thấp hơn — nghĩa là an toàn hơn — so với người tiền nhiệm.
Tuy nhiên, nó cho thấy tỷ lệ hành vi sai lệch cao hơn một chút so với Opus 4.8 và Claude Mythos Preview, mô hình an ninh mạng bị hạn chế chặt chẽ của Anthropic. Trong một đánh giá phát triển khai thác Firefox 147 được tạo với Mozilla, không mô hình Sonnet nào có thể phát triển một vụ khai thác hoạt động — cả hai đều đạt 0% — mặc dù Sonnet 5 cho thấy tỷ lệ thành công một phần cao hơn một chút là 13,2% so với 8,8% của Sonnet 4.6. Opus 4.8 đạt 68,8% và Mythos 5 đạt 88,4%.
Do những cải thiện từng bước này, Anthropic đã ra mắt Sonnet 5 với các biện pháp bảo vệ an ninh mạng được bật theo mặc định — các hệ thống thời gian thực phát hiện và chặn các hành vi sử dụng an ninh mạng nguy hiểm. Các biện pháp bảo vệ này tương tự như trên Opus 4.7 và 4.8 nhưng ít hạn chế hơn so với các biện pháp áp dụng cho Fable 5 và Mythos 5.
Một chi tiết kỹ thuật đáng chú ý: Sonnet 5 sử dụng một bộ token hóa cập nhật thay đổi cách mô hình xử lý văn bản, tương tự như thay đổi mà Anthropic đã giới thiệu với Opus 4.7. Cùng một đầu vào có thể ánh xạ đến khoảng 1,0 đến 1,35 lần số token tùy thuộc vào loại nội dung. Anthropic cho biết mức giá giới thiệu được hiệu chỉnh để làm cho quá trình chuyển đổi "gần như trung hòa về chi phí," nhưng các khách hàng doanh nghiệp chạy khối lượng công việc cao sẽ muốn đánh giá chuẩn các trường hợp sử dụng cụ thể của họ trước khi cho rằng hóa đơn của họ sẽ không thay đổi.
Câu chuyện IPO và ý nghĩa của Sonnet 5 đối với nhà đầu tư
Quỹ đạo tài chính của Anthropic thật phi thường. Vào tháng 2, công ty đã huy động được 30 tỷ đô la ở mức định giá 380 tỷ đô la với doanh thu hàng năm hóa đạt 14 tỷ đô la. Đến cuối tháng 5, công ty đã chốt vòng Series H trị giá 65 tỷ đô la ở mức định giá hậu đầu tư 965 tỷ đô la với tốc độ doanh thu vận hành trên 47 tỷ đô la. Công ty đã bí mật nộp bản cáo bạch IPO lên SEC vào đầu tháng 6.
Sonnet 5 phục vụ một mục đích kép trong bối cảnh này. Đối với các nhà phát triển, nó mang lại những cải thiện năng lực thực sự với mức giá cạnh tranh. Đối với câu chuyện IPO của Anthropic, nó chứng minh công ty có thể cung cấp một sản phẩm hấp dẫn ở mức giá có thể thúc đẩy sự chấp nhận rộng rãi — doanh thu API định kỳ khối lượng lớn từ hàng ngàn khách hàng doanh nghiệp. Gil Luria, trưởng bộ phận nghiên cứu công nghệ tại D.A. Davidson, nói với CNBC rằng mặc dù Anthropic "dường như đang dẫn đầu" trong các mô hình AI tiên tiến, nhưng "phần lớn việc sử dụng hiện tại của họ là cho các thử nghiệm và thí điểm và điều đó có thể không bền vững."
Bài kiểm tra thực sự cho Sonnet 5 là liệu nó có chuyển đổi việc sử dụng thử nghiệm thành doanh thu cấp sản xuất hay không. Các khách hàng doanh nghiệp đang thử nghiệm với các mô hình Opus-class đắt tiền có thể thấy rằng Sonnet 5 mang lại chất lượng đủ tốt cho khối lượng công việc sản xuất ở mức giá mà các đội ngũ tài chính có thể phê duyệt ở quy mô lớn. Nếu nó hoạt động, nó có thể đẩy nhanh sự chuyển dịch từ thử nghiệm sang triển khai mà mọi công ty AI đều cần để biện minh cho định giá của mình.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.