Anthropic ra mắt Claude 4.7: Tăng cường lập trình nhưng cắt giảm 46% ngữ cảnh

Anthropic đã phát hành Claude Opus 4.7 với các điểm số dẫn đầu trong lĩnh vực kỹ thuật phần mềm, nhưng khả năng ghi nhớ ngữ cảnh dài của mô hình đã giảm hơn 46 điểm phần trăm, báo hiệu một sự chuyển dịch chiến lược từ hiệu suất toàn diện sang các công cụ doanh nghiệp chuyên dụng.

"Đây là một phiên bản Opus 4.6 thông minh hơn, hiệu quả hơn," CTO của Hex cho biết trong một tuyên bố do Anthropic chia sẻ, đồng thời lưu ý rằng "Opus 4.7 ở mức nỗ lực thấp tương đương với Opus 4.6 ở mức nỗ lực trung bình."

Mô hình mới đạt 64,3% trong bài kiểm tra lập trình SWE-bench Pro, một bước nhảy vọt đáng kể so với mức 53,4% của phiên bản tiền nhiệm và vượt xa GPT-5.4 của OpenAI ở mức 57,7%. Tuy nhiên, trên tiêu chuẩn ngữ cảnh dài MRCR v2, điểm số của nó đã sụp đổ xuống còn 32,2% từ mức 78,3% của Opus 4.6, kết quả trực tiếp của một bộ phân tách từ (tokenizer) mới cũng làm tăng chi phí thực tế cho người dùng.

Sự đánh đổi này cho thấy Anthropic, công ty được cho là đang vận hành với tỷ lệ doanh thu hàng năm 30 tỷ đô la, đang ưu tiên thị trường lập trình doanh nghiệp và quy trình làm việc của đại lý (agentic workflow) có biên lợi nhuận cao hơn là cuộc đua tốn kém cho cửa sổ ngữ cảnh lớn nhất. Đối với các nhà phát triển, điều này có nghĩa là một công cụ mạnh mẽ hơn nhưng có thể đắt đỏ hơn và ít phù hợp hơn để phân tích tài liệu dài, một khả năng mà công ty từng dẫn đầu.

Bản nâng cấp có mục tiêu

Opus 4.7 không phải là một cải tiến toàn diện mà là một bản nâng cấp có mục tiêu. Các bước tiến của mô hình tập trung vào các lĩnh vực quan trọng đối với các nhà phát triển doanh nghiệp, một phân khúc thị trường đã giúp Claude Code đạt doanh thu hàng năm báo cáo là 2,5 tỷ đô la vào tháng Hai. Trên CursorBench, bài kiểm tra đo lường hiệu suất trong trình soạn thảo mã AI phổ biến, Opus 4.7 đạt 70%, tăng 12 điểm so với phiên bản trước. Rakuten, một đối tác sớm, báo cáo rằng mô hình mới giải quyết các tác vụ sản xuất nhiều gấp ba lần so với Opus 4.6.

Khả năng thị giác cũng nhận được một bản nâng cấp đáng kể. Trên tiêu chuẩn thị giác XBOW, độ chính xác của Opus 4.7 đã nhảy vọt lên 98,5% từ mức 54,5% của mô hình trước đó. Cải tiến này, kết hợp với việc tăng độ phân giải hình ảnh gấp ba lần, giúp các tác vụ thị giác phức tạp như đọc các sơ đồ dày đặc hoặc ảnh chụp màn hình trở nên đủ tin cậy cho môi trường sản xuất, một yêu cầu then chốt đối với các đại lý sử dụng máy tính.

Những cải tiến này đi kèm với một cái giá. Khả năng ghi nhớ thông tin từ các tài liệu lớn của mô hình — một đặc điểm nổi bật của các phiên bản Claude trước đây — đã bị cắt giảm nghiêm trọng. Mức giảm 46 điểm trên tiêu chuẩn ngữ cảnh dài khiến Opus 4.7 trở thành một bước lùi đáng kể đối với người dùng trong các lĩnh vực như luật pháp và nghiên cứu, những người dựa vào việc phân tích các văn bản mở rộng. Anthropic cho rằng sự thay đổi này là do bộ phân tách từ mới, vốn xử lý văn bản theo cách khác.

Chi phí ẩn

Mặc dù Anthropic thông báo không thay đổi mức giá danh nghĩa là 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra, bộ phân tách từ mới có nghĩa là cùng một văn bản hiện tạo ra lượng token nhiều hơn từ 1,0 đến 1,35 lần. Điều này, kết hợp với mức nỗ lực mặc định mới "xhigh" sử dụng nhiều năng lượng xử lý hơn, dẫn đến sự gia tăng chi phí hữu hình cho nhiều người dùng.

Việc phát hành đang được một số người coi là một nước cờ chiến lược. Anthropic tuyên bố rõ ràng rằng Opus 4.7 "ít có khả năng toàn diện hơn" so với mô hình mạnh nhất của họ, Claude Mythos Preview chưa được phát hành, vốn chỉ dành cho một số ít đối tác như Google và Microsoft để nghiên cứu an ninh mạng. Bằng cách làm giảm các khả năng như ghi nhớ ngữ cảnh dài và tìm kiếm web, nơi Opus 4.7 hiện tụt hậu so với cả GPT-5.4 và Gemini 3.1 Pro, Anthropic dường như đang tập trung nguồn lực vào các ứng dụng thương mại có con đường dẫn đến doanh thu rõ ràng nhất.

Đối với các nhà đầu tư và khách hàng doanh nghiệp, Opus 4.7 là một tín hiệu rõ ràng về một thị trường AI đang trưởng thành. Thời đại chạy đua tìm kiếm "mô hình mạnh nhất" trên mọi tiêu chuẩn có thể đang nhường chỗ cho một giai đoạn mới của các mô hình chuyên biệt được thiết kế cho các tác vụ cụ thể, giá trị cao. Mặc dù Opus 4.7 mở rộng vị thế dẫn đầu của Anthropic trong không gian lập trình và quy trình làm việc của đại lý đầy lợi nhuận, nhưng những sự đánh đổi có chủ đích của nó có nghĩa là khách hàng hiện phải đánh giá các mô hình không chỉ dựa trên điểm mạnh mà còn dựa trên những điểm yếu đã được tính toán.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.