GPT-5.3-Codex đạt 77.3% điểm, vượt xa mô hình của đối thủ
OpenAI đã châm ngòi một cuộc đối đầu trực tiếp với đối thủ Anthropic, ra mắt mô hình lập trình mới của mình, GPT-5.3-Codex, vào thứ Năm, đúng thời điểm Anthropic phát hành bản cập nhật hàng đầu của mình, Claude Opus 4.6. Việc phát hành đồng bộ này đánh dấu sự leo thang đáng kể trong cuộc chiến giành thị trường phần mềm AI doanh nghiệp. OpenAI khẳng định mô hình mới của họ là một bước nhảy vọt lớn, đạt 77.3% trên điểm chuẩn Terminal-Bench 2.0, một bài kiểm tra đo lường các kỹ năng vận hành terminal thiết yếu cho các tác nhân lập trình. Con số này đại diện cho sự cải thiện 13 điểm phần trăm so với phiên bản tiền nhiệm và vượt trội đáng kể so với 65.4% được báo cáo của Opus 4.6 của Anthropic.
Ngoài các điểm chuẩn, OpenAI còn nhấn mạnh những cải tiến đáng kể về hiệu quả, cho biết mô hình mới yêu cầu ít hơn một nửa số token so với phiên bản tiền nhiệm trong khi tăng tốc độ suy luận hơn 25%. Trong một cột mốc quan trọng của ngành, công ty cũng tiết lộ rằng các phiên bản đầu tiên của GPT-5.3-Codex đã được sử dụng trong quá trình phát triển, gỡ lỗi và triển khai của chính họ. CEO OpenAI Sam Altman nhận xét, "Chứng kiến chúng tôi sử dụng 5.3-Codex để xây dựng 5.3-Codex... là một cái nhìn mạnh mẽ về tương lai."
Chi tiêu AI doanh nghiệp dự kiến đạt 11.6 triệu USD mỗi công ty khi lợi thế của OpenAI thu hẹp
Cuộc chạy đua vũ trang công nghệ được thúc đẩy bởi sự bùng nổ chi tiêu AI của các doanh nghiệp. Theo một khảo sát từ Andreessen Horowitz, chi tiêu trung bình của doanh nghiệp cho các mô hình ngôn ngữ lớn dự kiến sẽ đạt 7 triệu USD vào năm 2025, tăng 180% so với 2.5 triệu USD chi tiêu vào năm 2024. Con số này dự kiến sẽ tăng thêm 65% lên 11.6 triệu USD vào năm 2026. "Giải thưởng" đang mở rộng nhanh chóng này đang làm gia tăng cạnh tranh về thị phần.
Dữ liệu tương tự cho thấy một bức tranh thay đổi. Mặc dù OpenAI vẫn là người chơi thống trị, thị phần chi tiêu AI doanh nghiệp của họ dự kiến sẽ giảm từ 62% vào năm 2024 xuống 53% vào năm 2026. Trong cùng thời kỳ, thị phần của Anthropic dự kiến sẽ tăng từ 14% lên 18%, với Google cũng chiếm một phần lớn hơn của thị trường. Áp lực cạnh tranh này giúp giải thích cuộc cạnh tranh ngày càng công khai, gần đây Altman và Anthropic đã tranh cãi về chiến lược quảng cáo.
OpenAI mở rộng Codex từ lập trình viên thành tác nhân tổng quát
OpenAI đang tái định vị chiến lược Codex từ một trợ lý lập trình chuyên biệt thành một tác nhân đa năng có khả năng xử lý nhiều công việc tri thức. Công ty tuyên bố mô hình này hiện có thể quản lý các tác vụ từ gỡ lỗi và triển khai đến nghiên cứu người dùng và phân tích dữ liệu trong bảng tính, báo hiệu một thách thức trực tiếp đối với thị trường phần mềm năng suất doanh nghiệp rộng lớn hơn do các công ty như Microsoft và Salesforce thống trị.
Để củng cố vị thế của mình, OpenAI cũng chỉ định GPT-5.3-Codex là mô hình đầu tiên có "khả năng cao" trong an ninh mạng, được đào tạo đặc biệt để xác định các lỗ hổng phần mềm. Để đẩy nhanh việc áp dụng và khả năng phòng thủ, Altman đã công bố cam kết 10 triệu USD tín dụng API cho các nhà nghiên cứu an ninh mạng.
Đây là kỷ nguyên của những người xây dựng, chứ không phải những người muốn kiểm soát họ.
— Sam Altman, CEO, OpenAI