OpenAI cắt giảm 50% chi phí suy luận nhờ kỹ thuật tối ưu hóa mới

Các kỹ sư của OpenAI đã thông báo với đồng nghiệp đầu tháng này rằng họ đã phát triển một bộ kỹ thuật tối ưu hóa có thể giảm hơn 50% chi phí suy luận mô hình, theo một người quen thuộc với các cuộc thảo luận chưa từng được tiết lộ trước đây.

"Đây là một bước ngoặt trong hiệu quả suy luận, tấn công trực tiếp vào chi phí lớn nhất khi vận hành AI ở quy mô lớn," người này cho biết, yêu cầu giấu tên vì các chi tiết chưa được công bố công khai.

Bước đột phá này nhắm vào các nút thắt cổ chai tính toán khiến các mô hình ngôn ngữ lớn trở nên đắt đỏ khi vận hành. Suy luận — quá trình tạo ra phản hồi từ một mô hình đã được huấn luyện — chiếm phần lớn chi phí vận hành của các nhà cung cấp dịch vụ AI, với chi phí tăng tỷ lệ thuận với khối lượng sử dụng. Các kỹ thuật mới của OpenAI kết hợp một số cách tiếp cận mới lạ để giảm tài nguyên tính toán cần thiết cho mỗi truy vấn, người này cho biết, mà không tiết lộ phương pháp cụ thể hay lộ trình triển khai sản xuất. The Information là đơn vị đầu tiên đưa tin về sự phát triển này.

Mức tăng hiệu quả này có thể giúp giảm hàng trăm triệu đô la chi phí điện toán đám mây của OpenAI mỗi năm, có khả năng cho phép họ hạ giá API và gây áp lực buộc các đối thủ — bao gồm Anthropic, Google và các phòng thí nghiệm Trung Quốc đang phát hành các mô hình cạnh tranh với chi phí gần như bằng không — phải theo kịp về mặt kinh tế. Các mô hình mạnh nhất của OpenAI hiện có giá vài đô la cho mỗi triệu token đầu vào, một mức giá hạn chế việc áp dụng cho các ứng dụng khối lượng lớn.

Sự phát triển này diễn ra vào thời điểm then chốt đối với ngành công nghiệp AI. Chi phí suy luận đã nổi lên như rào cản lớn nhất đối với việc áp dụng rộng rãi trong doanh nghiệp, với các công ty viện dẫn chi phí là mối quan tâm hàng đầu khi triển khai các ứng dụng AI. Mức giảm 50% sẽ đưa chi phí trên mỗi token của các mô hình mạnh nhất của OpenAI tiến gần hơn đến kinh tế học của các dịch vụ nhỏ hơn, mở rộng phạm vi các trường hợp sử dụng mà AI có hiệu quả về mặt kinh tế — từ dịch vụ khách hàng thời gian thực đến xử lý tài liệu quy mô lớn.

Đối với OpenAI, thời điểm này mang tính chiến lược. Công ty đang trong quá trình xây dựng cơ sở hạ tầng khổng lồ, chi hàng tỷ đô la cho năng lực trung tâm dữ liệu và chip tùy chỉnh. Đầu tháng này, OpenAI và Broadcom đã công bố Jalapeno, một chip suy luận AI tùy chỉnh được thiết kế để thách thức sự thống trị của Nvidia trong lĩnh vực điện toán trung tâm dữ liệu. Sự kết hợp giữa phần cứng tùy chỉnh và tối ưu hóa ở cấp độ phần mềm có thể mang lại cho OpenAI lợi thế chi phí cấu trúc so với các đối thủ phụ thuộc vào GPU đa năng của Nvidia, vốn đang có biên lợi nhuận gộp trên 70%. Các chip H100 và B200 của Nvidia vẫn là tiêu chuẩn ngành cho suy luận, nhưng các mạch tích hợp chuyên dụng cho ứng dụng tùy chỉnh ngày càng được coi là con đường dẫn đến hiệu quả giá-hiệu năng tốt hơn.

Động lực cạnh tranh đang thay đổi nhanh chóng. Các phòng thí nghiệm Trung Quốc bao gồm DeepSeek và nhóm Qwen của Alibaba đã phát hành các mô hình cạnh tranh với các sản phẩm phương Tây với chi phí chỉ bằng một phần nhỏ, gây áp lực buộc OpenAI và Anthropic phải biện minh cho mức giá cao của mình. Mô hình mới nhất của DeepSeek được cho là đạt được hiệu suất tương đương với các mô hình lớp GPT-4 với chi phí suy luận chỉ bằng khoảng một phần mười. Trong khi đó, Google đã đầu tư mạnh vào các đơn vị xử lý tensor tùy chỉnh của riêng mình để giảm chi phí phục vụ cho các mô hình Gemini. Bước đột phá về chi phí suy luận của OpenAI sẽ giúp thu hẹp khoảng cách với các lựa chọn thay thế chi phí thấp này, có khả năng bảo toàn khả năng tính giá cao hơn cho hiệu suất vượt trội trong khi vẫn mang lại hiệu quả kinh tế cạnh tranh.

Các kỹ thuật tối ưu hóa này cũng đến vào thời điểm OpenAI đang phải đối mặt với sự giám sát ngày càng tăng về chi tiêu. Công ty đang đốt tiền mặt với tốc độ nhanh để tài trợ cho việc huấn luyện mô hình và cơ sở hạ tầng, và các nhà đầu tư đã thúc ép tìm ra lộ trình rõ ràng hơn đến lợi nhuận. Việc giảm một nửa chi phí suy luận sẽ trực tiếp cải thiện biên lợi nhuận gộp trên doanh thu API, một thước đo quan trọng đối với sức khỏe tài chính của công ty.

Đối với các nhà đầu tư, những tác động có hai mặt. Chi phí suy luận thấp hơn mở rộng tổng thị trường có thể tiếp cận cho AI bằng cách làm cho nó trở nên kinh tế hơn đối với nhiều trường hợp sử dụng — một tín hiệu tích cực cho toàn bộ ngành. Nhưng chúng cũng làm giảm biên lợi nhuận cho các nhà cung cấp mô hình AI không thể theo kịp các cải tiến về hiệu quả. Nvidia, công ty có GPU cung cấp năng lượng cho phần lớn khối lượng công việc suy luận AI, có thể đối mặt với gió ngược nếu chip tùy chỉnh và tối ưu hóa phần mềm làm giảm tài nguyên tính toán cần thiết cho mỗi truy vấn. Định giá của OpenAI, gần đây được báo cáo ở mức 300 tỷ đô la, sẽ được hỗ trợ bởi sự cải thiện kinh tế đơn vị có thể chứng minh được. Microsoft, nhà đầu tư và đối tác đám mây lớn nhất của OpenAI, sẽ được hưởng lợi từ các dịch vụ AI chi phí thấp hơn chạy trên Azure, có khả năng thúc đẩy việc áp dụng các sản phẩm Copilot trong các khách hàng doanh nghiệp. Thị trường chưa định giá các cải thiện về hiệu quả này vì các kỹ thuật này vẫn chưa được tiết lộ và chưa được xác minh bởi các điểm chuẩn độc lập.

B\u00e0i vi\u1ebft n\u00e0y ch\u1ec9 mang t\u00ednh ch\u1ea5t tham kh\u1ea3o v\u00e0 kh\u00f4ng c\u1ea5u th\u00e0nh l\u1eddi khuy\u1ebfn ngh\u1ecb \u0111\u1ea7u t\u01b0.