AI càng rẻ, doanh nghiệp càng chi tiêu nhiều — và những con số đang bắt đầu chứng minh điều đó.
AI càng rẻ, doanh nghiệp càng chi tiêu nhiều — và những con số đang bắt đầu chứng minh điều đó.

Chi phí AI trên mỗi token đã giảm 1.000 lần trong ba năm, nhưng mức tiêu thụ điện toán doanh nghiệp đang bùng nổ — Uber đã đốt hết toàn bộ ngân sách AI năm 2026 ngay từ tháng 4, và AT&T hiện xử lý 27 tỷ token mỗi ngày, tăng từ mức 1 tỷ cách đây 18 tháng.
"Mỗi khi chúng ta có được cùng một đơn vị trí thông minh với chi phí rẻ hơn, chúng ta không giảm tiêu thụ; chúng ta đang tăng tiêu thụ vì chúng ta có thể giải quyết các tác vụ phức tạp hơn với cùng một ngân sách," Roman Chernin, đồng sáng lập kiêm giám đốc kinh doanh của Nebius, một công ty điện toán đám mây AI, cho biết.
Hiện tượng này, được gọi là Nghịch lý Jevons theo tên nhà kinh tế học thế kỷ 19 William Stanley Jevons, mô tả cách những cải thiện về hiệu quả giúp giảm chi phí lại có thể làm tăng tổng mức tiêu thụ tài nguyên. Trong một lá thư gửi Wall Street Journal tuần này, nhà kinh tế học Maury Harris lập luận rằng nguyên lý này áp dụng cho điện toán AI, nơi độ co giãn của cầu theo giá có thể chứng tỏ là "rất co giãn." Nebius, công ty xây dựng các cụm GPU quy mô lớn, đã chứng kiến cổ phiếu giảm 40% trong cơn hoảng loạn DeepSeek vào tháng 1 — nhưng Chernin cho biết chính tuần đó "có lẽ là tuần bán hàng tốt nhất" khi các công ty nhận ra họ có thể chi trả cho suy luận AI ở quy mô lớn.
Hệ quả đối với các nhà đầu tư là rất đáng kể. Goldman Sachs ước tính chi tiêu hàng năm cho cơ sở hạ tầng AI có thể tăng từ 765 tỷ đô la vào năm 2026 lên 1,6 nghìn tỷ đô la vào năm 2031. Nhưng những người chiến thắng sẽ phụ thuộc vào tỷ lệ sử dụng, kỷ luật tài chính và khả năng hấp thụ chi phí linh kiện biến động — giá chip nhớ đã tăng gấp sáu lần trong năm qua khi nhu cầu AI tràn ra ngoài các trung tâm dữ liệu sang nền kinh tế rộng lớn hơn.
Sự chuyển dịch từ các chatbot thử nghiệm sang các hệ thống AI tác nhân là động lực chính. Khi các doanh nghiệp chuyển từ các truy vấn một bước sang các tác nhân tự động đa bước có thể xâu chuỗi các lệnh gọi, truy xuất tài liệu và thực hiện hành động, mức tiêu thụ token tăng vọt theo cấp số nhân hoặc hơn. Một công ty bảo hiểm y tế lớn đã chứng kiến mức tiêu thụ token AI hàng tháng của mình tăng từ 3 triệu lên hơn 150 triệu chỉ trong vòng chưa đầy một năm.
Sự gia tăng chi tiêu đang định hình lại chính sách giá của các nhà cung cấp. Anthropic đã loại bỏ chính sách giá cố định dành cho doanh nghiệp sau khi phát hiện các nhà phát triển đang đốt hàng nghìn đô la chi phí điện toán với các gói 200 đô la mỗi tháng. OpenAI cũng chuyển Codex sang thanh toán theo token trong cùng tháng. Mọi nhà cung cấp AI lớn đều đang hội tụ về định giá theo mức sử dụng, tạo ra thứ mà Chernin gọi là sự khóa chặt cấu trúc: mỗi tác nhân mới được triển khai càng làm sâu sắc thêm sự phụ thuộc vào các nhà cung cấp, những người đặt ra mức giá và kiểm soát các điều khoản.
Tuy nhiên, phía cầu lại kể một câu chuyện khác với cơn hoảng loạn đã khuấy động thị trường vào tháng 1. Khi việc phát hành DeepSeek gây ra sự sụt giảm 40% cổ phiếu của Nebius và một đợt bán tháo rộng hơn đối với các cổ phiếu cơ sở hạ tầng AI, các đội ngũ kỹ thuật của doanh nghiệp lại đang làm điều ngược lại — họ đang mở rộng quy mô. Chi phí thấp hơn đã giúp các ứng dụng trước đây không kinh tế trở nên khả thi, từ truy xuất kiến thức nội bộ đến quy trình làm việc tự động hóa cho khách hàng.
Động lực cạnh tranh ưu ái các công ty leo lên các tầng công nghệ cao hơn. Chernin ước tính thị trường cho thuê GPU phần cứng trần phục vụ khoảng một chục khách hàng trên toàn cầu. Cơ sở hạ tầng được quản lý tiếp cận hàng trăm khách hàng. Các nền tảng suy luận thu hút hàng nghìn khách hàng. Các hệ thống tác nhân, ông dự đoán, sẽ thu hút hàng chục nghìn nhà phát triển.
Token Factory của Nebius, một nền tảng suy luận được quản lý, minh họa cho chiến lược này. Dịch vụ này cho phép các công ty chạy các mô hình mã nguồn mở mà không cần quản lý cơ sở hạ tầng phụ trợ, áp dụng các kỹ thuật tối ưu hóa để giữ chi phí ở mức có thể dự đoán được. Đối với các doanh nghiệp, đề xuất giá trị rất rõ ràng: các mô hình được lưu trữ xử lý sự phức tạp của việc theo dõi chi phí, duy trì thời gian hoạt động và định tuyến các tác vụ qua các mô hình khác nhau dựa trên yêu cầu về ngân sách và tốc độ.
Nhưng tầng suy luận được lưu trữ phải đối mặt với rủi ro hàng hóa hóa của chính nó. Một nghiên cứu năm 2026 cho thấy giá suy luận của các mô hình ngôn ngữ lớn đã giảm khoảng 600 lần từ năm 2020 đến năm 2026, trong khi báo cáo thị trường AI năm 2025 của OECD đã ghi nhận sự sụt giảm mạnh về giá mô hình đã điều chỉnh theo chất lượng khi sự cạnh tranh mở rộng. Điều này cho thấy áp lực thu hẹp biên lợi nhuận đã ảnh hưởng đến các nhà sản xuất chip nay đang lan rộng lên trên qua các tầng công nghệ.
Đối với các nhà đầu tư, câu hỏi then chốt là công ty nào có thể xây dựng được hào kinh tế bền vững. Nvidia, đang giao dịch ở mức gấp khoảng 35 lần thu nhập dự phóng, phải đối mặt với rủi ro rằng suy luận rẻ hơn sẽ làm giảm nhu cầu đối với các chip đào tạo có biên lợi nhuận cao nhất của họ. Các ông lớn điện toán đám mây — Amazon, Microsoft, Google — được hưởng lợi từ mức tiêu thụ điện toán gia tăng nhưng phải đối mặt với các yêu cầu về vốn ngày càng tăng. Và các nhà cung cấp cơ sở hạ tầng như Nebius phải chứng minh rằng họ có thể duy trì tỷ lệ sử dụng và sức mạnh định giá khi thị trường mở rộng.
Nghịch lý Jevons cho thấy tổng doanh thu của ngành AI sẽ tăng trưởng ngay cả khi giá đơn vị giảm. Nhưng để nắm bắt được doanh thu đó đòi hỏi nhiều hơn việc sở hữu sức mạnh điện toán — nó đòi hỏi phần mềm, công cụ và các mối quan hệ doanh nghiệp để biến sức mạnh xử lý thô thành các sản phẩm hoàn chỉnh.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.