Suy luận sẽ thúc đẩy 70% nhu cầu GPU vào năm 2026
Thị trường tính toán AI đang trải qua một sự thay đổi cấu trúc, tạo ra một vai trò riêng biệt cho các mạng lưới cơ sở hạ tầng vật lý phi tập trung (DePIN). Trong khi việc huấn luyện mô hình AI tiên tiến vẫn tập trung ở các trung tâm dữ liệu siêu lớn, ngành này đã đạt đến “điểm bùng phát suy luận,” theo Nökkvi Dan Ellidason, CEO của Ovia Systems. Mới đây vào năm 2024, huấn luyện chiếm ưu thế trong việc sử dụng GPU, nhưng đến năm 2026, ước tính 70% nhu cầu sẽ được thúc đẩy bởi suy luận, các tác nhân AI và khối lượng công việc dự đoán. Bước ngoặt này biến tính toán AI từ một chi phí nghiên cứu khổng lồ, một lần thành một chi phí tiện ích liên tục, mở rộng, tạo cơ hội cho các giải pháp xử lý kinh tế hơn.
Mạng phi tập trung cung cấp các khối lượng công việc AI hiệu quả về chi phí
Huấn luyện AI tiên tiến đòi hỏi hàng nghìn GPU hoạt động đồng bộ hoàn hảo, độ trễ thấp—một thiết lập chỉ có thể thực hiện được trong các cơ sở tập trung, tích hợp chặt chẽ. Ví dụ, Meta đã sử dụng một cụm hơn 100.000 GPU Nvidia H100 để huấn luyện mô hình Llama 4 của mình. Ellidason ví điều này như việc xây dựng một tòa nhà chọc trời nơi công nhân chuyền tay từng viên gạch trên cùng một giàn giáo. Cố gắng làm điều này trên một mạng phi tập trung sẽ giống như gửi từng viên gạch qua thư, khiến nó cực kỳ kém hiệu quả. Tuy nhiên, các khối lượng công việc suy luận thì khác. Chúng có thể được chia thành các tác vụ nhỏ hơn, độc lập, khiến chúng lý tưởng cho các mạng phân tán.
Suy luận là một công việc có khối lượng lớn và nó mở rộng theo mỗi mô hình triển khai và vòng lặp tác nhân. Đó là nơi chi phí, độ đàn hồi và sự phân bố địa lý quan trọng hơn các kết nối hoàn hảo.
— Evgeny Ponomarev, đồng sáng lập Fluence
Điều này làm cho các mạng phi tập trung sử dụng GPU cấp người tiêu dùng phù hợp hơn cho các tác vụ AI sản xuất ưu tiên thông lượng và tính linh hoạt. Theo Bob Miles, CEO của Salad Technologies, các mạng này vượt trội về hiệu suất giá cho các khối lượng công việc nhạy cảm về chi phí như khám phá thuốc AI, xử lý dữ liệu quy mô lớn và tạo văn bản thành hình ảnh. Hơn nữa, một mạng lưới phân phối toàn cầu có thể giảm độ trễ cho người dùng cuối bằng cách xử lý các yêu cầu gần hơn với vị trí địa lý của họ, tránh nhiều bước nhảy đến một trung tâm dữ liệu xa xôi.
GPU tiêu dùng nổi lên như một lớp AI bổ sung
Các mạng lưới GPU phi tập trung không thay thế các nhà cung cấp siêu quy mô mà đang tạo ra một vai trò là một lớp bổ sung quan trọng trong ngăn xếp công nghệ AI. Khi các mô hình nguồn mở trở nên hiệu quả hơn và phần cứng tiêu dùng như Nvidia RTX 4090 hoặc 5090 trở nên mạnh mẽ hơn, một loạt các tác vụ AI rộng hơn có thể được thực hiện bên ngoài các trung tâm dữ liệu tập trung. Điều này cho phép người dùng bán lẻ và các nhà khai thác nhỏ hơn đóng góp tài nguyên GPU nhàn rỗi của họ vào mạng.
Động lực này định vị các nền tảng phi tập trung để hấp thụ một phần ngày càng tăng của thị trường AI tập trung vào suy luận và các công việc song song khác. Chúng cung cấp một giải pháp thay thế hiệu quả về chi phí và phân phối địa lý cho một phân khúc quan trọng và đang mở rộng của tính toán AI, dân chủ hóa hiệu quả quyền truy cập vào sức mạnh xử lý vượt ra ngoài số ít các gã khổng lồ công nghệ thống trị việc huấn luyện mô hình quy mô lớn.