Khi việc áp dụng AI tăng tốc, một báo cáo mới từ Datadog chỉ ra rằng độ phức tạp trong vận hành — chứ không phải trí thông minh của mô hình — là rào cản chính để đạt được AI đáng tin cậy ở quy mô lớn.
Quay lại
Khi việc áp dụng AI tăng tốc, một báo cáo mới từ Datadog chỉ ra rằng độ phức tạp trong vận hành — chứ không phải trí thông minh của mô hình — là rào cản chính để đạt được AI đáng tin cậy ở quy mô lớn.

Độ phức tạp trong vận hành đang nhanh chóng trở thành trở ngại chính đối với việc mở rộng trí tuệ nhân tạo, với gần 7/10 công ty hiện đang sử dụng từ ba mô hình trở lên, theo báo cáo mới từ Datadog Inc.
"Những công ty chiến thắng sẽ không chỉ xây dựng các mô hình tốt hơn - họ sẽ xây dựng khả năng kiểm soát vận hành xung quanh chúng," Yanbing Li, Giám đốc Sản phẩm tại Datadog, cho biết. "Trong kỷ nguyên mới này, khả năng quan sát AI trở nên thiết yếu như khả năng quan sát đám mây cách đây một thập kỷ."
Báo cáo Tình trạng Kỹ thuật AI năm 2026 cho thấy khoảng 5% tổng số yêu cầu mô hình AI trong sản xuất bị lỗi, với gần 60% trong số đó là do giới hạn dung lượng hệ thống. điều này làm nổi bật một thách thức ngày càng tăng khi cơ sở hạ tầng, chứ không phải bản thân mô hình AI, là điểm gây lỗi, dẫn đến tình trạng chậm trễ và trải nghiệm bị gián đoạn trong các ứng dụng hỗ trợ AI.
Các phát hiện cho thấy một sự chuyển dịch quan trọng trong ngành AI, nơi vốn đầu tư và chiến lược có thể xoay trục từ phát triển mô hình thuần túy sang các nền tảng MLOps và khả năng quan sát. Đối với các công ty đang chạy đua triển khai AI, độ tin cậy của cơ sở hạ tầng nền tảng có thể trở thành một lợi thế cạnh tranh quan trọng hơn cả sự tinh vi của các thuật toán.
Thách thức này phản ánh những ngày đầu của điện toán đám mây, nơi trọng tâm chuyển từ việc đơn thuần sở hữu máy chủ sang quản lý độ phức tạp và độ tin cậy của chúng ở quy mô lớn. Áp lực cạnh tranh đang thúc đẩy cả các startup và doanh nghiệp lớn triển khai AI nhanh hơn, nhưng tốc độ này tạo ra rủi ro khi không đi kèm với kiểm soát vận hành.
"Làn sóng thất bại tiếp theo của các tác nhân (agents) sẽ không nằm ở những gì chúng không thể làm, mà là ở những gì các đội ngũ không thể quan sát được," Guillermo Rauch, CEO của Vercel, cho biết. "Không giống như phần mềm truyền thống, các tác nhân có luồng điều khiển được thúc đẩy bởi chính LLM, khiến khả năng quan sát không chỉ hữu ích mà còn thiết yếu."
Quan điểm này cũng được phản ánh rộng rãi trong ngành. Một nghiên cứu riêng biệt từ Riverbed cho thấy trong khi 91% các nhà lãnh đạo y tế báo cáo rằng ROI của AIOps đã đạt hoặc vượt quá kỳ vọng, chỉ có 31% tổ chức của họ hoàn toàn sẵn sàng vận hành chiến lược AI, với chất lượng dữ liệu là mối quan tâm hàng đầu.
Việc tập trung vào mức độ sẵn sàng vận hành đánh dấu sự trưởng thành của thị trường AI. Trong khi các báo cáo từ các tổ chức như Stanford HAI chỉ ra một "sự phân kỳ lớn" trong các ý kiến và hiệu suất AI, thực tế đối với các kỹ sư là việc quản lý các hệ thống ngày càng phân mảnh và phức tạp. Báo cáo của Datadog, phân tích dữ liệu ẩn danh từ hàng nghìn khách hàng, cho thấy con đường đưa AI vào sản xuất đầy rẫy những rào cản vận hành.
"Để mở rộng AI một cách tự tin, các tổ chức cần có khả năng hiển thị thời gian thực trên toàn bộ hệ thống – từ việc sử dụng GPU đến hành vi mô hình và quy trình làm việc của tác nhân," Li của Datadog nói thêm. "Ở quy mô lớn, cách bạn vận hành AI có thể quan trọng hơn mô hình bạn chọn."
Tư duy ưu tiên vận hành này đang trở thành một chủ đề lặp đi lặp lại. "Thử thách một triệu giờ" của Tổng cục Dịch vụ Tổng hợp (GSA) nhằm mục đích tự động hóa các quy trình làm việc lặp đi lặp lại, và các nền tảng mới từ các công ty như SymphonyAI và Catapult đang được xây dựng với AI tích hợp và bảng điều khiển vận hành để quản lý độ phức tạp ngay từ đầu. Sự đồng thuận là rõ ràng: khi AI trở nên mạnh mẽ hơn, các hệ thống quản lý nó cũng phải trở nên thông minh hơn.
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.