Datadog報告：營運限制導致七成企業AI擴展受阻

根據Datadog Inc.的一份新報告，營運複雜性正迅速成為擴展人工智慧的主要障礙，目前近七成的公司正在使用三個或更多模型。

“獲勝的公司不僅將構建更好的模型，還將圍繞它們構建營運控制，”Datadog首席產品官李彥兵（Yanbing Li）表示。“在這個新時代，AI可觀測性變得像十年前的雲可觀測性一樣必不可少。”

《2026年AI工程現狀》報告發現，生產環境中的所有AI模型請求中約有5%失敗，其中近60%的失敗是由系統容量限制引起的。這突顯了一個日益嚴峻的挑戰，即故障點在於基礎設施而非AI模型本身，從而導致AI驅動的應用程序出現降速和體驗中斷。

研究結果表明，AI行業正在發生關鍵轉向，投資和策略可能會從純粹的模型開發轉向機器學習運維（MLOps）和可觀測性平台。對於競相部署AI的公司來說，底層基礎設施的可靠性可能比算法的先進程度更具競爭優勢。

可觀測性差距

這一挑戰反映了雲端運算的早期階段，當時焦點從單純擁有伺服器轉向大規模管理其複雜性和可靠性。競爭壓力正推動初創企業和大型企業更快地部署AI，但如果不配合營運控制，這種速度就會產生風險。

“下一波代理故障將不在於代理不能做什麼，而在於團隊無法觀測到什麼，”Vercel首席執行官Guillermo Rauch表示。“與傳統軟件不同，代理的控制流由大語言模型本身驅動，這使得可觀測性不僅有用，而且必不可少。”

這種觀點在整個行業得到了共鳴。Riverbed的一項獨立研究發現，雖然91%的醫療行業領導者報告AIOps的投資回報率（ROI）達到或超過了預期，但只有31%的組織完全準備好將其AI戰略營運化，其中數據質量是首要關注點。

對營運就緒度的關注標誌著AI市場的成熟。雖然斯坦福HAI等機構的報告指出AI觀點和表現存在“大分歧”，但工程師面臨的現狀是管理日益分散和複雜的系統。Datadog通過分析來自數千名客戶的匿名數據發現，通往生產級AI的道路充滿了營運障礙。

“為了充滿信心走地擴展AI，組織需要跨整個堆栈的實時可見性——從GPU利用率到模型行為再到代理工作流，”Datadog的李彥兵補充道。“在規模化階段，你如何營運AI可能比你選擇什麼模型更重要。”

這種營運優先的心態正在成為一個反复出現的主題。美國總務管理局（GSA）的“百萬小時挑戰”旨在自動化重複性工作流，而像SymphonyAI和Catapult等公司的新平台正在構建嵌入式AI和營運儀表板，以便從底層管理複雜性。共識很明確：隨著AI變得越來越強大，管理它的系統也必須變得更加智能。

本文僅供參考，不構成投資建議。