隨著AI採用加速,Datadog的新報告發現,營運複雜性而非模型智能是實現大規模可靠AI的主要障礙。
返回
隨著AI採用加速,Datadog的新報告發現,營運複雜性而非模型智能是實現大規模可靠AI的主要障礙。

根據Datadog Inc.的一份新報告,營運複雜性正迅速成為擴展人工智慧的主要障礙,目前近七成的公司正在使用三個或更多模型。
“獲勝的公司不僅將構建更好的模型,還將圍繞它們構建營運控制,”Datadog首席產品官李彥兵(Yanbing Li)表示。“在這個新時代,AI可觀測性變得像十年前的雲可觀測性一樣必不可少。”
《2026年AI工程現狀》報告發現,生產環境中的所有AI模型請求中約有5%失敗,其中近60%的失敗是由系統容量限制引起的。這突顯了一個日益嚴峻的挑戰,即故障點在於基礎設施而非AI模型本身,從而導致AI驅動的應用程序出現降速和體驗中斷。
研究結果表明,AI行業正在發生關鍵轉向,投資和策略可能會從純粹的模型開發轉向機器學習運維(MLOps)和可觀測性平台。對於競相部署AI的公司來說,底層基礎設施的可靠性可能比算法的先進程度更具競爭優勢。
這一挑戰反映了雲端運算的早期階段,當時焦點從單純擁有伺服器轉向大規模管理其複雜性和可靠性。競爭壓力正推動初創企業和大型企業更快地部署AI,但如果不配合營運控制,這種速度就會產生風險。
“下一波代理故障將不在於代理不能做什麼,而在於團隊無法觀測到什麼,”Vercel首席執行官Guillermo Rauch表示。“與傳統軟件不同,代理的控制流由大語言模型本身驅動,這使得可觀測性不僅有用,而且必不可少。”
這種觀點在整個行業得到了共鳴。Riverbed的一項獨立研究發現,雖然91%的醫療行業領導者報告AIOps的投資回報率(ROI)達到或超過了預期,但只有31%的組織完全準備好將其AI戰略營運化,其中數據質量是首要關注點。
對營運就緒度的關注標誌著AI市場的成熟。雖然斯坦福HAI等機構的報告指出AI觀點和表現存在“大分歧”,但工程師面臨的現狀是管理日益分散和複雜的系統。Datadog通過分析來自數千名客戶的匿名數據發現,通往生產級AI的道路充滿了營運障礙。
“為了充滿信心走地擴展AI,組織需要跨整個堆栈的實時可見性——從GPU利用率到模型行為再到代理工作流,”Datadog的李彥兵補充道。“在規模化階段,你如何營運AI可能比你選擇什麼模型更重要。”
這種營運優先的心態正在成為一個反复出現的主題。美國總務管理局(GSA)的“百萬小時挑戰”旨在自動化重複性工作流,而像SymphonyAI和Catapult等公司的新平台正在構建嵌入式AI和營運儀表板,以便從底層管理複雜性。共識很明確:隨著AI變得越來越強大,管理它的系統也必須變得更加智能。
本文僅供參考,不構成投資建議。