Datadog报告：运营限制导致七成企业AI扩展受阻

根据Datadog Inc.的一份新报告，运营复杂性正迅速成为扩展人工智能的主要障碍，目前近七成的公司正在使用三个或更多模型。

“获胜的公司不仅将构建更好的模型，还将围绕它们构建运营控制，”Datadog首席产品官李彦兵（Yanbing Li）表示。“在这个新时代，AI可观测性变得像十年前的云可观测性一样必不可少。”

《2026年AI工程现状》报告发现，生产环境中的所有AI模型请求中约有5%失败，其中近60%的失败是由系统容量限制引起的。这突显了一个日益严峻的挑战，即故障点在于基础设施而非AI模型本身，从而导致AI驱动的应用程序出现降速和体验中断。

研究结果表明，AI行业正在发生关键转向，投资和策略可能会从纯粹的模型开发转向机器学习运维（MLOps）和可观测性平台。对于竞相部署AI的公司来说，底层基础设施的可靠性可能比算法的先进程度更具竞争优势。

可观测性差距

这一挑战反映了云计算的早期阶段，当时焦点从单纯拥有服务器转向大规模管理其复杂性和可靠性。竞争压力正推动初创企业和大型企业更快地部署AI，但如果不配合运营控制，这种速度就会产生风险。

“下一波代理故障将不在于代理不能做什么，而在于团队无法观测到什么，”Vercel首席执行官Guillermo Rauch表示。“与传统软件不同，代理的控制流由大语言模型本身驱动，这使得可观测性不仅有用，而且必不可少。”

这种观点在整个行业得到了共鸣。Riverbed的一项独立研究发现，虽然91%的医疗行业领导者报告AIOps的投资回报率（ROI）达到或超过了预期，但只有31%的组织完全准备好将其AI战略运营化，其中数据质量是首要关注点。

对运营就绪度的关注标志着AI市场的成熟。虽然斯坦福HAI等机构的报告指出AI观点和表现存在“大分歧”，但工程师面临的现状是管理日益分散和复杂的系统。Datadog通过分析来自数千名客户的匿名数据发现，通往生产级AI的道路充满了运营障碍。

“为了充满信心走地扩展AI，组织需要跨整个堆栈的实时可见性——从GPU利用率到模型行为再到代理工作流，”Datadog的李彦兵补充道。“在规模化阶段，你如何运营AI可能比你选择什么模型更重要。”

这种运营优先的心态正在成为一个反复出现的主题。美国总务管理局（GSA）的“百万小时挑战”旨在自动化重复性工作流，而像SymphonyAI和Catapult等公司的新平台正在构建嵌入式AI和运营仪表板，以便从底层管理复杂性。共识很明确：随着AI变得越来越强大，管理它的系统也必须变得更加智能。

本文仅供参考，不构成投资建议。