随着AI采用加速,Datadog的新报告发现,运营复杂性而非模型智能是实现大规模可靠AI的主要障碍。
返回
随着AI采用加速,Datadog的新报告发现,运营复杂性而非模型智能是实现大规模可靠AI的主要障碍。

根据Datadog Inc.的一份新报告,运营复杂性正迅速成为扩展人工智能的主要障碍,目前近七成的公司正在使用三个或更多模型。
“获胜的公司不仅将构建更好的模型,还将围绕它们构建运营控制,”Datadog首席产品官李彦兵(Yanbing Li)表示。“在这个新时代,AI可观测性变得像十年前的云可观测性一样必不可少。”
《2026年AI工程现状》报告发现,生产环境中的所有AI模型请求中约有5%失败,其中近60%的失败是由系统容量限制引起的。这突显了一个日益严峻的挑战,即故障点在于基础设施而非AI模型本身,从而导致AI驱动的应用程序出现降速和体验中断。
研究结果表明,AI行业正在发生关键转向,投资和策略可能会从纯粹的模型开发转向机器学习运维(MLOps)和可观测性平台。对于竞相部署AI的公司来说,底层基础设施的可靠性可能比算法的先进程度更具竞争优势。
这一挑战反映了云计算的早期阶段,当时焦点从单纯拥有服务器转向大规模管理其复杂性和可靠性。竞争压力正推动初创企业和大型企业更快地部署AI,但如果不配合运营控制,这种速度就会产生风险。
“下一波代理故障将不在于代理不能做什么,而在于团队无法观测到什么,”Vercel首席执行官Guillermo Rauch表示。“与传统软件不同,代理的控制流由大语言模型本身驱动,这使得可观测性不仅有用,而且必不可少。”
这种观点在整个行业得到了共鸣。Riverbed的一项独立研究发现,虽然91%的医疗行业领导者报告AIOps的投资回报率(ROI)达到或超过了预期,但只有31%的组织完全准备好将其AI战略运营化,其中数据质量是首要关注点。
对运营就绪度的关注标志着AI市场的成熟。虽然斯坦福HAI等机构的报告指出AI观点和表现存在“大分歧”,但工程师面临的现状是管理日益分散和复杂的系统。Datadog通过分析来自数千名客户的匿名数据发现,通往生产级AI的道路充满了运营障碍。
“为了充满信心走地扩展AI,组织需要跨整个堆栈的实时可见性——从GPU利用率到模型行为再到代理工作流,”Datadog的李彦兵补充道。“在规模化阶段,你如何运营AI可能比你选择什么模型更重要。”
这种运营优先的心态正在成为一个反复出现的主题。美国总务管理局(GSA)的“百万小时挑战”旨在自动化重复性工作流,而像SymphonyAI和Catapult等公司的新平台正在构建嵌入式AI和运营仪表板,以便从底层管理复杂性。共识很明确:随着AI变得越来越强大,管理它的系统也必须变得更加智能。
本文仅供参考,不构成投资建议。