기업 10곳 중 7곳, 운영 한계로 AI 확장 난항

Datadog Inc.의 새로운 보고서에 따르면, 현재 약 70%의 기업이 3개 이상의 모델을 사용하고 있으며 운영 복잡성이 인공지능 확장의 주요 장애물로 빠르게 부상하고 있습니다.

Datadog의 최고 제품 책임자인 Yanbing Li는 "성공하는 기업은 더 나은 모델을 구축하는 데 그치지 않고, 그 주변에 운영 제어 체계를 구축할 것입니다. 이 새로운 시대에는 AI 관측성(Observability)이 10년 전 클라우드 관측성만큼이나 필수적이 되었습니다"라고 말했습니다.

'2026 AI 엔지니어링 현황' 보고서에 따르면 운영 중인 모든 AI 모델 요청의 약 5%가 실패하며, 이 중 약 60%는 시스템 용량 제한으로 인해 발생합니다. 이는 고장 지점이 AI 모델 자체가 아니라 인프라에 있다는 점을 시사하며, AI 기반 애플리케이션의 속도 저하와 서비스 중단을 초래하고 있습니다.

이러한 결과는 AI 산업의 중대한 변화를 시사합니다. 투자와 전략의 중심이 순수 모델 개발에서 MLOps 및 관측 플랫폼으로 이동할 수 있다는 것입니다. AI 배포 경쟁을 벌이는 기업들에게 기본 인프라의 신뢰성은 알고리즘의 정교함보다 더 중요한 경쟁 차별화 요소가 될 수 있습니다.

관측성 격차

이러한 과제는 단순히 서버를 보유하는 것에서 대규모로 복잡성과 신뢰성을 관리하는 것으로 초점이 옮겨졌던 클라우드 컴퓨팅 초기 시절과 유사합니다. 경쟁 압력으로 인해 스타트업과 대기업 모두 AI 배포 속도를 높이고 있지만, 운영 제어가 동반되지 않은 속도는 리스크를 수반합니다.

Vercel의 CEO인 Guillermo Rauch는 "다음번 에이전트 실패 파동은 에이전트가 할 수 없는 일이 아니라 팀이 관찰할 수 없는 것에서 올 것입니다. 전통적인 소프트웨어와 달리 에이전트는 LLM 자체에 의해 구동되는 제어 흐름을 가지고 있으므로 관측성은 유용한 것을 넘어 필수적입니다"라고 설명했습니다.

이러한 정서는 업계 전반에서 공유되고 있습니다. Riverbed의 별도 연구에 따르면 헬스케어 리더의 91%가 AIOps 수익률(ROI)이 기대치를 충족하거나 초과했다고 답했지만, 데이터 품질 문제로 인해 AI 전략을 완전히 운영할 준비가 된 조직은 31%에 불과했습니다.

모델 지능에서 운영 우수성으로

운영 준비성에 대한 집중은 AI 시장의 성숙을 의미합니다. 스탠퍼드 HAI와 같은 기관의 보고서가 AI 의견과 성능의 '거대한 격차'를 지적하는 반면, 현장 엔지니어들이 마주한 현실은 점점 더 파편화되고 복잡해지는 시스템을 관리하는 것입니다. 수천 명의 고객으로부터 수집된 익명 데이터를 분석한 Datadog의 보고서는 실무 AI로 가는 길이 운영상의 허들로 가득 차 있음을 보여줍니다.

Datadog의 Li는 "자신 있게 AI를 확장하려면 GPU 활용도부터 모델 동작, 에이전트 워크플로우에 이르기까지 전체 스택에 대한 실시간 가시성이 필요합니다. 규모가 커질수록 선택한 모델보다 AI를 어떻게 운영하느냐가 더 중요해질 수 있습니다"라고 덧붙였습니다.

이러한 운영 우선주의는 반복되는 테마가 되고 있습니다. 미 연방총무청(GSA)의 '백만 시간 챌린지'는 반복적인 워크플로우 자동화를 목표로 하며, SymphonyAI나 Catapult와 같은 기업의 새로운 플랫폼은 초기 단계부터 복잡성을 관리하기 위해 내장형 AI와 운영 대시보드를 갖추고 구축되고 있습니다. 결론은 명확합니다. AI가 강력해질수록 이를 관리하는 시스템도 더 지능화되어야 합니다.

이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.