국태해통(Guotai Haitong)의 새 보고서에 따르면, 로봇 AI(Embodied AI)의 최대 병목 현상은 더 이상 알고리즘이 아니라 막대한 데이터 부족이며, 이는 새로운 '곡괭이와 삽' 투자 사이클을 창출하고 있습니다.
뒤로
국태해통(Guotai Haitong)의 새 보고서에 따르면, 로봇 AI(Embodied AI)의 최대 병목 현상은 더 이상 알고리즘이 아니라 막대한 데이터 부족이며, 이는 새로운 '곡괭이와 삽' 투자 사이클을 창출하고 있습니다.

언어 기반 AI에서 물리적 상호작용이 가능한 '세계 모델'로의 패러다임 전환이 일어나면서, 이를 훈련하는 데 필요한 기본 데이터 인프라에 투자 붐이 일고 있습니다. 국태해통의 새로운 보고서에 따르면 로봇 AI(Embodied AI)의 주된 병목 현상은 더 이상 알고리즘이 아니라 엄청난 데이터 격차이며, 데이터 수요는 엑사바이트(EB) 규모로 팽창하고 있습니다. 이로 인해 데이터 수집, 시뮬레이션 및 처리 기업들이 차세대 인공지능 물결의 핵심 '곡괭이와 삽' 종목으로 자리 잡고 있습니다.
국태해통 보고서는 "이 데이터 격차를 가장 먼저 메우는 기업들이 물리적 AI 시대의 '삽 판매자' 역할을 하며 상당한 밸류에이션 프리미엄을 누리게 될 것"이라고 밝혔습니다.
로봇 지능을 위한 데이터 요구 사항은 대규모 언어 모델(LLM)보다 몇 배 더 큽니다. LLM은 페타바이트 규모의 텍스트 및 이미지 데이터 세트로 훈련되는 반면, 세상과 상호작용하는 로봇은 힘, 촉각, 마찰과 같은 물리적 상호작용을 포함하는 엑사바이트 규모의 데이터가 필요합니다. 이러한 전문화된 고품질 데이터는 매우 희귀하며, 이는 전체 로봇 산업의 근본적인 병목 현상을 야기합니다.
이러한 희소성은 로봇 가치 사슬에 대한 재평가를 강요하고 있습니다. 중심축이 로봇 하드웨어 자체에서 수집 및 처리 문제를 해결할 수 있는 데이터 인프라 제공업체로 이동하고 있습니다. 이러한 트렌드는 데이터 도구 및 서비스에 집중하는 새로운 AI 주식 섹터로의 상당한 자금 유입을 촉발할 수 있으며, 단기적으로는 로봇 제조업체보다 이들이 더 큰 혜택을 볼 가능성이 큽니다.
데이터 격차를 해소하기 위해 업계는 각각 뚜렷한 장단점을 가진 세 가지 주요 경로를 추구하고 있습니다.
실제 데이터 (Real-World Data): 사람이 조종하는 원격 제어 장비와 모션 캡처 수트를 통해 수집되는 이 방식은 실제 물리적 상호작용을 포함하므로 가장 정밀도가 높은 데이터를 제공합니다. 그러나 비용이 매우 높고 확장이 어려우며 모든 예외적인 시나리오를 다룰 수 없습니다. 1X Technologies와 같은 기업들은 이것이 'Sim2Real(시뮬레이션에서 실제 환경으로)' 격차를 해소할 유일한 방법이라고 주장하며 이를 우선시합니다.
합성 및 시뮬레이션 데이터: 물리 엔진을 사용하여 가상 환경에서 레이블이 완벽하게 지정된 방대한 데이터 세트를 생성합니다. 이 접근 방식은 저렴하고 확장성이 뛰어나며, Galaxy General과 같은 회사는 합성 데이터 대 실제 데이터 비율을 99:1로 목표하고 있습니다. 주요 약점은 미세한 물리적 차이로 인해 시뮬레이션에서 훈련된 모델이 실제 세계에서 안정적으로 작동하지 못하는 'Sim2Real' 격차입니다.
비디오 데이터: 인터넷의 방대한 비디오 저장소를 사용하여 모델을 가르치는 새로운 방식입니다. Tesla와 Figure AI 같은 기업들은 비디오 데이터의 엄청난 규모가 직접적인 물리적 특성 부족을 상쇄한다고 믿으며 이 방식으로 선회하고 있습니다. 과제는 2D 비디오를 3D 동작으로 '차원 상향(up-dimensioning)'하는 복잡한 기술적 장벽에 있습니다.
현재의 합의점은 시뮬레이션과 비디오를 대규모 사전 훈련에 사용한 다음, 적은 양의 고품질 실제 데이터로 미세 조정(fine-tuning)하는 하이브리드 방식이 산업 표준이 될 것이라는 점입니다.
이러한 전략적 차이는 업계 전반에서 나타납니다. 테슬라는 옵티머스(Optimus) 로봇을 위해 원격 제어를 포기하고 대신 자사 차량 함대에서 얻은 비디오 데이터에 의존하는 것으로 유명합니다. OpenAI와 마이크로소프트의 지원을 받는 Figure AI는 인간 비디오에서 로봇으로 기술을 이전하는 제로샷 러닝(zero-shot learning)을 탐구하기 위해 'Project Go-Big'을 시작했습니다.
반면 중국의 스타트업 즈위안 로봇(智元机器人, Zhìyuán Jīqìrén)은 대형 모델 훈련에 100% 실제 데이터를 사용하는 것으로 알려졌습니다. 이는 어떤 데이터 소스가 궁극적으로 가장 효과적일지에 대한 전략적 베팅이 이루어지고 있음을 보여줍니다.
이러한 트렌드는 로봇 공학을 넘어 확장되고 있습니다. 인도의 핀테크 거인 페이텀(Paytm)은 대규모 AI 야망에도 불구하고 자체 데이터 센터를 구축할 계획이 없습니다. 대신 비제이 셰카르 샤르마(Vijay Shekhar Sharma) CEO가 FY26 4분기 실적 발표에서 확인했듯이, NVIDIA와 같은 제공업체로부터 컴퓨팅 용량을 임대하고 타사 인프라에서 독자적인 모델을 실행할 예정입니다. 이 전략은 핵심 인프라 제공업체의 경쟁자가 아닌 고객이 되기를 선택하는 주요 기술 플레이어들의 사례를 통해 '삽 판매자' 가설을 입증합니다.
시장은 이미 '삽 판매자'들에게 보상을 주고 있습니다. 유럽의 AI 기반 유니콘 급증과 중국 문샷 AI(Moonshot AI)가 유치한 20억 달러의 대규모 투자에서 보듯, 투자자들은 기초 역량을 제공하는 기업에 자본을 쏟아붓고 있습니다. 국태해통 보고서에 따르면 투자는 다음 네 가지 핵심 분야에 집중되고 있습니다.
투자자들에게 이는 로봇 AI 분야에서 가장 유망한 기회가 로봇을 만드는 회사가 아니라, 로봇을 지능적으로 만드는 데 필요한 필수 데이터와 도구를 판매하는 회사에 있을 수 있음을 의미합니다.
이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.