AI 산업이 콘텐츠 생성에서 물리적 세계의 이해로 전환됨에 따라 '세계 모델' 구축을 위한 올바른 경로를 둘러싼 치열한 논쟁이 가열되고 있습니다.
성수테크놀로지는 학계 연구소들이 선호하는 3D 시뮬레이션 방식보다 具身(embodied) 지능을 창출하는 데 더 확장 가능하고 효율적이라는 주장을 펼치며 비디오 우선 접근 방식을 옹호하고 있습니다.
"비디오는 현실 세계를 기록하는 가장 자연스러운 데이터 형식입니다."라고 칭화대 AI 연구원이자 성수테크놀로지의 창업자인 주쥔은 3월 29일 인터뷰에서 밝혔습니다. "핵심은 모델이 비디오로부터 물리 세계의 운영 규칙을 효과적으로 학습하도록 가르치는 것입니다."
주쥔의 전략은 데이터와 매개변수가 늘어남에 따라 효과적으로 확장되는 것으로 입증된 확산 트랜스포머(DiT) 아키텍처에 기반합니다. 이는 페이페이 리의 월드 랩스(World Labs)가 추구하는 3D 재구성 방식이나 얀 르쿤 팀의 추상적 예측 모델과 대조를 이루며 기술적 격돌을 예고하고 있습니다.
이 아키텍처 논쟁의 결과는 초기 단계인 로봇 및 具身 AI 시장의 리더를 결정할 수 있습니다. 이 분야는 기업들이 자동화 개발 경쟁을 벌이면서 상당한 투자를 유치하고 있으며, 이는 이미 노동 시장에 영향을 미치고 있습니다. 2026년 초 인도 기술 부문은 AI 도입으로 인해 활성 채용 공고가 전년 대비 24% 급감했다고 보고했습니다.
비디오에 대한 확장성 베팅
주쥔 주장의 핵심은 데이터와 아키텍처 확장이라는 두 기둥에 있습니다. 그는 모델이 세계를 진정으로 이해하려면 거대하고 끊임없이 확장되는 데이터셋에 접근해야 한다고 주장합니다. 비디오는 현실 세계의 물리학과 인과관계를 포착하는 데 가장 풍부하고 보편적인 형식이라는 것입니다.
"우리는 파운데이션 모델의 제1원칙에서 생각합니다."라고 주쥔은 설명했습니다. "확장 가능한 데이터와 확장 가능한 아키텍처가 필요합니다."
이러한 비디오 중심 경로는 고정밀 3D 환경이나 시뮬레이션 구축에 집중하는 경쟁사들과는 다릅니다. 주쥔은 그러한 방법이 제어 가능한 훈련 환경을 제공하지만, 기계의 궁극적인 목표에는 비효율적이라고 믿습니다. 로봇이 컵을 집어 드는 법을 배우기 위해 모든 픽셀을 완벽하게 렌더링할 필요는 없으며, 단지 자신의 상태를 인지하고 행동의 물리학을 예측하기만 하면 된다는 것입니다. 방대한 양의 실제 세계 비디오를 훈련함으로써 모델은 렌더링에 따른 계산 부하 없이 이러한 역학을 학습할 수 있습니다.
이 접근 방식은 성수테크놀로지가 초기에 도입하여 확장성을 검증한 DiT 아키텍처가 뒷받침합니다. 더 많은 데이터와 매개변수가 추가됨에 따라 모델 성능이 향상될 것으로 기대되며, 이는 미래 로봇을 위한 진정한 범용 '지능 허브'를 구축하는 데 중요한 요소입니다.
가상 픽셀에서 물리적 행동으로
핵심 과제는 수동적인 비디오 관찰을 실행 가능한 행동으로 변환하는 것입니다. 성수테크놀로지는 '생성'과 '행동' 사이의 간극을 메우기 위해 설계된 통합 세계 모델 프레임워크를 구축하여 이 문제를 해결하고 있습니다. 모델은 단순히 비디오를 시청하는 것이 아니라 움직임, 상호작용 및 결과의 근본적인 패턴을 학습합니다.
주쥔은 이 통합 접근 방식에서 유망한 초기 결과를 보고하며, 50개 이상의 다양한 작업에서 상당한 데이터 확장 효과와 강력한 일반화 능력을 보여준다고 언급했습니다. 여기에는 로봇 팔로 캡차(CAPTCHA)를 푸는 디지털 작업부터 유연한 물체를 다루는 복잡한 물리적 조작까지 포함됩니다.
주쥔은 "작업 수가 늘어남에 따라 성능이 저하되지 않고 오히려 향상되는 것을 확인하고 있습니다."라며, 작업이 많아질수록 성능이 떨어질 수 있는 기존의 시각-언어-행동(VLA) 모델과 대조했습니다. 이는 각 작업마다 별도의 모델을 훈련하는 것보다 하나의 통합 모델이 범용 지능으로 가는 더 실행 가능한 경로일 수 있음을 시사합니다.
AI가 세상에서 행동할 수 있도록 추진하는 과정에서, 이러한 모델을 구동하는 반도체 산업은 막대한 에너지 비용 문제에 직면해 있습니다. SEMICON China 2026 포럼에서 폭스콘과 BOE 같은 업계 리더들은 AI 자체를 사용하여 공장 전력 소비를 10~20% 절감하는 방법을 강조했습니다. 이는 점점 더 거대해지는 세계 모델 훈련에 필요한 미래 생산량 확대를 지원하기 위한 필수적인 단계입니다.
앞으로 주쥔은 낙관적인 전망을 내놓으며, 방대한 데이터셋, DiT와 같은 성숙한 아키텍처, 충분한 컴퓨팅 파워의 결합이 향후 1~2년 내에 중대한 돌파구를 마련할 것으로 예측했습니다. 그는 비정형적이고 역동적인 특성을 지닌 가정과 사무실 환경을 세계 모델의 궁극적인 시험대이자 가장 가치 있는 목표로 보고 있습니다. 투자자들에게 핵심은 확장 가능한 데이터, 확장 가능한 모델 아키텍처, 그리고 이를 훈련할 거대한 컴퓨팅 자원이라는 세 가지 필수 자원을 보유한 기업을 식별하는 것이 될 것입니다.
이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.