핵심 요약:
- 엔비디아가 최초의 완전 오픈 물리 AI 옴니모델인 코스모스 3를 출시
- 이 모델은 비전, 언어, 행동을 통합하는 믹스처-오브-트랜스포머 아키텍처 사용
- ARK Invest 추산, 물리 AI는 2040년까지 24조 달러 시장을 열어줄 전망
핵심 요약:

엔비디아의 코스모스 3는 로보틱스를 위한 기초 AI 모델 시장에 진출한 칩메이커의 신호탄으로, 비전 추론과 멀티모달 생성을 결합한다.
엔비디아의 코스모스 3는 물리 AI를 위한 최초의 완전 오픈 옴니모델로, GPU 하드웨어를 넘어 기초 모델 영역으로 회사를 확장시키며 세계 시뮬레이션과 로보틱스를 위한 믹스처-오브-트랜스포머 아키텍처를 탑재했다.
"코스모스 3는 비전, 언어, 행동을 통합하는 획기적인 믹스처-오브-트랜스포머 아키텍처 위에 구축된 리더보드 최상위 오픈 물리 AI 기반 모델입니다"라고 엔비디아는 6월 1일 발표에서 밝혔다.
이 모델은 네이티브 비전 추론을 지원하며 합성 데이터 생성 및 물리 AI 정책 개발을 위해 텍스트, 이미지, 비디오, 주변 음향 및 행동 출력을 생성한다. 엔비디아는 또한 320억 개 파라미터의 오픈 추론 비전-언어-행동 모델인 알파마요 2 슈퍼(Alpamayo 2 Super)와 함께 자사의 옴니버스, 코스모스, 메트로폴리스 플랫폼 전반에 걸친 오픈소스 물리 AI 에이전트 스킬 제품군을 공개했다.
기초 모델로의 확장은 엔비디아가 2025 회계연도에 620억 달러의 매출을 기록한 데이터센터 GPU 사업을 넘어 가치를 창출할 수 있는 위치를 마련해준다. 자율주행차, 창고 로보틱스, 산업 자동화를 아우르는 물리 AI는 새로운 주소 가능 시장을 대표하며, 코스모스가 로보틱스 개발의 표준 플랫폼이 될 경우 엔비디아의 35배 선행 주가수익비율을 정당화할 수 있다.
코스모스 3의 기반이 되는 믹스처-오브-트랜스포머 아키텍처는 엔비디아의 이전 AI 모델과 기술적으로 차별화된다. 텍스트를 순차적으로 처리하는 대규모 언어 모델과 달리, 코스모스 3는 비전, 언어, 행동 데이터를 동시에 처리하여 물리적 세계 상호작용을 시뮬레이션할 수 있다. 이는 실제 세계에서의 시행착오 없이 로봇과 자율 시스템을 훈련하는 데 필요한 기능이다.
오픈소스 출시 전략은 메타가 자사의 라마(Llama) 언어 모델 제품군에서 취한 접근 방식을 반영하며, 코스모스 3를 로보틱스 연구개발의 잠재적 표준으로 자리매김하게 한다. 모델을 무료로 공개함으로써 엔비디아는 훈련 및 추론에 자사 하드웨어를 의존하는 개발자와 기업들의 네트워크를 구축, GPU 사업을 둘러싼 소프트웨어 해자를 창출하려는 의도다.
경쟁 구도는 엔비디아의 직접적인 칩 경쟁사들을 넘어선다. 테슬라는 자율주행 및 휴머노이드 로보틱스를 위한 자체 AI 모델을 개발 중이며, 구글 딥마인드는 뮤조코(MuJoCo) 및 제미니(Gemini) 플랫폼을 통해 물리적 세계 시뮬레이션에 막대한 투자를 해왔다. 아마존은 로보틱스 부문을 통해 창고 자동화 분야에서 잠재적 고객이자 경쟁자로서의 위치를 점하고 있다.
투자자들에게 핵심 질문은 코스모스 3가 네트워크 채택을 GPU 수요로 전환할 수 있느냐는 것이다. 단 한 번의 물리 AI 훈련 과정에는 수천 개의 엔비디아 GPU가 필요하다. 단일 로보틱스 모델 훈련 세션은 수주에 걸쳐 10,000~25,000개의 H100급 GPU를 소비할 수 있다. 코스모스 3가 물리 AI 개발의 기본 플랫폼이 된다면, 현재의 대규모 언어 모델 구축을 넘어 데이터센터 자본 지출의 새로운 사이클을 촉발할 수 있다.
엔비디아 주가는 마이크로소프트, 아마존, 구글의 AI 인프라 지출에 힘입어 지난 12개월간 140% 상승했다. 코스모스 3 출시는 데이터센터 GPU를 넘어 로보틱스와 물리 AI로 내러티브를 확장하며, ARK Invest는 이 시장이 2040년까지 전 세계적으로 24조 달러의 매출에 도달할 것으로 추정한다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.