Nvidia의 새로운 AI, 로봇용 코드 작성... 7개 작업 중 4개에서 인간 전문가 능가

Nvidia가 AI 학습 분야의 지배력을 로봇 제어 분야로 확장하고 있습니다. 실시간으로 로봇이 스스로 제어 소프트웨어를 생성할 수 있게 해주는 오픈소스 프레임워크인 CaP-X를 출시한 것입니다. 이 프레임워크의 핵심 에이전트인 CaP-Agent0는 이미 복잡한 작업에서 인간 전문가가 직접 작성한 프로그램과 대등하거나 이를 능가하는 성능을 입증하며, 자율 시스템의 학습 및 적응 방식에 있어 중대한 변화를 예고했습니다.

"로봇 공학을 위한 'Code as Policy'(CaP)의 전망에 대해 매우 기대가 큽니다!"라고 UC 버클리의 켄 골드버그(Ken Goldberg) 교수는 이번 릴리스에 대한 의견을 밝혔습니다.

CaP-Bench 프레임워크를 사용한 벤치마크 테스트에서, 사전 훈련이 필요 없는 CaP-Agent0는 7개 핵심 조작 작업 중 4개에서 인간 전문가가 작성한 프로그램과 대등하거나 그 이상의 성공률을 달성했습니다. 이러한 성과는 가장 기본적인 원자 명령(atomic commands)만을 사용하여 거둔 것으로, OpenAI의 o1이나 Google의 Gemini 3 Pro와 같은 고급 거대 모델조차 프레임워크의 구조적 접근 없이는 실패했던 시나리오입니다. 또한 CaP-X 모델은 OpenVLA와 같은 엔드-투-엔드 모델에 비해 장기적인 작업(long-horizon tasks)에서 우수한 견고함을 보여주었습니다.

이번 개발은 AI 모델이 블랙박스 신경망 출력이 아닌 명시적인 코드를 생성하는 'Code as Policy' 접근 방식을 공고히 합니다. Nvidia 입장에서는 AI를 학습시키는 GPU 판매를 넘어, AI 기반 로봇을 구동하는 핵심 소프트웨어 프레임워크까지 제공함으로써 기술적 해자를 확장하게 되었습니다. 이러한 행보는 성장하는 로봇 및 자동화 시장에서 상당한 가치를 점유하고, 종합적인 AI 생태계를 구축하려는 경쟁사들에게 더욱 압박을 가할 수 있습니다.

VLA 블랙박스에서 Code as Policy로

CaP-X의 출시는 로봇 제어의 두 가지 지배적인 방식이 가진 핵심 한계를 해결합니다. 전통적인 방식은 엔지니어가 모든 동작에 대해 세심하게 코드를 작성해야 하며, 이는 정밀하지만 유연하지 못해 새로운 물체나 환경에 적응하기 어렵습니다. 최근에는 거대 언어 모델의 성공에 힘입어 엔드-투-엔드 시각-언어-행동(VLA) 모델이 인상적인 능력을 보여주었습니다. 그러나 이러한 VLA 모델은 '블랙박스'로 작동하여 디버깅이 어렵고, 새로운 작업에 적응하기 위해 막대한 양의 새로운 데이터셋이 필요한 경우가 많습니다.

2022년 Google에서 처음 제안한 'Code as Policy'(CaP) 패러다임은 제3의 길을 제시합니다. 거대 모델이 추상적인 행동을 출력하는 대신, 로봇의 제어 API를 직접 호출하는 가독성 있는 Python 코드를 생성하는 것입니다. Nvidia의 CaP-X는 이 아이디어를 크게 발전시켰습니다. 프로그래밍 에이전트가 코드를 작성할 뿐만 아니라 환경으로부터 피드백을 받고, 자신의 실수를 디버깅하며, 성공적인 루틴을 재사용 가능한 스킬 라이브러리에 저장할 수 있는 완전한 '하네스(harness)'를 구축한 것입니다. 이 프레임워크 내에서 강력한 VLA 모델조차 단 한 줄의 코드로 호출되어 특정하고 복잡한 작업을 처리하는 도구로 활용될 수 있습니다.

CaP-X 프레임워크 심층 분석

CaP-X는 단일 모델이 아니라 함께 작동하도록 설계된 도구 모음입니다. 핵심은 AI '두뇌'를 가상 또는 실제 로봇에 연결하여 생성된 각 코드 라인에 대해 실시간 피드백을 제공하는 대화형 환경인 CaP-Gym입니다. 여기에는 가공되지 않은 이미지를 '사과'나 '컵'과 같은 의미론적 개념으로 번역하는 내장 인식 도구가 포함되어 있습니다. 제어 측면에서는 저수준의 관절 움직임을 추상화하여 AI가 보다 직관적인 데카르트 좌표계(Cartesian space)에서 프로그래밍할 수 있게 합니다.

발전 정도를 측정하기 위해 연구팀은 AI가 로봇을 위한 기능적 코드를 작성하고, 오류를 복구하며, 시각적 피드백을 통합하는 능력을 구체적으로 테스트하는 벤치마크인 CaP-Bench를 개발했습니다. 프레임워크의 대표 에이전트인 CaP-Agent0가 우수성을 입증한 곳이 바로 이 벤치마크입니다. 에이전트는 다회차 추론 루프를 사용하며, 작동하는 솔루션을 찾기 위해 여러 잠재적 코드 솔루션을 병렬로 생성할 수 있습니다. 솔루션이 성공하면 영구 스킬 라이브러리에 자동으로 추가되어 에이전트가 시간이 지남에 따라 학습하고 개선될 수 있도록 합니다. 연구팀은 또한 강화 학습을 사용하여 프로그래밍 모델 자체를 미세 조정하고 환경 피드백을 기반으로 코딩 직관을 향상시키는 CaP-RL을 도입했습니다.

CaP-X가 논리와 계획 분야에서 놀라운 강점을 보여주었지만, 연구진은 물 붓기와 같이 고주파 시각 피드백이 필요한 작업에서는 효과가 떨어질 수 있다고 언급했습니다. 가장 유망한 향후 방향은 하이브리드 접근 방식입니다. 코드를 생성하는 AI가 상위 수준의 전략과 오류 복구를 담당하고, 미세한 운동 작업은 특화된 VLA 모델에 위임하는 방식입니다.

본 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.