8개의 주요 AI 모델을 주식 시장에 투입한 경쟁에서 거의 전방위적인 실패가 발생하며, 자율 거래에 대한 준비성에 의문이 제기되었습니다.
뒤로
8개의 주요 AI 모델을 주식 시장에 투입한 경쟁에서 거의 전방위적인 실패가 발생하며, 자율 거래에 대한 준비성에 의문이 제기되었습니다.

세계 유수의 인공지능 모델 8개에 거래 계좌 접근 권한을 부여한 야심 찬 경연에서 포트폴리오 전체가 약 33%의 손실을 기록하며, AI의 분석 능력과 실제 거래 감각 사이의 극명한 격차를 보여주었습니다. 기술 스타트업 Nof1이 주관한 이번 행사에서는 32개의 가능한 결과 중 단 6개만이 수익을 냈으며, 이는 거대언어모델(LLM)이 자율 금융 시장에 투입될 준비가 되었다는 주장에 정면으로 도전하는 결과였습니다.
Nof1의 설립자인 제이 아장(Jay Azhang)은 결과에 대해 "지금은 LLM에게 돈을 맡기고 알아서 거래하게 둘 때가 아닙니다"라고 직설적으로 평가하며 "그 경로는 아직 실행 가능하지 않습니다"라고 덧붙였습니다.
알파 아레나(Alpha Arena) 경연은 OpenAI의 ChatGPT, 구글의 Gemini, 앤스로픽(Anthropic)의 Claude를 포함한 모델들에게 각각 1만 달러를 지급하고, 2주간 네 차례의 독립적인 라운드에 걸쳐 미국 기술주를 거래하도록 했습니다. 성과는 좋지 않았을 뿐만 아니라 매우 변덕스러웠습니다. 한 라운드에서 알리바바의 Qwen 모델은 1,418건의 거래를 실행한 반면, 일론 머스크의 xAI 모델인 Grok 4.20은 단 158건의 거래만을 기록했습니다.
이 결과는 1.8조 달러 규모의 AI 산업에 있어 중요한 구분점을 시사합니다. 바로 연구와 실행의 차이입니다. 구글이나 OpenAI와 같은 거대 기술 기업의 모델들은 방대한 양의 데이터를 처리할 수 있지만, 수익성 있는 거래에 필수적인 시장 타이밍, 포지션 크기 결정, 리스크 관리에 대한 미묘한 이해가 현재로서는 부족합니다. 이번 실패는 금융 분야에서 AI의 가장 즉각적인 영향이 자율 대리인이 아닌 인간 트레이더를 위한 보조 기사(Co-pilot)가 될 것임을 시사합니다.
전문가들은 LLM이 연구 중심의 작업에는 뛰어나지만 거래를 실행할 때는 어려움을 겪는다고 지적합니다. 아장은 모델들이 애널리스트 등급부터 내부자 거래 활동에 이르기까지 수많은 시장 변수의 중요성을 제대로 평가하지 못해 시기적절하지 않고 규모가 부적절한 베팅을 하게 된다고 설명했습니다. 이는 모델들이 각기 다른 '성격'을 형성한 것에서도 드러났습니다. 클로드(Claude)는 매수(Long) 포지션을 선호한 반면, 제미나이(Gemini)는 주식 공매도(Shorting)에 거침없는 모습을 보였습니다.
이러한 분석적 강점은 인텔리전트 알파(Intelligent Alpha)의 별도 벤치마크 테스트에서 입증되었습니다. 2025년 4분기 수익 추정치 수정 방향을 예측하는 데 집중한 해당 연구에서 OpenAI의 ChatGPT는 68%의 정확도를 달성했습니다. 이는 LLM이 비록 포트폴리오를 단독으로 관리하기에는 아직 신뢰할 수 없지만, 인간의 의사 결정을 지원할 수 있는 강력한 분석 도구임을 보여줍니다.
AI의 거래 능력을 평가하는 것은 '선행 편향(lookahead bias)'이라는 근본적인 방법론적 결함으로 인해 복잡합니다. 2026년에 2020년 시장 데이터로 테스트를 받은 모델은 이미 결과를 '알고' 있기 때문에 과거 백테스팅이 무의미해집니다. 이 때문에 연구자들은 한계가 있음에도 불구하고 진정한 평가를 위해 알파 아레나와 같은 실시간 경연을 활용할 수밖에 없습니다.
YipitData의 공동 설립자이자 현재 Flat Circle 블로그를 운영하는 짐 모란(Jim Moran)은 대부분의 공개 실험 기간이 너무 짧고 노이즈가 많아 확고한 결론을 내리기 어렵다고 주장했습니다. 또한 전 Coatue Management의 알렉산더 이지도르치크(Alexander Izydorczyk)는 자신이 추적하는 AI 거래 봇 중 지속적인 초과 수익을 입증한 사례가 없다고 지적했는데, 이는 대형 헤지펀드가 사용하는 독점적인 퀀트 기술이 부족하기 때문일 가능성이 큽니다. 이지도르치크는 자신의 블로그에 "LLM 에이전트 거래 전략이 정말 효과를 발휘하기 시작하면, 바로 그 소식을 듣지 못할 것"이라고 적었습니다.
Nof1은 AI에게 더 많은 데이터와 역량을 부여하는 알파 아레나의 두 번째 시즌을 운영할 계획입니다. 그러나 이 회사의 핵심 비즈니스는 자율 펀드를 운용하는 것이 아니라 개인 투자자들이 자신만의 AI 에이전트를 구축할 수 있는 도구를 제공하는 것입니다. 이러한 비즈니스 모델 자체가 AI의 현재 상태에 대한 실용적인 인정입니다. 즉, AI는 강력한 도구이지만 현재로서는 여전히 인간의 개입이 필요하다는 것입니다.
본 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.