대형 언어 모델(LLM)은 주식시장 타이밍에 초기에는 효과적으로 보이지만, 장기간 및 변화하는 시장 상황에서는 벤치마크를 능가하지 못한다는 연구 결과가 6월 25일 발표됐다.
대형 언어 모델(LLM)은 주식시장 타이밍에 초기에는 효과적으로 보이지만, 장기간 및 변화하는 시장 상황에서는 벤치마크를 능가하지 못한다는 연구 결과가 6월 25일 발표됐다.

주식시장 타이밍에 활용된다고 홍보되는 대형 언어 모델(LLM)이 장기간에 걸쳐 우위를 잃고 시장 상황이 변할 때 적응에 실패한다는 연구 결과가 6월 25일 발표됐다. 이는 AI 기반 트레이딩 전략의 전제에 도전하는 내용이다.
"LLM은 시장 타이밍 작업에서 초기에는 강력한 성과를 보이지만, 평가 기간이 길어지고 시장 체제가 변화함에 따라 그 이점이 사라진다"고 이 연구의 주저자는 말했다. 그의 연구는 다양한 최첨단 모델을 여러 기간에 걸쳐 '매수 후 보유(Buy-and-Hold)' 벤치마크와 대조 테스트했다. 이 논문은 아직 동료 검토(peer-review)를 거치지 않았다.
이 연구는 OpenAI의 GPT-4와 Anthropic의 Claude 등 모델을 대상으로 S&P 500의 방향성 움직임 예측 및 섹터 순환 신호 식별 등의 과제를 테스트했다. 시뮬레이션 트레이딩 첫 3개월 동안 모델들은 55% 이상의 정확도를 기록하며 단순 추세 전략이나 무작위 추측을 웃돌았지만, 12개월 기간으로 확장하자 성과는 거의 기준 수준으로 떨어졌다. 이러한 성과 저하는 변동성 급등과 추세 반전 구간에서 가장 두드러졌으며, 모델들은 신호 생성 방식을 조정하는 데 실패했다.
이번 연구 결과는 AI 기반 투자 도구 시장이 확장되는 시점에 나왔다. Preqin 데이터에 따르면 AI 기반 퀀트 펀드의 운용자산(AUM)은 전 세계적으로 약 4,500억 달러(약 4,500억 달러)로 성장했으며, Two Sigma, 르네상스 테크놀로지스(Renaissance Technologies), 브리지워터 어소시에이츠(Bridgewater Associates) 등의 기업들이 LLM 기반 트레이딩 시스템에 막대한 투자를 하고 있다. 이 연구는 과거 데이터로 훈련된 모델이 시장 미시구조가 변화할 때 붕괴하는 패턴을 학습했을 수 있다는 점을 시사한다. 이는 오랫동안 퀀트 전략을 괴롭혀 온 '분포 이동(Distribution Shift)' 문제다.
왜 범용 모델은 시장에서 어려움을 겪는가
핵심적인 한계는 LLM이 구축되는 방식에서 비롯된다. 이 모델들은 수백만 개의 훈련 예제에 걸쳐 광범위한 언어 이해를 위해 최적화되어 있으며, 금융 시장을 움직이는 좁고 체제 의존적인 패턴을 위해 설계되지 않았다. 2020년부터 2024년까지의 텍스트로 훈련된 모델은 국채 수익률 하락이 기술주를 상승시키는 등의 상관관계를 학습할 수 있지만, 연방준비제도(Fed)가 2022년 긴축 사이클을 시작했을 때처럼 거시 환경이 바뀌면 이러한 관계가 역전될 수 있다.
이는 최근 벤치마킹 기업 ScaleDown AI가 밝힌 광범위한 추세를 반영한다. ScaleDown AI에 따르면 특정 작업에 특화된 소형 언어 모델(small language model)은 좁은 분류 작업에서 최첨단 LLM보다 8% 더 뛰어난 성과를 내면서도 실행 비용은 161배 저렴하다. 동일한 원리가 시장 타이밍에도 적용된다. 주식 방향을 예측하라는 요청을 받은 범용 모델은 관련 없는 작업을 위해 훈련된 수십억 개의 파라미터라는 오버헤드를 지니는 반면, 특수 목적으로 구축된 모델은 이론적으로 시장 특화 신호에 용량을 집중할 수 있다.
AI 트레이딩 전략에 대한 의미
투자자들에게 이 연구는 AI 기반 알파(초과 수익)의 지속 가능성에 대한 의문을 제기한다. LLM 기반 타이밍 전략이 시간이 지남에 따라 성능이 저하된다면, AI 기반 펀드에 유입된 4,500억 달러가 시장 상황이 불가피하게 변화함에 따라 성과 위기에 직면할 수 있다. 이 연구는 기성 최첨단 모델을 거래 신호에 의존하는 기업들이 지속적인 체제 탐지 및 모델 재훈련 없이는 우위가 사라질 수 있음을 시사한다. 이러한 재훈련은 대규모로 구현하기에는 여전히 비용이 많이 들고 어려운 작업이다.
자체 특화 시장 모델을 구축하는 퀀트 헤지펀드는 범용 LLM을 사용하는 기업보다 더 나은 성과를 낼 수 있지만, 이 연구의 결과는 명시적인 체제 전환 처리가 없는 과거 가격 패턴으로 훈련된 모든 시스템에 광범위하게 적용된다. 이 논문은 AI 트레이딩 시스템이 체제 전환 시 모델의 영향력을 줄이는 변동성 기반 게이팅 메커니즘(volatility-based gating mechanism)을 도입할 것을 권장하지만, 이러한 기능은 현재 대부분의 구현에서 빠져 있다.
본 기사는 정보 제공 목적으로만 작성되었으며, 투자 조언을 구성하지 않습니다.