- 알리바바 퉁이 연구소는 순수 강화 학습의 '추론 길이 정체' 문제를 해결하기 위해 FIPO 알고리즘을 도입했습니다.
- FIPO는 Future-KL 메커니즘을 활용하여 핵심 토큰에 보상을 제공함으로써 긴 추론 작업 시 모델 성능을 향상시킵니다.
- 연구 팀은 320억 규모에서 FIPO가 o1-mini 및 DeepSeek-Zero-MATH와 같은 경쟁 모델을 능가했다고 발표했습니다.
뒤로

알리바바 퉁이 연구소는 순수 강화 학습 모델을 괴롭혀온 '추론 길이 정체' 문제를 해결하기 위해 고안된 새로운 알고리즘 FIPO(Future-KL Influenced Policy Optimization)를 공개했습니다. 프로젝트를 담당하는 지능형 컴퓨팅 팀은 자신들의 접근 방식이 320억 규모(32B scale)에서 기존 경쟁 모델을 능가하는 우수한 성능을 달성했다고 주장합니다.
알리바바 퉁이 연구소 대변인은 "이번 돌파구는 복잡한 다단계 추론 작업을 위한 대규모 모델 훈련의 중요한 병목 현상을 해결합니다"라며, "미래 결과에 가장 큰 영향을 미치는 토큰에 보상을 제공함으로써 모델이 더 길고 일관되며 정확한 답변을 생성하도록 유도할 수 있습니다"라고 말했습니다.
FIPO의 핵심은 'Future-KL' 메커니즘입니다. 순수 강화 학습(Pure RL)에서 모델은 반복적이거나 근시안적인 출력을 생성하는 루프에 갇힐 수 있으며, 이를 '추론 길이 정체'라고 합니다. FIPO는 모델이 향후 생성할 텍스트에 큰 영향을 미치는 '핵심 토큰'을 식별하고 보상함으로써 이 문제를 해결합니다. 연구 팀의 발표에 따르면, 이 방법을 통해 320억 매개변수 모델이 수학적 추론 능력으로 잘 알려진 다른 두 대형 언어 모델인 o1-mini와 DeepSeek-Zero-MATH를 모두 능가할 수 있었습니다.
이러한 개발은 알리바바의 Qwen 제품군 모델 성능을 크게 향상시켜 엔비디아와 같은 글로벌 경쟁업체 및 국내 라이벌에 대한 입지를 강화할 수 있습니다. 투자자들에게 순수 RL의 훈련 한계를 극복하는 능력은 더 강력하고 효율적인 AI 제품으로 이어져 알리바바의 클라우드 컴퓨팅 수익과 장기적인 AI 전략에 잠재적으로 영향을 미칠 수 있습니다. 회사는 구체적인 벤치마크나 훈련 실행 비용은 공개하지 않았습니다.
이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.