- アリババ通義ラボが、純粋な強化学習における「推論長の停滞」を解決するFIPOアルゴリズムを発表しました。
- FIPOはFuture-KLメカニズムを活用し、主要なトークンに報酬を与えることで、長文の推論タスクにおけるモデルのパフォーマンスを向上させます。
- 研究チームによると、320億パラメータ規模において、FIPOはo1-miniやDeepSeek-Zero-MATHといった競合モデルを上回る成績を収めました。
戻る

アリババの通義ラボ(Tongyi Lab)は、純粋な強化学習モデルが直面していた「推論長の停滞」問題を解決することを目的とした新アルゴリズム「FIPO(Future-KL Influenced Policy Optimization)」を発表しました。プロジェクトを担うインテリジェント・コンピューティング・チームは、この手法により320億パラメータ(32B)規模で優れたパフォーマンスを達成し、既存の競合他社を上回ったと主張しています。
アリババ通義ラボの広報担当者は、「この画期的な成果は、複雑で多段階の推論タスクに向けた大規模モデルのトレーニングにおける重大なボトルネックを解消するものです。将来の結果に最も影響を与えるトークンに報酬を与えることで、より長く、一貫性があり、かつ正確な回答を生成するようにモデルを誘導できます」と述べています。
FIPOの核心は「Future-KL」メカニズムにあります。純粋な強化学習(Pure RL)において、モデルは繰り返しの多い出力や近視眼的な出力を生成するループに陥ることがあり、これは「推論長の停滞」として知られています。FIPOは、モデルが将来生成するテキストに高い影響力を持つ「キー・トークン」を特定して報酬を与えることで、この課題に対処します。チームの発表によると、この手法により、同社の320億パラメータモデルは、数学的推論能力で知られる他の2つの大規模言語モデル、o1-miniとDeepSeek-Zero-MATHの両方を上回ることができました。
この開発は、アリババの「通義千問(Qwen)」シリーズのパフォーマンスを大幅に向上させ、エヌビディアなどの世界的競合や国内のライバルに対する地位を強化する可能性があります。投資家にとって、純粋な強化学習におけるトレーニング制限の克服は、より強力で効率的なAI製品につながり、アリババのクラウドコンピューティング収益や長期的なAI戦略に影響を与える可能性があります。同社は、具体的なベンチマークやトレーニングにかかったコストについては明らかにしていません。
本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。