- 阿里通義實驗室引入 FIPO 算法,旨在解決純強化學習中的「推理長度停滯」問題。
- FIPO 利用 Future-KL 機制,通過獎勵關鍵標記來提升模型在長推理任務中的表現。
- 團隊報告稱,在 320 億參數規模下,FIPO 的表現已超越 o1-mini 和 DeepSeek-Zero-MATH 等同類模型。
返回

阿里通義實驗室公佈了一項名為 FIPO(未來 KL 影響策略優化)的新算法,旨在解決困擾純強化學習模型的「推理長度停滯」問題。該項目背後的智能計算團隊聲稱,他們的方法在 320 億參數(32B)規模上實現了卓越的性能,超越了已有的競爭對手。
「這一突破解決了在大模型訓練中進行複雜、多步推理任務的一個關鍵瓶頸,」阿里通義實驗室的一位發言人表示。「通過獎勵那些對未來結果影響最大的標記(token),我們可以引導模型生成更長、更連貫且更準確的回覆。」
FIPO 的核心是其「Future-KL」機制。在純強化學習(Pure RL)中,模型可能會陷入循環,產生重複或目光短淺的輸出,即所謂的「推理長度停滯」問題。FIPO 通過識別並獎勵那些對模型未來生成的文本具有高度影響力的「關鍵標記」來解決這一挑戰。根據該團隊的公告,這一方法使他們的 320 億參數模型性能超過了 o1-mini 和 DeepSeek-Zero-MATH,這兩者都是以數學推理能力著稱的大型語言模型。
這一進展可能會顯著增強阿里通義千問(Qwen)系列模型的表現,鞏固其在面對英偉達等全球競爭對手以及國內對手時的地位。對於投資者而言,克服純強化學習訓練限制的能力可能轉化為更強大、更高效的 AI 產品,從而可能影響阿里的雲計算收入和長期 AI 戰略。公司並未披露具體的基準測試數據或訓練運行的成本。
本文僅供參考,不構成投資建議。