阿里通義實驗室推出 FIPO 新算法，聲稱在 320 億參數規模上領先

阿里通義實驗室公佈了一項名為 FIPO（未來 KL 影響策略優化）的新算法，旨在解決困擾純強化學習模型的「推理長度停滯」問題。該項目背後的智能計算團隊聲稱，他們的方法在 320 億參數（32B）規模上實現了卓越的性能，超越了已有的競爭對手。

「這一突破解決了在大模型訓練中進行複雜、多步推理任務的一個關鍵瓶頸，」阿里通義實驗室的一位發言人表示。「通過獎勵那些對未來結果影響最大的標記（token），我們可以引導模型生成更長、更連貫且更準確的回覆。」

FIPO 的核心是其「Future-KL」機制。在純強化學習（Pure RL）中，模型可能會陷入循環，產生重複或目光短淺的輸出，即所謂的「推理長度停滯」問題。FIPO 通過識別並獎勵那些對模型未來生成的文本具有高度影響力的「關鍵標記」來解決這一挑戰。根據該團隊的公告，這一方法使他們的 320 億參數模型性能超過了 o1-mini 和 DeepSeek-Zero-MATH，這兩者都是以數學推理能力著稱的大型語言模型。

這一進展可能會顯著增強阿里通義千問（Qwen）系列模型的表現，鞏固其在面對英偉達等全球競爭對手以及國內對手時的地位。對於投資者而言，克服純強化學習訓練限制的能力可能轉化為更強大、更高效的 AI 產品，從而可能影響阿里的雲計算收入和長期 AI 戰略。公司並未披露具體的基準測試數據或訓練運行的成本。

本文僅供參考，不構成投資建議。