- 阿里通义实验室引入 FIPO 算法,旨在解决纯强化学习中的“推理长度停滞”问题。
- FIPO 利用 Future-KL 机制,通过奖励关键标记来提升模型在长推理任务中的表现。
- 团队报告称,在 320 亿参数规模下,FIPO 的表现已超越 o1-mini 和 DeepSeek-Zero-MATH 等同类模型。
返回

阿里通义实验室公布了一项名为 FIPO(未来 KL 影响策略优化)的新算法,旨在解决困扰纯强化学习模型的“推理长度停滞”问题。该项目背后的智能计算团队声称,他们的方法在 320 亿参数(32B)规模上实现了卓越的性能,超越了已有的竞争对手。
“这一突破解决了在大模型训练中进行复杂、多步推理任务的一个关键瓶颈,”阿里通义实验室的一位发言人表示。“通过奖励那些对未来结果影响最大的标记(token),我们可以引导模型生成更长、更连贯且更准确的回复。”
FIPO 的核心是其“Future-KL”机制。在纯强化学习(Pure RL)中,模型可能会陷入循环,产生重复或目光短浅的输出,即所谓的“推理长度停滞”问题。FIPO 通过识别并奖励那些对模型未来生成的文本具有高度影响力的“关键标记”来解决这一挑战。根据该团队的公告,这一方法使他们的 320 亿参数模型性能超过了 o1-mini 和 DeepSeek-Zero-MATH,这两者都是以数学推理能力著称的大型语言模型。
这一进展可能会显著增强阿里通义千问(Qwen)系列模型的表现,巩固其在面对英伟达等全球竞争对手以及国内对手时的地位。对于投资者而言,克服纯强化学习训练限制的能力可能转化为更强大、更高效的 AI 产品,从而可能影响阿里的云计算收入和长期 AI 战略。公司并未披露具体的基准测试数据或训练运行的成本。
本文仅供参考,不构成投资建议。