阿里通义实验室推出 FIPO 新算法，声称在 320 亿参数规模上领先

阿里通义实验室公布了一项名为 FIPO（未来 KL 影响策略优化）的新算法，旨在解决困扰纯强化学习模型的“推理长度停滞”问题。该项目背后的智能计算团队声称，他们的方法在 320 亿参数（32B）规模上实现了卓越的性能，超越了已有的竞争对手。

“这一突破解决了在大模型训练中进行复杂、多步推理任务的一个关键瓶颈，”阿里通义实验室的一位发言人表示。“通过奖励那些对未来结果影响最大的标记（token），我们可以引导模型生成更长、更连贯且更准确的回复。”

FIPO 的核心是其“Future-KL”机制。在纯强化学习（Pure RL）中，模型可能会陷入循环，产生重复或目光短浅的输出，即所谓的“推理长度停滞”问题。FIPO 通过识别并奖励那些对模型未来生成的文本具有高度影响力的“关键标记”来解决这一挑战。根据该团队的公告，这一方法使他们的 320 亿参数模型性能超过了 o1-mini 和 DeepSeek-Zero-MATH，这两者都是以数学推理能力著称的大型语言模型。

这一进展可能会显著增强阿里通义千问（Qwen）系列模型的表现，巩固其在面对英伟达等全球竞争对手以及国内对手时的地位。对于投资者而言，克服纯强化学习训练限制的能力可能转化为更强大、更高效的 AI 产品，从而可能影响阿里的云计算收入和长期 AI 战略。公司并未披露具体的基准测试数据或训练运行的成本。

本文仅供参考，不构成投资建议。