El laboratorio Tongyi de Alibaba ha presentado un nuevo algoritmo, FIPO (Future-KL Influenced Policy Optimization), destinado a resolver el problema del "estancamiento de la longitud de inferencia" que ha desafiado a los modelos de aprendizaje por refuerzo puro. El equipo de computación inteligente detrás del proyecto afirma que su enfoque ha logrado un rendimiento superior en la escala de 32B, superando a competidores establecidos.
"Este avance aborda un cuello de botella crítico en el entrenamiento de modelos grandes para tareas de razonamiento complejas y de varios pasos", dijo un portavoz del laboratorio Tongyi de Alibaba. "Al recompensar los tokens que son más influyentes para los resultados futuros, podemos guiar al modelo para que genere respuestas más largas, coherentes y precisas".
El núcleo de FIPO es su mecanismo "Future-KL". En el aprendizaje por refuerzo puro (Pure RL), los modelos pueden quedarse estancados en un bucle, generando resultados repetitivos o miopes, un problema conocido como "estancamiento de la longitud de inferencia". FIPO aborda esto identificando y recompensando los "tokens clave" que tienen una alta influencia en el texto generado futuro del modelo. Según el anuncio del equipo, este método ha permitido que su modelo de 32 mil millones de parámetros supere tanto a o1-mini como a DeepSeek-Zero-MATH, otros dos grandes modelos de lenguaje conocidos por sus capacidades de razonamiento matemático.
Este desarrollo podría mejorar significativamente el rendimiento de la familia de modelos Qwen de Alibaba, fortaleciendo su posición frente a competidores globales como Nvidia y rivales nacionales. Para los inversores, la capacidad de superar las limitaciones de entrenamiento en RL puro podría traducirse en productos de IA más potentes y eficientes, lo que podría afectar los ingresos de computación en la nube de Alibaba y su estrategia de IA a largo plazo. La empresa no reveló los puntos de referencia específicos ni el coste de la ejecución del entrenamiento.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.