Alibaba'nın Tongyi Laboratuvarı, saf pekiştirmeli öğrenme modellerini zorlayan "çıkarım uzunluğu duraklaması" sorununu çözmeyi amaçlayan yeni bir algoritma olan FIPO'yu (Future-KL Influenced Policy Optimization) tanıttı. Projenin arkasındaki akıllı hesaplama ekibi, yaklaşımlarının 32B ölçeğinde üstün performans sergileyerek yerleşik rakipleri geride bıraktığını iddia ediyor.
Alibaba'nın Tongyi Laboratuvarı'ndan bir sözcü, "Bu atılım, karmaşık, çok adımlı akıl yürütme görevleri için büyük modellerin eğitilmesindeki kritik bir darboğazı gideriyor. Gelecekteki sonuçlar üzerinde en etkili olan belirteçleri ödüllendirerek, modeli daha uzun, daha tutarlı ve daha doğru yanıtlar üretmesi için yönlendirebiliriz" dedi.
FIPO'nun özü "Future-KL" mekanizmasıdır. Saf pekiştirmeli öğrenmede (Pure RL), modeller tekrarlayan veya dar görüşlü çıktılar üreten bir döngüde sıkışıp kalabilir; bu sorun "çıkarım uzunluğu duraklaması" olarak bilinir. FIPO, modelin gelecekte üreteceği metin üzerinde yüksek etkisi olan "anahtar belirteçleri" tanımlayarak ve ödüllendirerek bu sorunu çözer. Ekibin duyurusuna göre, bu yöntem 32 milyar parametreli modellerinin, matematiksel akıl yürütme yetenekleriyle bilinen diğer iki büyük dil modeli olan o1-mini ve DeepSeek-Zero-MATH'i geride bırakmasını sağladı.
Bu gelişme, Alibaba'nın Qwen model ailesinin performansını önemli ölçüde artırabilir ve Nvidia gibi küresel rakiplerin yanı sıra yerel rakiplere karşı konumunu güçlendirebilir. Yatırımcılar için, saf RL'deki eğitim sınırlamalarının üstesinden gelme yeteneği, daha güçlü ve verimli yapay zeka ürünlerine dönüşebilir ve potansiyel olarak Alibaba'nın bulut bilişim gelirini ve uzun vadeli yapay zeka stratejisini etkileyebilir. Şirket, belirli kıyaslamaları veya eğitim sürecinin maliyetini açıklamadı.
Bu makale sadece bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.