Çinli yapay zeka şirketi DeepSeek, Uzmanlar Karışımı (MoE) modelleriyle ilişkili yüksek hesaplama maliyetlerini düşürmek için tasarlanan “Mega MoE” adlı yeni bir mimariyi tanıtarak DeepGEMM kod tabanına büyük bir güncelleme yayınladı. Güncelleme, birden fazla karmaşık adımı tek bir GPU işleminde birleştirerek yapay zekadaki kritik bir verimlilik sorununu çözmeyi amaçlıyor ve bu da DeepSeek'e büyük ölçekli modellerini eğitme ve dağıtma konusunda önemli bir maliyet avantajı sağlayabilir.
DeepSeek altyapı ekibi projenin açıklamasında, "DeepGEMM, modern büyük dil modelleri için temel hesaplama ilkelerini entegre eden birleşik, yüksek performanslı bir Tensor Core çekirdek kütüphanesidir," diye yazdı. Kütüphane artık temel bir bileşen olarak "iletişim örtüşmeli birleşik MoE (Mega MoE)" içeriyor ve bu da uç noktada verimliliğe yönelik stratejik bir odağa işaret ediyor.
Geleneksel MoE modelleri, güçlü olmalarına rağmen verimsiz olmalarıyla tanınırlar. Bilgiyi, farklı veri "token"larını özel "uzman" alt ağlara yönlendirerek işlerler; ancak bu, GPU üzerinde parçalanmış bir dizi ayrı işlemi içerir: tokenların dağıtılması, iki doğrusal dönüşüm, bir aktivasyon fonksiyonu ve sonuçların birleştirilmesi. Mega MoE, bu kopuk iş akışının tamamını, tüm süreci tek seferde yürüten tek bir birleşik "mega-çekirdek" ile değiştirir. Kritik olarak, GPU'lar arasındaki veri iletişiminin hesaplama ile aynı anda gerçekleşmesini sağlayarak mevcut çoklu GPU kurulumlarını engelleyen boşta kalma süresini ortadan kaldırır.
Verimliliğe yönelik bu hamle, yapay zeka eğitimi için gereken devasa sermaye harcamalarının hakim olduğu bir sektörde kritik öneme sahiptir. DeepSeek, Google ve Mistral AI gibi en iyi laboratuvarlar tarafından kullanılan MoE modellerini çalıştırma maliyetini potansiyel olarak düşürerek rekabet avantajı elde edebilir. Güncelleme ayrıca, analistlerin gelişmiş tekniklerin Nvidia'nın en yeni B-serisi yapay zeka hızlandırıcıları için optimize edildiğini öne sürmesiyle şirketin donanım stratejisine de işaret ediyor ve şirketin yalnızca yerli donanıma güvendiği yönündeki söylentileri boşa çıkarıyor.
Verimsizliği Yenmek İçin Çekirdekleri Birleştirmek
Mega MoE'nin temel yeniliği, MoE katmanlarının geleneksel, adım adım yürütülmesinden ayrılmasıdır. Önceki yöntemler sürecin her aşaması için GPU üzerinde çalışan küçük programlar olan birden fazla çekirdek başlatmayı gerektirirken, Mega MoE bunları konsolide eder. Bunu, yavaş, çok istasyonlu bir montaj hattını tek, sürekli çalışan bir konveyör bandına dönüştürmek gibi düşünebilirsiniz.
Bu "birleşik" yaklaşım, GPU'ların düşük kapasitede kullanılması sorununu doğrudan ele alır. Birden fazla GPU üzerindeki standart MoE eğitiminde, işlemciler aralarında verilerin aktarılmasını beklerken önemli miktarda zaman harcanır. Çekirdeği bu veri iletişimini Tensor Core'lardaki aktif hesaplama ile örtecek şekilde tasarlayan DeepSeek, pahalı donanımın zamanın çok daha yüksek bir yüzdesinde yararlı işler yapmasını sağlar. Sonuç, özellikle öncü modelleri eğitmek için gereken büyük, çok düğümlü konfigürasyonlarda iş hacminde doğrudan bir artıştır.
FP4 ve Gelecek Donanımlarla Sınırları Zorlamak
Birleşik çekirdeğin ötesinde, DeepSeek'in güncellemesi hesaplama tasarrufunda sınırları zorlamaya yönelik agresif bir hamleyi ortaya koyuyor. Ekip, MQA logitleri için bir FP4 dizinleyici dahil olmak üzere daha düşük hassasiyetli veri formatlarını deniyor. Daha yaygın olan 8-bit veya 16-bit formatlarından 4-bit kayan nokta sayılarına geçmek, bellek kullanımını önemli ölçüde azaltabilir ve hesaplama hızını artırabilir; ancak model doğruluğunu korumak için karmaşık mühendislik gerektirir.
En ileri optimizasyon tekniklerine yönelik bu odaklanma, DeepSeek'in temel donanımı hakkındaki spekülasyonları körükledi. X kullanıcısı St4r'ın analizine göre, Mega MoE'de uygulanan özel yöntemler Nvidia'nın en gelişmiş yapay zeka hızlandırıcıları olan Blackwell mimarisi için en uygun yöntemlerdir. Bu durum, jeopolitik ticaret gerilimlerine rağmen DeepSeek'in pazar liderinden en üst düzey çipler kullanmaya devam ettiğini gösteriyor; bu, OpenAI, Anthropic ve bunların donanım tedarikçileri olan AMD ve Intel gibi diğer büyük oyunculara karşı rekabet ortamını takip eden yatırımcılar için kilit bir faktördür. DeepSeek, projenin hala geliştirme aşamasında olduğunu ve performans verilerinin geleceğini belirtmiş olsa da, bu hamle net bir stratejik yönü işaret ediyor: en son teknoloji yapay zekayı ekonomik olarak daha uygulanabilir hale getirmek.
Yatırımcılar için DeepSeek'in altyapı optimizasyonuna odaklanması temel bir fark yaratıcıdır. Girişin önündeki ana engelin eğitim ve çıkarım maliyetinin büyüklüğü olduğu bir pazarda, bu maliyet eğrisini temelden düşürebilen her şirket güçlü bir rekabet avantajı elde eder. Bu güncelleme, diğer yapay zeka laboratuvarları ve bulut sağlayıcıları üzerinde bu verimlilik seviyesine ulaşmaları için baskı oluşturuyor. Mega MoE'nin başarısı yalnızca DeepSeek'in kendi modellerinin birim ekonomisini iyileştirmekle kalmayacak, aynı zamanda sektör genelinde yeni nesil yapay zeka yazılım ve donanım tasarımını da etkileyebilecektir.
Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.