SenseTime, 2 Milyar Parametreli SenseNova U1 Modelini Açık Kaynak Olarak Sundu, VAE Mimarisinden Vazgeçti

SenseNova U1'in yayınlanmasıyla birlikte, Çinli yapay zeka firması SenseTime (00020.HK), çoğu modern görüntü oluşturma modelinin temel mimarisine meydan okuyor. Şirket, doğrudan pikseller üzerinde çalışan ve Stable Diffusion'dan Google'ın Flux'ına kadar birçok sistem tarafından kullanılan varyasyonel otokodlayıcıyı (VAE) devre dışı bırakan NEO-Unify mimarisi üzerine inşa edilmiş 2 milyar parametreli bir ön izleme modelini açık kaynak olarak sundu. Bu yaklaşım, VAE'nin sıkıştırma adımından kaçınarak çıkarım maliyetlerini önemli ölçüde azaltabilir ve görüntü doğruluğunu artırabilir.

SenseTime Yönetim Kurulu Başkanı Xu Li, Mart 2026'da "Gelecekteki yapay zeka ürünlerini token tüketimi yerine problem çözme sonuçlarına göre ücretlendirmeyi planlıyoruz" dedi; bu felsefe, bu daha verimli mimarinin maliyet tasarrufu potansiyeliyle örtüşüyor.

Model kartına göre, 2 milyar parametreli ön izleme modeli, görüntü yeniden oluşturmada 31,56 tepe sinyal-gürültü oranı (PSNR) elde ediyor; bu puan, ayrı bir VAE gerektirmeden çok daha büyük Flux modelinin 32,65 PSNR değerine yaklaşıyor. Model, Nanyang Teknoloji Üniversitesi S-Lab ile ortaklaşa geliştirildi ve 26 Nisan'da Hugging Face'te yayınlandı. Ayrıca 8 milyar parametreli bir temel modelin de geleceği doğrulandı.

Geliştiriciler ve kurumsal kullanıcılar için bu sürüm, daha basit ve daha verimli yapay zeka yığınlarına doğru bir geçişe işaret ediyor. VAE'nin kaldırılması, görsel yapaylıkların ana kaynağını ve önemli ölçüde ince ayar gerektiren bir bileşeni ortadan kaldırıyor. Bu, yüksek kaliteli görüntü oluşturma hatları oluşturmanın önündeki engelleri azaltabilir ve üretim sistemleri için operasyonel maliyetleri düşürerek, Midjourney ve OpenAI gibi Batılı satıcıların API tabanlı iş modellerini doğrudan tehdit edebilir.

Pikseller İçin Yeni Bir Yol

Varyasyonel otokodlayıcı uzun zamandır temel bir zorunluluk değil, pratik bir zorunluluk olmuştur. Yüksek çözünürlüklü görüntüleri, difüzyon işleminin gerçekleştiği daha küçük, hesaplama açısından yönetilebilir bir gizli alana sıkıştırır. Ancak bu sıkıştırma kayıplıdır; ince detayları atar ve geliştiricilerin etrafından dolanmak için önemli miktarda mühendislik zamanı harcadığı yapaylıklar ortaya çıkarır. SenseNova'nın NEO-Unify mimarisi bu adımı tamamen atlıyor.

Görsel ve dil verilerini en baştan derinlemesine ilişkili olarak ele alan model, doğrudan pikseller üzerinde oluşturmayı öğreniyor. İki aşamalı bir eğitim stratejisi, modelin görsel algısını sıfırdan oluştururken önceden eğitilmiş büyük bir dil modelinden gelen dil muhakemesini entegre etmesine olanak tanıyor. Anlama ve oluşturma için bu birleşik yol, bir alandaki kazanımların diğerindeki yeteneği azaltabildiği çok modlu model eğitiminde sıkça karşılaşılan performans tavizlerini önlüyor.

Çin'in Hızlanan Yapay Zeka Yükselişi

SenseNova U1, DeepSeek, Alibaba'nın Qwen'i ve InternVL projesi gibi şirketlerin dikkat çekici sürümlerine katılarak Çin'den çıkan bir dizi rekabetçi açık ağırlıklı modelin en sonuncusudur. Bu hızlı mimari deneme süreci, açık kaynaklı sürümlerle birleşerek, OpenAI, Google ve Anthropic'in kapalı, ABD merkezli modellerine veya hatta Meta gibi Batılı firmaların açık ağırlıklı modellerine anlamlı bir alternatif sunan sağlam bir geliştirici ekosistemi inşa ediyor.

Özellikle veri egemenliği ve yerel altyapının kilit önemde olduğu pazarlardaki kurumsal alıcılar için bu modeller giderek daha uygulanabilir hale geliyor. SenseTime, Nvidia'nın GPU tedarik zincirlerini etkileyen ABD ihracat kontrollerinden geliştirme hattını koruyan bir hamleyle yerli çip sağlayıcılarıyla entegrasyonunu şimdiden derinleştiriyor. Mimari inovasyon, açık kaynak stratejisi ve tedarik zinciri dayanıklılığının birleşimi, Çin'in yapay zeka sektörünün parçalanan küresel pazardaki konumunu güçlendiriyor.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.