Shengshu Kurucusu, Videonun Yapay Zeka Dünya Modellerine Hakim Olması İçin 3 Neden Görüyor

Yapay zeka endüstrisi içerik oluşturmaktan fiziksel dünyayı anlamaya doğru yönelirken, "dünya modelleri" oluşturmak için doğru yol üzerine hararetli bir tartışma kızışıyor.

Shengshu Technology, yapay zeka dünya modelleri oluşturmak için video odaklı bir yaklaşımı savunuyor ve bu yolun, akademik laboratuvarlar tarafından tercih edilen 3D simülasyon yöntemlerinden daha ölçeklenebilir ve verimli bir somutlaşmış zeka (embodied intelligence) yaratma yolu sunduğunu ileri sürüyor.

Shengshu kurucusu ve Tsinghua Üniversitesi yapay zeka araştırmacısı Zhu Jun, 29 Mart'taki bir röportajda, "Video, gerçek dünyayı kaydetmek için en doğal veri formatıdır. İşin sırrı, modele fiziksel dünyanın işleyiş kurallarını bu verilerden etkili bir şekilde öğrenmeyi öğretmektir," dedi.

Zhu'nun stratejisi, daha fazla veri ve parametre ile etkili bir şekilde ölçeklendiği kanıtlanmış olan Difüzyon Transformatörü (DiT) mimarisine dayanıyor. Bu, Fei-Fei Li'nin World Labs ekibinin 3D rekonstrüksiyon yaklaşımı ve Yann LeCun'un ekibinden gelen soyut tahmin modelleri ile tezat oluşturarak teknik bir hesaplaşmanın zeminini hazırlıyor.

Bu mimari tartışmanın sonucu, yeni gelişmekte olan robotik ve somutlaşmış yapay zeka pazarının liderlerini belirleyebilir. Bu sektör, şirketlerin otomasyon geliştirmek için yarıştığı bir dönemde önemli yatırımlar çekiyor. Bu durum işgücü piyasalarını şimdiden etkiliyor; Hindistan'ın teknoloji sektörü, yapay zeka benimsenmesi nedeniyle 2026 başlarında aktif iş ilanlarında yıllık %24'lük bir düşüş bildirdi.

Videonun Ölçeklenebilirlik Bahsi

Zhu'nun argümanının özü iki sütuna dayanıyor: veri ve mimari ölçeklendirme. Bir modelin dünyayı gerçekten anlayabilmesi için devasa ve sürekli genişleyen bir veri kümesine erişmesi gerektiğini savunuyor. Videonun, gerçek dünyanın fiziğini ve nedenselliğini yakalamak için en bol ve evrensel format olduğunu ileri sürüyor.

Zhu, "Temel modellerin ilk prensiplerinden yola çıkarak düşünüyoruz. Ölçeklenebilen verilere ve ölçeklenebilen bir mimariye ihtiyacınız var," diye açıkladı.

Bu video merkezli yol, yüksek kaliteli 3D ortamlar veya simülasyonlar oluşturmaya odaklanan rakiplerden ayrılıyor. Bu yöntemler kontrol edilebilir eğitim alanları sunsa da Zhu, bunların makinenin nihai hedefi için verimsiz olduğuna inanıyor. Bir robotun bir bardağı nasıl alacağını anlaması için her pikseli mükemmel şekilde işlemesine gerek olmadığını; sadece kendi durumunu algılaması ve eylemin fiziğini tahmin etmesi gerektiğini savunuyor. Devasa miktarlarda gerçek dünya videosu üzerinde eğitim alarak, modeller bu dinamikleri işlemenin hesaplama yükü olmadan öğrenebilir.

Bu yaklaşım, Shengshu'nun ilk benimseyenler arasında olduğu ve ölçeklenebilirliğini doğruladığı DiT mimarisi tarafından destekleniyor. Daha fazla veri ve parametre eklendikçe modelin performansının artması bekleniyor; bu da gelecekteki robotlar için gerçek anlamda genel amaçlı bir "zeka merkezi" oluşturmak için kritik bir faktör.

Sanal Piksellerden Fiziksel Eyleme

Temel zorluklardan biri, pasif video gözlemini yürütülebilir eylemlere dönüştürmektir. Shengshu, "üretim" ve "eylem" arasındaki boşluğu kapatmak için tasarlanmış birleşik bir dünya modeli çerçevesi oluşturarak bu sorunu ele alıyor. Model sadece videoları izlemiyor; hareketin, etkileşimin ve sonuçların temel kalıplarını öğreniyor.

Zhu, bu birleşik yaklaşımdan umut verici ilk sonuçlar aldıklarını belirterek, modelin önemli veri ölçeklendirme etkileri ve 50'den fazla farklı görevde güçlü genelleme yetenekleri sergilediğini kaydetti. Bunlar, robotik bir kolla CAPTCHA çözmek gibi dijital görevlerden esnek nesneleri taşımak gibi karmaşık fiziksel manipülasyonlara kadar uzanıyor.

Zhu, görev sayısı arttıkça performansın düşmediğini, aksine arttığını söyleyerek bunu, daha fazla görevle performansı düşebilen geleneksel Görme-Dil-Eylem (VLA) modelleriyle kıyasladı. Bu, her görev için ayrı modeller eğitmek yerine tek bir birleşik modelin genel zekaya giden daha uygulanabilir bir yol olabileceğini gösteriyor.

Dizüstü bilgisayarlardan robotlara kadar bu modelleri besleyen yarı iletken endüstrisi, devasa enerji maliyetleriyle boğuşuyor. SEMICON China 2026 forumunda Foxconn ve BOE gibi endüstri liderleri, yapay zekanın kendisinin fabrika güç tüketimini %10-20 oranında azaltmak için nasıl kullanıldığını vurguladı; bu, her zamankinden daha büyük dünya modellerini eğitmek için gereken gelecekteki kapasite genişlemesini desteklemek için gerekli bir adım.

İleriye bakan Zhu iyimser; devasa veri kümelerinin, DiT gibi olgun mimarilerin ve yeterli bilgi işlem gücünün birleşmesinin önümüzdeki bir ila iki yıl içinde büyük atılımlara yol açacağını tahmin ediyor. Yapılandırılmamış ve dinamik doğasıyla ev ve ofis ortamlarını, başarılı bir dünya modeli için nihai test alanı ve en değerli ödül olarak görüyor. Yatırımcılar için anahtar, bu yeni sınır için üç kritik kaynağa sahip olan şirketleri belirlemek olacaktır: ölçeklenebilir veri, ölçeklenebilir model mimarisi ve bunları eğitmek için devasa bilgi işlem kaynakları.

Bu makale sadece bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.