Nvidia'nın yeni yapay zekası robotlar için kod yazıyor: 7 görevden 4'ünde insan uzmanları geride bıraktı

Nvidia, AI eğitimindeki hakimiyetini, robotların gerçek zamanlı olarak kendi kontrol yazılımlarını oluşturmalarına olanak tanıyan açık kaynaklı bir çerçeve olan CaP-X'in piyasaya sürülmesiyle robotik kontrol alanına taşıyor. Çerçevenin önde gelen ajanı CaP-Agent0, karmaşık görevlerde insan uzmanlar tarafından elle yazılan programlarla yarışan veya onları geride bırakan bir performans sergileyerek otonom sistemlerin öğrenme ve uyum sağlama biçiminde büyük bir değişimin sinyalini verdi.

UC Berkeley'de profesör olan Ken Goldberg, sürümle ilgili bir yorumunda, "Robotiğe yönelik 'Politika Olarak Kod' (Code as Policy - CaP) beklentileri konusunda çok heyecanlıyım!" dedi.

CaP-Bench çerçevesi kullanılarak yapılan kıyaslama testlerinde, önceden eğitim gerektirmeyen CaP-Agent0, yedi temel manipülasyon görevinin dördünde insan uzmanlar tarafından yazılan programlarla eşleşen veya onları aşan bir başarı oranı elde etti. Bu performans, yalnızca en temel atomik komutlar kullanılarak elde edildi; OpenAI'ın o1'i ve Google'ın Gemini 3 Pro'su gibi gelişmiş büyük modellerin bile çerçevenin yapılandırılmış yaklaşımı olmadan başarısız olduğu bir senaryoda bu başarı yakalandı. CaP-X modeli ayrıca, OpenVLA gibi uçtan uca modellerle karşılaştırıldığında uzun vadeli (long-horizon) görevlerde üstün sağlamlık sergiledi.

Bu gelişme, yapay zeka modellerinin kara kutu sinir ağı çıktıları yerine açık kod oluşturduğu "Politika Olarak Kod" yaklaşımını pekiştiriyor. Nvidia için bu, hendeğini (moat) sadece yapay zekayı eğiten GPU'ları satmaktan, yapay zeka destekli robotları çalıştıran temel yazılım çerçevelerini sağlamaya kadar genişletiyor. Bu hamle, büyüyen robotik ve otomasyon pazarında önemli bir değer yakalayabilir ve kapsamlı yapay zeka ekosistemleri kurmaya çalışan rakipler üzerindeki baskıyı artırabilir.

VLA Kara Kutusundan Politika Olarak Kod'a

CaP-X'in piyasaya sürülmesi, robot kontrolündeki iki baskın yaklaşımın temel sınırlamalarını ele alıyor. Geleneksel yöntemler, mühendislerin her hareket için titizlikle kod yazmasını gerektirir; bu süreç hassastır ancak kırılgandır ve yeni nesnelere veya ortamlara genelleme yapamaz. Daha yakın zamanlarda, büyük dil modellerinin başarısından esinlenen uçtan uca Görüş-Dil-Eylem (VLA) modelleri etkileyici yetenekler gösterdi. Ancak bu VLA modelleri "kara kutu" olarak çalışır, bu da hata ayıklamayı zorlaştırır ve genellikle yeni görevlere uyum sağlamak için devasa yeni veri kümeleri gerektirir.

Google tarafından ilk kez 2022'de önerilen "Politika Olarak Kod" (CaP) paradigması, üçüncü bir yol sunuyor. Büyük bir modelin soyut bir eylem çıktısı vermesi yerine, robotun kontrol API'lerini doğrudan çağıran okunabilir Python kodu oluşturuyor. Nvidia'nın CaP-X'i bu fikrin önemli bir evrimidir. Bir programlama ajanının sadece kod yazmasına değil, aynı zamanda ortamdan geri bildirim almasına, kendi hatalarını ayıklamasına ve başarılı rutinleri yeniden kullanılabilir bir beceri kütüphanesine kaydetmesine olanak tanıyan eksiksiz bir "donanım" (harness) oluşturur. Bu çerçevede, güçlü bir VLA modeli bile, uzmanlaştığı belirli bir karmaşık manipülasyon görevini yerine getirmek için tek bir kod satırıyla çağrılan başka bir araç olarak değerlendirilebilir.

CaP-X Çerçevesi: Daha Yakından Bir Bakış

CaP-X tek bir model değil, birlikte çalışmak üzere tasarlanmış bir araç paketidir. Çekirdeği, yapay zeka "beynini" simüle edilmiş veya fiziksel bir robota bağlayan ve oluşturulan her kod satırı için gerçek zamanlı geri bildirim sağlayan etkileşimli bir ortam olan CaP-Gym'dir. Ham görüntüleri "elma" veya "fincan" gibi anlamsal kavramlara dönüştüren yerleşik algılama araçlarını içerir. Kontrol tarafında ise, düşük seviyeli eklem hareketlerini soyutlayarak yapay zekanın daha sezgisel bir Kartezyen uzayda programlama yapmasına olanak tanır.

İlerlemeyi ölçmek için ekip, yapay zekanın robotlar için işlevsel kod yazma, hatalardan kurtulma ve görsel geri bildirimi dahil etme yeteneğini özel olarak test eden bir kıyaslama olan CaP-Bench'i geliştirdi. Çerçevenin amiral gemisi ajanı CaP-Agent0, üstünlüğünü bu kıyaslamada gösterdi. Ajan, çok turlu bir akıl yürütme döngüsü kullanır ve işe yarayan birini bulmak için paralel olarak birden fazla potansiyel kod çözümü üretebilir. Bir çözüm başarılı olduğunda, otomatik olarak kalıcı bir beceri kütüphanesine eklenir ve ajanın zaman içinde öğrenmesini ve gelişmesini sağlar. Araştırma ayrıca, programlama modelinin kendisini ince ayar yapmak için pekiştirmeli öğrenmeyi kullanan ve çevresel geri bildirimlere dayanarak kodlama sezgisini geliştiren CaP-RL'yi de tanıtıyor.

CaP-X mantık ve planlamada olağanüstü bir güç gösterse de araştırmacılar, su dökme gibi yüksek frekanslı görsel geri bildirim gerektiren görevlerde daha az etkili olabileceğini belirtiyorlar. Gelecek için en umut verici yön, kod üreten bir yapay zekanın üst düzey strateji ve hata kurtarma işlemlerini yürüttüğü, ince motor görevlerini ise özel bir VLA modeline devrettiği hibrit bir yaklaşımdır.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.