Sakana Fugu, SWE-Bench Pro'da 73.7 puan alarak monolitik AI modellerine meydan okuyor

Sakana AI'nın yeni Fugu orkestrasyon framework'ü, tek bir monolitik mimariye güvenmek yerine alt görevleri uzmanlaşmış modeller havuzuna yönlendirerek SWE-Bench Pro'da 73.7 puan aldı ve Anthropic'in Claude Opus 4.8'inin 69.2 ve OpenAI'in GPT-5.5'inin 58.6 puanını geride bıraktı. Tokyo merkezli girişimin yaklaşımı, sektörün giderek daha büyük temel modelleri ölçeklendirme stratejisine meydan okuyor.

"Fugu, karmaşık görevlerin üstesinden gelmek için dünyanın en iyi modellerini dinamik olarak orkestre ediyor. İyi orkestre edilmiş, değiştirilebilir ajanlardan oluşan bir havuzun, kısıtlı öncü modellerle rekabet edebileceğini kanıtlıyoruz," dedi Sakana AI'nın CEO'su ve kurucu ortağı David Ha, X'te yaptığı bir paylaşımda. Daha önce Google Brain'de bulunan Ha, 2023 yılında "Attention Is All You Need" makalesinin ortak yazarlarından Llion Jones ile birlikte Sakana'yı kurdu.

Fugu, bağımsız bir model olmaktan ziyade bir ana koordinatör olarak çalışıyor. Karmaşık bir taleple karşılaştığında, sorunu alt görevlere ayırıyor, bunları uzman temel modeller havuzuna devrediyor, çalışmalarını doğruluyor ve nihai çıktıyı sentezliyor — tüm bunlar tek bir OpenAI uyumlu API uç noktası arkasında gerçekleşiyor. Sistem, Sakana'nın 2026 tarihli iki araştırma makalesi olan TRINITY ve Conductor'a dayanıyor ve bu makaleler, modele elle tasarlanmış iş akışları yerine öğrenilmiş koordinasyon stratejileri öğretiyor. İki varyant mevcut: günlük görevler için standart Fugu ve AI araştırması ile siber güvenlik analizi gibi yüksek riskli iş yükleri için Fugu Ultra.

Bu lansman, Anthropic'in ABD hükümetinin ihracat kontrolü emrinin ardından en güçlü modelleri Claude Mythos 5 ve Claude Fable 5'e kamu erişimini iptal etmesinden iki hafta sonra gerçekleşti. Bu hamle, işletmelerin ve ulusların uzun süredir korktuğu bir zafiyeti ortaya çıkardı: en üst düzey AI'ya erişim, jeopolitik kararlar nedeniyle bir gecede yok olabilir. Fugu'nun mimarisi, AI yığınına doğal yedeklilik inşa ediyor — eğer bir sağlayıcı kısıtlamalarla karşılaşırsa, sistem kesintinin etrafından dolaşıyor. Fugu'nun havuzundaki belirli modeller ve bunları nasıl koordine ettiği tescilli kalmaya devam ediyor, ancak geliştiriciler uyumluluk amacıyla belirli sağlayıcıları yönlendirme havuzundan çıkarabiliyor.

Fugu'nun kıyaslamaları öncü modellerle nasıl karşılaştırılıyor

Fugu Ultra, birkaç önemli kıyaslamada kısıtlı öncü modelleri yakaladı veya geçti. Düzenli olarak yenilenen yazılım problemlerinde kodlama performansını test eden LiveCodeBench'te Fugu Ultra 93.2 ve standart Fugu 92.9 puan alarak her ikisi de Anthropic'in Claude Fable 5'inin 89.8 puanını geçti. Biyoloji, fizik ve kimya alanlarında yüksek lisans düzeyinde çoktan seçmeli soruları test eden GPQA-Diamond'da, her iki Fugu varyantı da 95.5 puan alarak Claude Mythos Preview'un 94.6 puanını geride bıraktı.

Ancak Fugu tam bir zafer elde etmiş değil. SWE-Bench Pro'da Fugu Ultra'nın 73.7 puanı, ihracat kontrolü emri nedeniyle Fugu'nun değiştirilebilir havuzunda bulunmayan Fable 5'in 80.0 puanının gerisinde kaldı. Humanity's Last Exam'de Fugu Ultra 50.0 puan alırken Fable 5 53.3 puan aldı. Uzun bağlam hatırlamada (MRCRv2), OpenAI'in GPT-5.5'i 94.8 ile Fugu Ultra'nın 93.6'sının önünde yer aldı. Bu sonuçlar, tek bir sınırlı alan içinde salt güç kullanarak akıl yürütmede, en büyük bağımsız modellerin hâlâ bir avantaja sahip olduğunu gösteriyor — tabii işletmeler kesintisiz erişim sağlayabilirse.

Fiyatlandırma ve orkestrasyon ekonomisi

Fugu Ultra, milyon giriş token başına 5 dolar ve milyon çıkış token başına 30 dolar olarak fiyatlandırılıyor ve bu da onu piyasadaki daha pahalı seçenekler arasına yerleştiriyor — sırasıyla 5 dolar ve 30 dolar fiyatlandırmasıyla OpenAI'in GPT-5.5'i ile karşılaştırılabilir ve artık kısıtlı olan Anthropic'in Fable 5'inin 10 dolar ve 50 dolar fiyatının oldukça altında. Ancak önemli bir uyarı var: Fugu'nun alt görevleri devrederken ve ajanlar arasında yönlendirme yaparken tükettiği arka plan tokenleri sağlayıcı tarafından karşılanmıyor. Bunlar gerçek token kullanımını temsil ediyor ve standart oranlarla nihai fiyata dahil ediliyor.

Yaratıcı ajans sahibi Mark Santos tarafından yapılan gerçek dünya testi, ödünleşimleri gözler önüne serdi. Three.js kullanarak bir "Crossy Road" oyun klonu oluşturma görevi verilen Fugu Ultra, işi yaklaşık 89.000 token kullanarak 22 dakikada ve yaklaşık 7,32 dolara tamamladı, ancak nihai oyun küçük mantık hatalarından muzdaripti. Claude Opus 4.8 ise 79 dakika sürdü, yaklaşık 940.000 token ve neredeyse 37,85 dolar harcadı ve bir yeniden deneme döngüsünden çıkmak için insan müdahalesi gerektirdi — ancak sonuçta üstün bir uygulama tasarımı ortaya koydu.

Orkestrasyon ortamı ve yatırımcılar için anlamı

Fugu, Not Diamond, Martian veya açık kaynaklı RouteLLM framework'ü gibi standart yönlendirme platformlarından temelde farklı bir paradigmada çalışıyor. Bu sistemler tek seferlik bir yönlendirme kararı alıyor — gelen bir sorguyu analiz ediyor ve onu tek bir modele gönderiyor. Buna karşılık Fugu, Router-R1 gibi karmaşık çok turlu sistemlerle daha yakın bir uyum içinde çalışıyor; sorguları parçalara ayırıyor, akıl yürütmeyi delegasyonla iç içe geçiriyor ve çıktıyı sentezlemeden önce alt görevleri birden fazla modele paralel olarak atıyor.

Kaba kuvvet hesaplama olmadan öncü performansa ulaşan orkestrasyon modellerinin ortaya çıkışının etkileri tek bir şirketin ötesine geçiyor. Goldman Sachs'ın 1-Delta masası başkanı Rich Privorotsky, sunucu kiralama maliyetlerini AI donanım yatırım tezi için temel bir gösterge olarak tanımladı. Orkestrasyon, büyük GPU kümelerine olan ihtiyacı azaltırsa, hiper ölçekleyiciler ve GPU tedarikçileri için marjları baskılayabilir. Yarı iletken ETF'lerine geçen hafta anormal derecede yüksek giriş oldu ve bu da piyasanın sürekli hesaplama talebine yönelik konumlanmış olduğunu gösteriyor — Fugu gibi orkestrasyon modellerinin nihayetinde meydan okuyabileceği bir bahis.

2025'in sonlarında B Serisi turunda 2,6 milyar dolar değerlemeye ulaşan Sakana, aynı zamanda açık kaynak tarafından da rekabet baskısı görüyor. Zhipu AI'nın GLM-5.2'si, FrontierSWE kıyaslamasında 74.4 puan alarak Claude Opus 4.8'in 75.1 puanının bir puan içinde kalırken, fiyatlandırması Anthropic'in modelinin yüzde 72 ila 82 altında. Model, MIT lisansı kullanıyor ve ağırlık açıklığı, damıtma ve nicelemeyi destekliyor.

Fugu, çoğu bölgede hemen kullanıma sunulurken, Sakana'nın kara kutu veri yönlendirme mimarisini GDPR düzenlemeleriyle uyumlu hale getirmek için çalıştığı Avrupa Birliği ve Avrupa Ekonomik Alanı geçici olarak hariç tutuldu. Abonelik katmanları, standart kullanım için ayda 20 dolardan başlıyor ve kurumsal kullandıkça öde planları, üretim iş yükleri için daha yüksek öncelik sunuyor.

Yatırımcılar için asıl soru, orkestrasyonun geleneksel hesaplama harcamalarının tamamlayıcısı mı yoksa ikamesi mi olduğu. Fugu'nun yaklaşımı geniş çapta benimsenirse, en büyük GPU kümelerine olan talebi sıkıştırabilir — bu da Nvidia ve AMD için bir rüzgar etkisi yaratabilir. Ancak piyasa bunu mevcut altyapının üzerine ek bir katman olarak görürse, AI çıkarımı için toplam adreslenebilir pazarı genişletebilir. Bir sonraki sinyal, kurumsal benimseme oranlarından ve hiper ölçekleyicilerin fiyatlandırmalarını buna göre ayarlayıp ayarlamadığından gelecek.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.