Opus 4.6, 2026 Performans Hedefine 10 Ay Erken Ulaştı
Önde gelen bir yapay zeka tahmincisi olan ve değerlendirme kuruluşu METR'den Ajeya Cotra, yapay zeka ilerlemesinin kendi en son tahminlerini bile aştığını kamuya açıkça kabul etti. 14 Ocak tarihli tahmininde Cotra, en gelişmiş yapay zeka modellerinin 2026 yılı sonuna kadar 24 saatlik bir "zaman aralığı" gerektiren yazılım mühendisliği görevlerinde %50 başarı oranına ulaşacağını öngörmüştü. Sadece iki ay sonra, Anthropic'in yeni Claude Opus 4.6 modeli yaklaşık 12 saatlik bir zaman aralığı ile değerlendirildi ve bu dönüm noktasına planlanandan yaklaşık on ay önce ulaştı.
METR test setinden alınan performans verileri, Opus 4.6'nın bir insan için sekiz saatten fazla sürmesi beklenen 19 yazılım mühendisliği görevinden 14'ünü en azından kısmen tamamlayabildiğini ortaya koydu. Cotra, yıl içinde hala on aylık daha fazla geliştirme süresi kaldığı göz önüne alındığında, yapay zekanın 24 saatlik görevlerde zamanın yarısında başarısız olacağına dair önceki tahmininin "artık güvenilir olmadığını" belirtti.
Araştırmacı, 2024'te Tam Yapay Zeka Otomasyonuna %10 Olasılık Veriyor
Modelin performansı Cotra'yı, yapay zekanın tüm araştırma ve geliştirme sürecinde tam otomasyonu başarabilme olasılığını yeniden değerlendirmeye zorladı. Bir yapay zeka sisteminin bu yıl sonuna kadar hiçbir insan müdahalesi olmaksızın araştırma fikirlerini ve uygulamalarını tamamen ele alabileceği ihtimalini %10 olarak korudu. Bu değerlendirme, meslektaşlarının başlangıçta %10'luk tahminini ilk önerdiğinde çok yüksek bulmuş olsalar bile geçerliliğini sürdürüyor.
Cotra'nın temkinli tonunun kökten değişmesi nedeniyle bu bakış açısındaki değişiklik önemlidir. Yapay zekanın hala insan düzeyinde "araştırma yargısı" ve "yaratıcılıktan" yoksun olduğunu belirtirken, hızlanan ilerlemenin neden olduğu yeni bir belirsizliği de dile getirdi. "Bu benim ilk kez," dedi, "yakında olmayacağını söyleyebileceğim istikrarlı bir eğilim bulamıyorum."
Yetenek Kazanımları Geleneksel Değerlendirme Ölçütlerinin Ötesine Geçiyor
Yapay zeka modellerinin hızlanan gücü, onları ölçmek için kullanılan çerçeveleri de zorluyor. Cotra, yapay zeka ajanlarının 80 saati aşan görevleri yerine getirebilmesiyle "zaman aralığı" kavramının daha az ilgili hale geldiğini belirtiyor. Bu tür büyük ölçekli projeler, doğal olarak daha küçük, paralel alt görevlere ayrılabilir ve bunlar bir "yönetici" yapay zeka tarafından yönetilebilir ve diğer yapay zeka ajanları tarafından yürütülebilir.
Bu gerçek, tek kişi saatleri yerine büyük bir ekibin bir projeyi tamamlaması için gereken takvim süresini ölçmek gibi yeni kıyaslama tartışmalarını tetikledi. Bu yapay zeka güdümlü proje yönetimi yöntemi, insan ekiplerinin sezgisel anlayışını tam olarak kopyalamayabilse de, Cotra bunun geniş bir yazılım projesi kategorisi için "şaşırtıcı derecede etkili" olabileceğine inanıyor ve bu da bu yıl yapay zeka mühendisliği yeteneğinin üst sınırlarını tahmin etmeyi son derece zorlaştırıyor.