Anthropic'in Mythos AI'sı 16 saatlik görev sınırına ulaştı, siber güvenlikte silahlanma yarışını körükledi

Yeni bir yapay zeka kıyaslaması, modellerin artık 16 saat süren görevleri yerine getirebildiğini ve otonom çalışma ile siber güvenlik uygulamaları için kritik bir eşiğin aşıldığını gösteriyor.

Anthropic'in öncü bir yapay zeka modeli, 16 saate kadar süren karmaşık yazılım mühendisliği görevlerini otonom olarak tamamlama yeteneğini gösterdi; bu yeni yetenek eşiği, yapay zeka destekli siber güvenlik ortamını yeniden şekillendiriyor. Yapay zeka değerlendirme grubu METR'den gelen sonuçlar, model yeteneklerinde süper-üstel bir büyüme olduğunu gösteriyor; Palo Alto Networks Inc. gibi siber güvenlik sağlayıcılarının bildirdiğine göre bu eğilim hem saldırı hem de savunma operasyonları üzerinde şimdiden dramatik bir etki yaratıyor.

Palo Alto Networks, teknolojinin etkisi üzerine hazırladığı yakın tarihli bir raporda, "Güvenlik açığı analizine yardımcı olması için [öncü yapay zeka] kullanarak, sadece 3 haftada tamamlanan işin derinliği ve genişliği, üst düzey bir sızma testi ekibinin bir tam yıllık iş yüküne eşdeğerdir" diye yazdı.

Yeni kıyaslama, Anthropic'in Claude Mythos modelinin 16 saatlik insan çalışması gerektiren görevlerde %50 başarı oranına ulaşabildiğini gösteriyor. Yetenekteki bu sıçrama, yazılım dünyasında risk ve üretkenliğin hızla yeniden hesaplanmasına neden oluyor. Modele erken erişim hakkı verilen Palo Alto Networks, modelin birden fazla düşük riskli güvenlik açığını bulup bunları ölümcül bir saldırı zinciri haline getirme sürecini sadece 25 dakikaya indirebildiğini keşfetti.

Bu gelişme, siber güvenlik firmaları arasındaki yapay zeka silahlanma yarışını hızlandırarak Palo Alto Networks (PANW), Fortinet (FTNT) ve Zscaler Inc. gibi yerleşik oyuncular üzerinde baskı oluşturuyor. Ayrıca Anthropic ve rakibi OpenAI gibi yapay zeka geliştiricileri arasındaki platform rekabetini de yoğunlaştırıyor. Yatırımcılar için kilit soru, bu yeni yapay zeka otonomisi seviyesinin nasıl güvenilir kurumsal ürünlere ve savunulabilir gelir akışlarına dönüşeceğidir.

Yapay Zeka Otonomisinde Yeni Bir Eşik

METR "zaman ufku" grafiği, öncü modellerin tamamlayabileceği yazılım geliştirme görevlerinin süresini ölçer. Son sonuçlar, Mythos'un 16 saatlik görevleri vakaların yarısında başarıyla yürüttüğünü gösteriyor; bu, modellerin önceki yıllarda başarabildiği dakikalık veya tek saatlik görevlerden önemli bir sıçrama anlamına geliyor. Değerlendirici, 16 saatten fazla sürmesi planlanan görev sayısının sınırlı olması nedeniyle modelleri test etme yeteneğinin zorlandığını ve bunun da modelin yeteneğinin gerçek üst sınırını ölçmeyi zorlaştırdığını belirtti.

Bu hızlı ve ivmelenen ilerleme "süper-üstel" büyüme olarak adlandırılıyor; yapay zeka yeteneğindeki her nesil sıçraması bir öncekinden daha büyük görünüyor. Trend çizgisi, 2027 için öngörülen yeteneklerin şimdiden karşılandığını gösteriyor ve bu da hem üretkenlik kazanımları konusundaki heyecanı hem de giderek daha güçlü ve otonom hale gelen yapay zeka ajanlarının güvenlik etkileri konusundaki endişeleri körüklüyor.

Laboratuvardan Gerçek Hayata: Siber Güvenliğin 'Atomik Anı'

Palo Alto Networks'ün araştırmasından elde edilen bulgular, METR kıyaslamasının sonuçlarına dair çarpıcı ve gerçek dünya örneği sunuyor. Üst düzey bir insan ekibinin bir yıllık işini üç haftada otomatikleştirme yeteneği, siber saldırı ve savunma arasındaki dengede temel bir değişimi temsil ediyor.

Bu yetenek tek bir şirketle sınırlı değil. Rakipler de gelişmiş yapay zekayı entegre ediyor. Yakın zamanda Siber Tehdit İstihbaratı dalında 2026 Gartner Magic Quadrant lideri seçilen CrowdStrike Holdings (CRWD), risk yönetimine öncü yapay zekayı uygulamak için Project QuiltWorks koalisyonunu genişletiyor. SentinelOne (S), istismar edilebilir saldırı yollarını belirlemek ve önceliklendirmek için yapay zekayı kullanan Wayfinder hizmetini başlattı; Okta Inc. (OKTA) ise yapay zeka ajanlarının kimliklerini yönetmek için yeni çerçeveler geliştiriyor.

Gerçeklik Kontrolü: %50 Başarı Yeterli mi?

16 saatlik rakam etkileyici olsa da eleştirmenler kıyaslamadan aşırı çıkarımlar yapılmaması konusunda uyarıyor. Buradaki kilit sınırlayıcı %50 başarı oranıdır. Bir insan uzmanın başarısız denemeleri inceleyip eleyebildiği araştırma ve geliştirme süreci için 16 saatlik bir görevde %50 başarı oranı devrim niteliğindedir. Bu, bir insan mühendisin çıktısını etkili bir şekilde ikiye katlar.

Ancak, üretim ortamına konuşlandırılmış tam otonom bir sistem için %50 başarısızlık oranı kabul edilemez. Yapay zeka araştırmacısı Gary Marcus yakın tarihli bir analizinde, "Otonom ticari kullanım için güvenilirlik eşiği %95 ile %99,9 arasındadır" dedi. Marcus, METR grafiğinin yalnızca %50 başarı çizgisine odaklanarak yapay zekanın kurumsal düzeyde güvenilirlik açığını ne kadar hızlı kapattığını göstermediğini savunuyor. %50'den %99 başarıya giden boşluğun ne kadar sürede kapatılacağına dair tartışma, yapay genel zeka (AGI) ve gerçek dünyadaki etkisi hakkındaki tartışmaların merkezinde yer alıyor.

Bu makale sadece bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.