Anthropic'in Claude Code Düşünce Derinliği %67 Düştü

Bir AMD AI direktöründen gelen sarsıcı bir rapor, Anthropic'in Claude Code AI'sının Şubat ayından bu yana performansının sistematik olarak gerilediğini, "düşünce derinliğinin" %67 oranında düştüğünü ve bir ekip için API maliyetlerinde 122 katlık bir patlamaya neden olduğunu iddia ediyor. GitHub'da halka açık olarak paylaşılan analiz, geliştirici topluluğunda büyük bir tartışma başlattı; AI kodlama asistanının güvenilirliğini sorgulatırken rakip OpenAI'ın Codex'i üzerindeki baskıyı artırdı.

AMD'nin AI ekibindeki liderlerden biri olan Stella Laurenzo, GitHub sorun raporunda, "Claude'a artık karmaşık mühendislik görevlerini yerine getirmesi konusunda güvenilemez," dedi. Ekibinin diğer servis sağlayıcılara geçtiği konusunda uyardı ve "diğer rakiplerin artık çok ciddiye alınması ve değerlendirilmesi gerektiğini" belirtti.

Laurenzo'nun analizi, performanstaki keskin düşüşü ortaya koyan 6.852 oturum günlüğüne dayanıyor. Modelin muhakeme sürecinin bir ölçüsü olan medyan düşünce derinliği, Şubat ayı başındaki yaklaşık 2.200 karakterden ay sonunda sadece 720 karaktere düştü. Muhakemedeki bu çöküşe, kod yazmadan önceki araştırma çabasında %70'lik bir azalma eşlik etti ve modelin "okuma-değiştirme" oranı 6,6'dan 2,0'a geriledi. Bu durum hatalarda bir artışa yol açtı; model her üç düzenlemeden birinde ilgili dosyaları okumadan kodu değiştirmeye çalıştı.

Performans düşüşünün felaket düzeyinde maliyet yansımaları oldu. Laurenzo'nun ekibi, Bedrock Opus fiyatlandırmasına dayalı tahmini aylık API faturalarının 345 dolardan 42.121 dolara fırladığını (122 kat artış) ve bu süreçte daha kötü sonuçlar aldıklarını gördü. Ekip, tüm ajan kümelerini kapatmak zorunda kaldı. Rapor, bu gerilemenin Anthropic'in "uyarlanabilir düşünce" özelliğini tanıtması ve varsayılan "çaba" ayarını yüksekten orta seviyeye değiştirmesiyle eş zamanlı olduğunu öne sürüyor.

Anthropic Yanıt Verdi, Topluluk Şüpheci

Claude Code ekibinin Boris olarak tanımlanan bir üyesi, değişikliklerin modelin temel mantığını bozma amacı taşımadığını belirterek yanıt verdi. Modelin düşünme sürecini gizleme özelliğinin bir kullanıcı arayüzü değişikliği olduğunu ve kullanıcıların manuel olarak daha yüksek "çaba" ayarına dönebileceğini açıkladı. Ancak topluluktaki birçok geliştirici ikna olmuş değil; en yüksek çaba ayarında bile modelin performansının standartların altında kaldığını belirtiyorlar. Hacker News'te bir kullanıcı, "Sorun, varsayılan düşünme seviyesinin ortaya çekilmesinden çok daha fazlası," yorumunu yaptı.

Geliştiriciler Alternatif Arıyor

Olay, birçok geliştiricinin platformu terk etmesine neden oldu; bazıları OpenAI'ın Codex'i veya Qwen3.5-27b gibi açık kaynaklı modellere geçtiklerini açıkça belirtti. Geçici bir çözüm olarak bazı kullanıcılar, modele dosyaları düzenlemesi için açıkça yetki veriyor ve karmaşık görevleri daha küçük, yönetilebilir parçalara bölüyor. Laurenzo'nun raporu, Anthropic'ten API yanıtında thinking_tokens değerinin gösterilmesi de dahil olmak üzere daha fazla şeffaflık talep ediyor, böylece kullanıcılar modelin muhakeme derinliğini kendileri izleyebilir.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.