Kurumsal yapay zeka iş yüklerinin yüzde doksan beşi, metin özetleme ve e-posta sınıflandırma gibi basit görevler için bile hâlâ premium öncü modellerde çalışıyor; CFO'lar, kurumsal teknoloji bütçelerini yeniden şekillendiren yapısal bir değişimde, gelecekteki çalışan sayısını daha ucuz token'lar ile takas etmeye başlıyor.
"Token başına maliyet sorusu mühendislik ekibinden yönetim kuruluna taşındı," dedi Edgen'de kurumsal yapay zeka analisti Alex Nguyen. "CFO'lar, üç kıdemsiz analisti daha ucuz bir modelde çalışan tek bir yapay zeka ajanıyla değiştirebileceklerini fark ediyor ve bu matematik, hacmin 10 katında bile işe yarıyor."
Aritmetik oldukça çarpıcı. SWE-bench Verified kodlama benchmark'ında %80,6 ve gelişmiş MMLU-Pro akıl yürütme endeksinde 87,5 puan alan DeepSeek'in V4 Pro modeli, milyon giriş token'ı başına 0,435 dolar ve milyon çıkış token'ı başına 0,87 dolara mal oluyor — bu, Anthropic'in Claude Sonnet veya OpenAI'in GPT-5.5-Med'ine kıyasla girişlerde 7 kat, çıkışlarda ise 17 kat daha ucuz. Hafif versiyonu V4 Flash, Claude Haiku gibi giriş seviyesi alternatiflerden 10 ila 25 kat daha düşük maliyetli. Çin'de yerel olarak barındırıldığında, DeepSeek'in önbellek okuma fiyatlandırması, şirketin yayınladığı fiyat listesine göre Batılı bulut alternatiflerinden 87 kat daha ucuz.
Maliyet farkı bir hesaplaşmayı zorunlu kılıyor. Uber, Claude Code ve Cursor için 2026 bütçesinin tamamını yılın ilk dört ayında tüketti; şirketin operasyon direktörü personele, daha iyi ürünler gösterilmeden bu harcamanın "gerekçelendirilmesinin zorlaştığını" söyledi. Airbnb'nin Brian Chesky, şirketin üretimde OpenAI'in en yeni modellerine ağırlıklı olarak güvenmekten kaçındığını, Alibaba'nın Qwen'i gibi daha hızlı ve daha ucuz alternatifleri tercih ettiğini belirtti. Pinterest'in teknoloji sorumlusu, şirketin Alibaba'nın açık kaynak Qwen modelini kendi tescilli "tat grafiği" ile eğiterek maliyetlerde %90 azalma sağlayarak öncü model kalitesine ulaştığını doğruladı.
Token maliyeti krizi, kurumsal yapay zeka pazarında kalıcı bir ayrışmayı hızlandırıyor. VentureBeat'in 100'den fazla çalışanı olan kuruluşlardaki kurumsal kullanıcılarla yaptığı 2026 ilk çeyrek anketi, "token başına maliyet veya lisanslama modeli"nin birincil seçim kriteri olarak Ocak ve Mart ayları arasında %25,4'ten %36,7'ye sıçradığını ve yalnızca ham performansın gerisinde kaldığını ortaya koydu. Andreessen Horowitz tarafından yapılan bir altyapı analizine göre, kurumsal üretim ortamları artık iş yüklerini fiyata göre yönlendirmek ve tek satıcıya bağımlılığı önlemek için aynı anda medyan 14 farklı model dağıtıyor.
Önde gelen bir geliştirici model kullanım arayüzü olan OpenRouter'da, DeepSeek'in V4 Flash'ı geçtiğimiz hafta token tüketiminde %48'lik bir artışla bir numaralı konumu ele geçirdi. DeepSeek'in ilk üç modeli platformda yaklaşık 6 trilyon token işlerken, OpenAI'in premium GPT-5.5'i 470 milyar token ile 15. sıraya geriledi. OpenRouter yakın zamanda ServiceNow Ventures, Snowflake Ventures, Databricks Ventures, Nvidia'nın NVentures ve Google'ın CapitalG'sinin desteğiyle 113 milyon dolarlık bir Seri B turu kapatarak, kurumsal altyapı satıcılarının varsayılan mimari olarak çoklu model yönlendirmeye bahis yaptığının sinyalini verdi.
Yapısal marj sıkışması tüm Batı laboratuvarlarını eşit şekilde etkilemeyecek. Anthropic, mühendislik ekiplerinin temel üretim geliştirmede deterministik doğruluk için ödeme yaptığı Claude Code gibi premium yazılım ürünleriyle korunmaya devam ediyor. OpenAI daha büyük bir maruziyetle karşı karşıya: kurumsal gelirinin daha büyük bir kısmı, açık ağırlıklı modellerin metalaştırdığı yüksek hacimli, genel amaçlı API token akışlarına dayanıyor. DeepSeek'in 1,6 trilyon parametreli modelinin anahtar-değer önbelleğini 1 milyon token'lık bir bağlam döngüsü için 5,48 gigabayt yüksek bant genişlikli belleğe sıkıştıran — karşılaştırılabilir Batı mimarileri için 89 gigabayta kıyasla — mimarisi, maliyet avantajını tanıtımsal olmaktan ziyade yapısal hale getiriyor.
Kurumsal teknoloji alıcıları için hesaplama, "hangi model en iyisi" sorusundan "bu belirli görev için bu fiyat noktasında hangi model en iyisi" sorusuna kayıyor. Çıkarım yönlendirmelerini optimize edemeyen şirketler, çok adımlı otonom ajanların devreye alınmasıyla yapay zeka token tüketimi katlanarak büyüdükçe marj sıkışması riskiyle karşı karşıya kalıyor. Kademeli model mimarilerini benimseyenler — misyon kritik akıl yürütme için premium öncü modelleri ayırırken, yüksek hacimli arka plan görevlerini daha ucuz açık ağırlıklı alternatiflere yönlendirerek — CFO'ların artık talep ettiği tasarrufları elde etmeye hazırlanıyor.
Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.