Microsoft'un en yeni şirket içi yapay zeka modelleri net bir stratejik değişim gösteriyor, ancak gerçek dünya testleri yerleşik oyuncularla aradaki kalıcı performans farkını ortaya koyuyor.
Microsoft, endüstri gözlemcileri tarafından ortağı OpenAI'ya olan bağımlılığını azaltma yolunda önemli bir adım olarak görülen üç tescilli yapay zeka modelini piyasaya sürdü. Yeni modeller — MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2 — konuşma transkripsiyonu, ses oluşturma ve görüntü oluşturmayı kapsıyor ve şu anda Microsoft Foundry platformu üzerinden ticari olarak sunuluyor.
Bir medya raporunda, şirketin yapay zeka yeteneklerini çeşitlendirdiğine dair bir görüşü yansıtacak şekilde, "Bu hamle, Microsoft'un kendi yapay zeka teknoloji yığınını oluşturma çabasını simgeliyor" yorumu yapıldı. Foundry platformu artık OpenAI ve Anthropic'in modellerinin yanı sıra Microsoft'un MAI serisini de sunarak müşterilerin tek bir API üzerinden birden fazla sağlayıcıya erişmesine olanak tanıyor.
Şirketin resmi kriterleri önemli performans kazanımları olduğunu iddia ediyor. MAI-Transcribe-1'in mevcut Azure Fast ürününden 2,5 kat daha hızlı olduğu, MAI-Voice-1'in sadece bir saniyede 60 saniyelik ses üretebildiği ve MAI-Image-2'nin görüntü oluşturma hızında en az iki kat iyileşme sunduğu bildiriliyor. Fiyatlandırma, transkripsiyon için saat başına 0,36 dolar, ses oluşturma için milyon karakter başına 22 dolar ve görüntü metni istemleri için milyon token başına 5 dolardan başlayacak şekilde belirlendi.
Yatırımcılar için bu lansman kritik bir soruyu gündeme getiriyor: Microsoft'un dahili geliştirmesi, OpenAI gibi ortaklardan ve Google gibi rakiplerden gelen lider modellerle aradaki performans farkını kapatabilir mi? Microsoft'un OpenAI sözleşmesi 2032'ye kadar uzansa da, şirket içi stratejisinin ekonomik uygulanabilirliği, rekabetçi performansın elde edilmesine bağlıdır; bu faktör, önemli Ar-Ge yatırımının uzun vadeli getirilerini belirleyecektir.
MAI-Transcribe-1 Yüksek Hızlı Ses Testlerinde Bocalıyor
Testlerde, MAI-Transcribe-1 modeli karışık sonuçlar gösterdi. Infernal Affairs filminden bir sahneyi normal hızda doğru bir şekilde transkribe ederken, ses iki kat hızda oynatıldığında başarısız oldu. Model, "polis akademisi" (警校) ve "gizli ajanlar" (卧底) hakkındaki bir repliği "Cambridge" (剑桥) ve "muhasebeciler" (会计) olarak yanlış yorumlayarak bağlamı tamamen değiştirdi.
Modelin kararlılığı, Cold War filminden daha yoğun ve hızlı tempolu bir tartışma ile daha da zorlandı ve burada herhangi bir çıktı üretemedi. Bu testler, modelin standart konuşma için yetkin olmasına rağmen, yüksek hız veya güçlü duygu içeren karmaşık seslerde performansının düştüğünü ve OpenAI'nın Whisper'ı gibi pazar liderlerine kıyasla bir boşluk olduğunu gösteriyor.
Ses ve Görüntü Modelleri Sınırlamalarla Birlikte Gelecek Vaat Ediyor
Diğer modeller hem güçlü hem de zayıf yönlerini gösterdi. MAI-Voice-1; teatral tempoda bir Shakespeare İngilizcesi aksanı ve parlak, modern bir Amerikan aksanı dahil olmak üzere etkileyici derecede farklı ses stilleri üretti. Modelin çıktısı, yüksek derecede gerçekçilik katan tükürük sesi gibi ince detayları içeriyordu.
Google ve OpenAI modellerinin ardından Arena.ai kullanıcı sıralamasında üçüncü sırada yer alan MAI-Image-2, ayrıntılı istemlerden yüksek kaliteli doğal manzara görüntüleri üretti. Ancak, birden fazla özne ve sahne içeren karmaşık talimatlar verildiğinde görüntü oluşturamadı; bu da karmaşık kullanıcı isteklerini işlemede bir sınırlamaya işaret ediyor. Reklam devi WPP, modelin ilk büyük kurumsal kullanıcılarından biri olarak kaydedildi.
Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.