- 마이크로소프트는 전사, 음성 및 이미지 생성을 위한 3가지 자체 AI 모델을 출시했습니다.
- 이번 행보는 파트너사인 OpenAI에 대한 장기적인 의존도를 줄이려는 전략을 보여줍니다.
- 테스트 결과 모델 속도는 빠르지만 경쟁사 대비 복잡한 작업에서는 어려움을 겪는 것으로 나타났습니다.
뒤로

마이크로소프트의 최신 자체 AI 모델은 명확한 전략적 변화를 보여주지만, 실제 테스트 결과 기존 업체들과의 지속적인 성능 격차가 드러났습니다.
마이크로소프트는 세 가지 독자적인 인공지능 모델을 출시했습니다. 이는 업계 관측통들 사이에서 파트너사인 OpenAI에 대한 의존도를 낮추기 위한 중요한 진전으로 평가받고 있습니다. 음성 전사, 음성 생성 및 이미지 생성을 담당하는 새로운 모델인 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2는 현재 Microsoft Foundry 플랫폼을 통해 상업적으로 이용 가능합니다.
한 언론 보고서는 "이번 행보는 자체 AI 기술 스택을 구축하려는 마이크로소프트의 노력을 보여준다"고 논평하며, 회사가 AI 역량을 다각화하고 있다는 견해를 반영했습니다. Foundry 플랫폼은 이제 OpenAI와 Anthropic의 모델과 함께 마이크로소프트의 MAI 시리즈를 제공하여 고객이 단일 API를 통해 여러 공급업체에 액세스할 수 있도록 합니다.
회사의 공식 벤치마크에 따르면 성능 향상이 상당합니다. MAI-Transcribe-1은 기존 Azure Fast 제품보다 2.5배 빠르며, MAI-Voice-1은 단 1초 만에 60초 분량의 오디오를 생성할 수 있고, MAI-Image-2는 이미지 생성 속도가 최소 2배 향상되었습니다. 가격은 전사의 경우 시간당 0.36달러, 음성 생성의 경우 100만 자당 22달러, 이미지 텍스트 프롬프트의 경우 100만 토큰당 5달러부터 시작합니다.
투자자들에게 이번 출시는 중요한 질문을 던집니다. 마이크로소프트의 내부 개발이 OpenAI와 같은 파트너 및 구글과 같은 경쟁사의 선도적인 모델과의 성능 격차를 줄일 수 있을까 하는 점입니다. 마이크로소프트의 OpenAI 계약은 2032년까지 연장되지만, 자체 전략의 경제적 타당성은 경쟁력 있는 성능 달성에 달려 있으며, 이는 상당한 R&D 투자의 장기적 수익을 결정할 요소가 될 것입니다.
테스트에서 MAI-Transcribe-1 모델은 엇갈린 결과를 보였습니다. 영화 무간도의 한 장면을 정상 속도에서는 정확하게 전사했지만, 오디오를 2배속으로 재생했을 때는 실패했습니다. 이 모델은 '경찰학교(警校)'와 '잠입 요원(卧底)'에 관한 대사를 '케임브리지(剑桥)'와 '회계사(会计)'에 관한 것으로 오해하여 문맥을 완전히 바꾸어 버렸습니다.
모델의 안정성은 영화 콜드 워의 더 격렬하고 빠른 논쟁 장면에서 더욱 도전받았으며, 여기서는 아예 출력을 생성하지 못했습니다. 이러한 테스트는 모델이 표준 음성에는 유능하지만 고속이나 강한 감정이 섞인 복잡한 오디오에서는 성능이 저하되어 OpenAI의 Whisper와 같은 시장 선두주자와의 격차를 드러낸다는 것을 보여줍니다.
다른 모델들은 강점과 약점을 동시에 보여주었습니다. MAI-Voice-1은 연극적인 호흡이 섞인 셰익스피어식 영국 영어 억양과 밝고 현대적인 미국식 억양을 포함하여 인상적으로 뚜렷한 오디오 스타일을 만들어냈습니다. 모델의 출력에는 침 소리와 같은 미세한 디테일이 포함되어 높은 수준의 현실감을 더했습니다.
구글과 OpenAI의 모델에 이어 Arena.ai 사용자 리더보드에서 3위를 차지한 MAI-Image-2는 상세한 프롬프트로부터 고품질의 자연 경관 렌더링을 생성했습니다. 그러나 여러 피사체와 장면이 포함된 복잡한 지침이 주어졌을 때는 이미지를 생성하지 못해 복잡한 사용자 요청 처리에서의 한계를 나타냈습니다. 광고 거인 WPP가 이 모델의 첫 번째 주요 기업 사용자 중 하나로 언급되었습니다.
이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.