Qwen 3.5 Omni, 경쟁사보다 비디오를 800% 더 빠르게 처리
알리바바는 2026년 3월 30일 Qwen 3.5 Omni 모델을 출시했으며, 이는 6주 만에 두 번째 주요 AI 출시입니다. 이 모델의 핵심 혁신은 텍스트, 이미지, 오디오 및 비디오를 단일 패스 내에서 동시에 처리할 수 있는 네이티브 "옴니모달(omnimodal)" 아키텍처입니다. 1억 시간 이상의 오디오-비디오 데이터로 훈련된 Qwen은 경쟁사들이 사용하는 느린 다단계 워크플로우를 피합니다. 시연에서 Qwen 3.5 Omni는 약 1분 만에 유튜브 비디오 클립을 분석했습니다. 반면, ChatGPT 5.4와 같은 비옴니모달 시스템은 비전, 오디오 전사 및 텍스트 인식용 별도 도구를 결합하여 동일한 작업을 완료하는 데 9분이 걸렸습니다.
새로운 모델, 20개 언어에서 ElevenLabs를 능가
Qwen 3.5 Omni는 특정 시장 부문을 목표로 하는 여러 가지 새로운 기능을 도입합니다. 음성 복제 기능은 모델이 샘플에서 사용자의 목소리를 채택할 수 있도록 하여 ElevenLabs와 같은 전문 플랫폼과 직접 경쟁하게 합니다. 다국어 음성 안정성 벤치마크에서 Qwen 3.5 Omni-Plus는 20개 다른 언어에서 ElevenLabs 및 GPT-Audio보다 뛰어난 성능을 보였습니다. 이 모델의 음성 인식 기능 또한 이전 버전의 19개에서 113개 언어 및 방언으로 대폭 확장되었습니다. 또한 실시간 웹 검색과 작업 화면 녹화를 관찰하는 것만으로 기능 코드를 작성할 수 있는 새로운 "오디오-비주얼 바이브 코딩" 기능을 통합합니다.
알리바바, 경쟁사들이 정책에 집중하는 동안 제품 출시 가속화
알리바바의 공격적인 출시 일정은 글로벌 AI 시장에서 전략적 차이를 강조합니다. OpenAI 및 Anthropic과 같은 경쟁사들이 "모델 사양(Model Spec)" 및 "클로드 헌법(Claude Constitution)"과 같은 윤리적 프레임워크 및 거버넌스 문서 개발에 공개적으로 집중하는 동안, 알리바바는 신속하고 제품 중심적인 전략을 실행하고 있습니다. 두 달도 채 안 되는 기간에 두 개의 최첨단 모델을 출시함으로써, 이 회사는 시장 점유율을 확보하기 위해 구체적인 기능과 성능 향상 배포를 우선시하고 있습니다. 이러한 접근 방식은 주요 미국 경쟁사 일부에서 논의를 지배하는 더 철학적이고 정책 중심적인 논의와 대조되며, AI 지배력 경쟁에서 다른 길을 제시합니다.