Qwen3.5 Omni 보관

“GPT-4o급”이라는 표현은 마케팅에서 가장 흔하면서도 가장 검증하기 어려운 수식어다. 3월 30일 Alibaba Qwen 팀이 공개한 Qwen3.5-Omni가 그 표현을 들고 나왔다. 텍스트·이미지·오디오·영상을 단일 모델로 처리하고 실시간 음성 대화까지 가능하다는 주장이다. 같은 주에 에이전틱 LLM Qwen 3.6 Plus도 함께 공개되면서 한 주 만에 두 개의 굵직한 카드가 나왔다.

이 글은 그 주장 안에 무엇이 사실이고 무엇이 마케팅인지를 따져 보기 위한 것이다.

모델의 뼈대 — 4가지 감각의 단일 파이프라인

Qwen3.5-Omni의 핵심 차별점은 멀티모달 처리의 통합 방식이다. 기존 모델 대부분은 텍스트, 이미지, 오디오를 각자 다른 파이프라인으로 처리한 뒤 결과를 합친다. Qwen3.5-Omni는 단일 컴퓨팅 파이프라인 안에서 네 가지 모달리티를 동시에 다룬다. Thinker-Talker 구조와 Hybrid-Attention MoE를 채택했고, 1억 시간 이상의 오디오·비주얼 데이터로 사전 학습된 Audio Transformer 인코더를 사용한다.

구체 사양은 다음과 같다.

컨텍스트 윈도우 256K 토큰. 음성 10시간 이상, 720p 영상 400초 이상(1 FPS) 처리
음성 인식 113개 언어·방언, 음성 생성 36개 언어 (한국어 포함)
실시간 턴테이킹 — 사용자가 말을 끊으려는 의도와 단순 추임새(“응”, “어”)를 구분하는 네이티브 대화 인식
Audio-Visual Vibe Coding — 영상과 음성 지시만으로 코드 작성. 손 스케치를 카메라로 보여주면 React 웹페이지로 변환

마지막 항목이 흥미롭다. 음성과 영상을 입력으로 하는 코딩이라는 발상은 실험적이지만, 작동만 한다면 접근성 측면의 의미가 크다.

벤치마크 — 정말 GPT-4o를 앞서는가

Alibaba는 Qwen3.5-Omni-Plus가 215개 오디오·오디오비주얼 서브태스크에서 SOTA를 달성했다고 발표했다. 주요 수치를 모아 보면 이렇다.

MMMU(다중모달 이해): Qwen3.5-Omni 82.0% vs GPT-4o 79.5%
HumanEval(코딩): 92.6% vs GPT-4o 89.2%
LibriSpeech WER(음성 인식 오류율): 1.7% vs GPT-4o 2.2% (낮을수록 우수)
음성 안정성(Seed-zh): 1.07점 — ElevenLabs(13.08), Gemini 3.1 Pro(2.42), GPT-Audio(1.11)를 앞섬

표 위에서 보면 결과는 분명해 보인다. 특히 오디오 이해·추론·인식·번역 전 영역에서 Gemini 3.1 Pro까지 앞선다는 점은 눈에 띈다. 다만 한 가지 단서가 빠지면 안 된다. 이 수치는 Alibaba 측 자체 측정값이다. 독립 검증이 나오기 전까지는 마케팅 숫자로 한 칸 미뤄 두는 게 안전하다. 한국어 성능이나 실제 한국 콜센터 음성에서의 동작은 직접 돌려 봐야 답이 나온다.

같은 주에 나온 또 한 카드 — Qwen 3.6 Plus

같은 시기에 공개된 Qwen 3.6 Plus는 성격이 완전히 다르다. 멀티모달이 아니라 에이전틱 능력에 집중한 플래그십 LLM이다. 컨텍스트 윈도우 1M 토큰(약 2,000페이지 분량을 단일 요청으로 처리), Terminal-Bench 2.0에서 61.6점을 기록해 Claude Opus 4.6의 59.3점을 앞섰다. 터미널 기반 에이전트 작업에서 Claude의 우위가 처음 흔들렸다는 뜻이다. Always-On CoT 구조로 추론 토큰을 최소화하면서 에이전트 신뢰도를 높이는 설계가 더해졌다.

가장 매력적인 점은 OpenRouter에서 qwen/qwen3.6-plus-preview:free로 무료 프리뷰가 열려 있다는 것이다. 가장 가벼운 검증 경로가 만들어졌다.

접근 경로 — 단, 완전 오픈소스는 아니다

여기서 한 가지 주의가 필요하다. Qwen3.5-Omni는 완전 오픈소스가 아니다. Plus·Flash 변형은 현재 API 전용으로만 공개됐고, 모델 가중치는 공개되지 않았다. Alibaba가 그동안 유지해 온 오픈소스 행보에서 한발 물러난 결정이다. 클라우드 의존성이라는 비용을 감수해야 한다는 뜻이기도 하다.

접근 가능한 경로는 여러 가지다. Alibaba DashScope API는 OpenAI 호환 인터페이스를 제공하고, 한국에서는 싱가포르나 미국 리전으로 접근할 수 있다. Hugging Face Spaces에서 Qwen3.5-Omni Offline Demo로 Light 변형을 체험해 볼 수 있고, Qwen 3.6 Plus는 OpenRouter 무료 프리뷰가 있다. 전 세대인 Qwen3-Omni는 GitHub QwenLM 레포에 오픈소스로 올라와 있어 로컬 실행이 가능하다.

한국 개발자·스타트업에게 의미

이번 발표가 한국 시장에 던지는 메시지는 세 갈래다. 첫째, 음성 AI 비용 장벽이 한 단계 낮아진다. GPT-4o Audio API는 가격이 비싸기로 유명한데, Qwen3.5-Omni가 비슷한 성능을 더 낮은 비용으로 제공한다. 한국어를 포함한 113개 언어 인식이라는 점이 한국어 음성 앱을 만드는 팀에게 직접적인 검토 가치가 된다. 둘째, 에이전트 작업에서 Claude를 대체할 옵션이 생겼다. Qwen 3.6 Plus가 Terminal-Bench 2.0에서 Claude Opus 4.6을 앞섰다는 결과는 — 자체 측정이라는 단서를 감안해도 — 비용 대비 성능을 재검토할 이유로는 충분하다. 셋째, 멀티모달 파이프라인을 단일 API로 통합할 수 있다는 가능성. 텍스트 모델·음성 인식 모델·영상 분석 모델을 따로 연결하던 구조가 한 번에 정리된다면 인프라 복잡도가 크게 줄어든다.

다만 Plus·Flash가 API 전용이라는 점, 그리고 Alibaba 클라우드 의존성이 새로 생긴다는 점은 프로덕션 도입 전에 충분히 따져 봐야 한다.

지금 할 일

가장 가벼운 검증 경로는 OpenRouter에서 Qwen 3.6 Plus 무료 프리뷰를 한 번 돌려 보는 것이다. 평소 Claude나 GPT에 던지던 긴 문서 요약이나 코딩 에이전트 작업을 같은 프롬프트로 던져 비교해 보면 한 시간 안에 감이 잡힌다. 멀티모달이 궁금하다면 Hugging Face Spaces의 Qwen3.5-Omni Offline Demo가 가장 빠른 입구다. API를 본격적으로 쓰려는 단계라면 DashScope에서 무료 크레딧을 받아 OpenAI SDK의 base_url만 갈아 끼우면 곧바로 연동된다.

출처

대표이미지 출처: Qwen 공식 사이트

[태그:] Qwen3.5 Omni

Alibaba Qwen3.5 Omni 출시 — GPT-4o급 음성·영상·텍스트 멀티모달 AI, 지금 써보는 법