[태그:] Qwen3.5 Omni

  • Alibaba Qwen3.5 Omni 출시 — GPT-4o급 음성·영상·텍스트 멀티모달 AI, 지금 써보는 법

    “GPT-4o급”이라는 표현은 마케팅에서 가장 흔하면서도 가장 검증하기 어려운 수식어다. 3월 30일 Alibaba Qwen 팀이 공개한 Qwen3.5-Omni가 그 표현을 들고 나왔다. 텍스트·이미지·오디오·영상을 단일 모델로 처리하고 실시간 음성 대화까지 가능하다는 주장이다. 같은 주에 에이전틱 LLM Qwen 3.6 Plus도 함께 공개되면서 한 주 만에 두 개의 굵직한 카드가 나왔다.

    이 글은 그 주장 안에 무엇이 사실이고 무엇이 마케팅인지를 따져 보기 위한 것이다.

    모델의 뼈대 — 4가지 감각의 단일 파이프라인

    Qwen3.5-Omni의 핵심 차별점은 멀티모달 처리의 통합 방식이다. 기존 모델 대부분은 텍스트, 이미지, 오디오를 각자 다른 파이프라인으로 처리한 뒤 결과를 합친다. Qwen3.5-Omni는 단일 컴퓨팅 파이프라인 안에서 네 가지 모달리티를 동시에 다룬다. Thinker-Talker 구조와 Hybrid-Attention MoE를 채택했고, 1억 시간 이상의 오디오·비주얼 데이터로 사전 학습된 Audio Transformer 인코더를 사용한다.

    구체 사양은 다음과 같다.

    • 컨텍스트 윈도우 256K 토큰. 음성 10시간 이상, 720p 영상 400초 이상(1 FPS) 처리
    • 음성 인식 113개 언어·방언, 음성 생성 36개 언어 (한국어 포함)
    • 실시간 턴테이킹 — 사용자가 말을 끊으려는 의도와 단순 추임새(“응”, “어”)를 구분하는 네이티브 대화 인식
    • Audio-Visual Vibe Coding — 영상과 음성 지시만으로 코드 작성. 손 스케치를 카메라로 보여주면 React 웹페이지로 변환

    마지막 항목이 흥미롭다. 음성과 영상을 입력으로 하는 코딩이라는 발상은 실험적이지만, 작동만 한다면 접근성 측면의 의미가 크다.

    벤치마크 — 정말 GPT-4o를 앞서는가

    Alibaba는 Qwen3.5-Omni-Plus가 215개 오디오·오디오비주얼 서브태스크에서 SOTA를 달성했다고 발표했다. 주요 수치를 모아 보면 이렇다.

    • MMMU(다중모달 이해): Qwen3.5-Omni 82.0% vs GPT-4o 79.5%
    • HumanEval(코딩): 92.6% vs GPT-4o 89.2%
    • LibriSpeech WER(음성 인식 오류율): 1.7% vs GPT-4o 2.2% (낮을수록 우수)
    • 음성 안정성(Seed-zh): 1.07점 — ElevenLabs(13.08), Gemini 3.1 Pro(2.42), GPT-Audio(1.11)를 앞섬

    표 위에서 보면 결과는 분명해 보인다. 특히 오디오 이해·추론·인식·번역 전 영역에서 Gemini 3.1 Pro까지 앞선다는 점은 눈에 띈다. 다만 한 가지 단서가 빠지면 안 된다. 이 수치는 Alibaba 측 자체 측정값이다. 독립 검증이 나오기 전까지는 마케팅 숫자로 한 칸 미뤄 두는 게 안전하다. 한국어 성능이나 실제 한국 콜센터 음성에서의 동작은 직접 돌려 봐야 답이 나온다.

    같은 주에 나온 또 한 카드 — Qwen 3.6 Plus

    같은 시기에 공개된 Qwen 3.6 Plus는 성격이 완전히 다르다. 멀티모달이 아니라 에이전틱 능력에 집중한 플래그십 LLM이다. 컨텍스트 윈도우 1M 토큰(약 2,000페이지 분량을 단일 요청으로 처리), Terminal-Bench 2.0에서 61.6점을 기록해 Claude Opus 4.6의 59.3점을 앞섰다. 터미널 기반 에이전트 작업에서 Claude의 우위가 처음 흔들렸다는 뜻이다. Always-On CoT 구조로 추론 토큰을 최소화하면서 에이전트 신뢰도를 높이는 설계가 더해졌다.

    가장 매력적인 점은 OpenRouter에서 qwen/qwen3.6-plus-preview:free로 무료 프리뷰가 열려 있다는 것이다. 가장 가벼운 검증 경로가 만들어졌다.

    접근 경로 — 단, 완전 오픈소스는 아니다

    여기서 한 가지 주의가 필요하다. Qwen3.5-Omni는 완전 오픈소스가 아니다. Plus·Flash 변형은 현재 API 전용으로만 공개됐고, 모델 가중치는 공개되지 않았다. Alibaba가 그동안 유지해 온 오픈소스 행보에서 한발 물러난 결정이다. 클라우드 의존성이라는 비용을 감수해야 한다는 뜻이기도 하다.

    접근 가능한 경로는 여러 가지다. Alibaba DashScope API는 OpenAI 호환 인터페이스를 제공하고, 한국에서는 싱가포르나 미국 리전으로 접근할 수 있다. Hugging Face Spaces에서 Qwen3.5-Omni Offline Demo로 Light 변형을 체험해 볼 수 있고, Qwen 3.6 Plus는 OpenRouter 무료 프리뷰가 있다. 전 세대인 Qwen3-Omni는 GitHub QwenLM 레포에 오픈소스로 올라와 있어 로컬 실행이 가능하다.

    한국 개발자·스타트업에게 의미

    이번 발표가 한국 시장에 던지는 메시지는 세 갈래다. 첫째, 음성 AI 비용 장벽이 한 단계 낮아진다. GPT-4o Audio API는 가격이 비싸기로 유명한데, Qwen3.5-Omni가 비슷한 성능을 더 낮은 비용으로 제공한다. 한국어를 포함한 113개 언어 인식이라는 점이 한국어 음성 앱을 만드는 팀에게 직접적인 검토 가치가 된다. 둘째, 에이전트 작업에서 Claude를 대체할 옵션이 생겼다. Qwen 3.6 Plus가 Terminal-Bench 2.0에서 Claude Opus 4.6을 앞섰다는 결과는 — 자체 측정이라는 단서를 감안해도 — 비용 대비 성능을 재검토할 이유로는 충분하다. 셋째, 멀티모달 파이프라인을 단일 API로 통합할 수 있다는 가능성. 텍스트 모델·음성 인식 모델·영상 분석 모델을 따로 연결하던 구조가 한 번에 정리된다면 인프라 복잡도가 크게 줄어든다.

    다만 Plus·Flash가 API 전용이라는 점, 그리고 Alibaba 클라우드 의존성이 새로 생긴다는 점은 프로덕션 도입 전에 충분히 따져 봐야 한다.

    지금 할 일

    가장 가벼운 검증 경로는 OpenRouter에서 Qwen 3.6 Plus 무료 프리뷰를 한 번 돌려 보는 것이다. 평소 Claude나 GPT에 던지던 긴 문서 요약이나 코딩 에이전트 작업을 같은 프롬프트로 던져 비교해 보면 한 시간 안에 감이 잡힌다. 멀티모달이 궁금하다면 Hugging Face Spaces의 Qwen3.5-Omni Offline Demo가 가장 빠른 입구다. API를 본격적으로 쓰려는 단계라면 DashScope에서 무료 크레딧을 받아 OpenAI SDK의 base_url만 갈아 끼우면 곧바로 연동된다.

    관련 글

    출처

    대표이미지 출처: Qwen 공식 사이트