[카테고리:] 29

  • Alibaba Qwen3.5 Omni 출시 — GPT-4o급 음성·영상·텍스트 멀티모달 AI, 지금 써보는 법

    “GPT-4o급”이라는 표현은 마케팅에서 가장 흔하면서도 가장 검증하기 어려운 수식어다. 3월 30일 Alibaba Qwen 팀이 공개한 Qwen3.5-Omni가 그 표현을 들고 나왔다. 텍스트·이미지·오디오·영상을 단일 모델로 처리하고 실시간 음성 대화까지 가능하다는 주장이다. 같은 주에 에이전틱 LLM Qwen 3.6 Plus도 함께 공개되면서 한 주 만에 두 개의 굵직한 카드가 나왔다.

    이 글은 그 주장 안에 무엇이 사실이고 무엇이 마케팅인지를 따져 보기 위한 것이다.

    모델의 뼈대 — 4가지 감각의 단일 파이프라인

    Qwen3.5-Omni의 핵심 차별점은 멀티모달 처리의 통합 방식이다. 기존 모델 대부분은 텍스트, 이미지, 오디오를 각자 다른 파이프라인으로 처리한 뒤 결과를 합친다. Qwen3.5-Omni는 단일 컴퓨팅 파이프라인 안에서 네 가지 모달리티를 동시에 다룬다. Thinker-Talker 구조와 Hybrid-Attention MoE를 채택했고, 1억 시간 이상의 오디오·비주얼 데이터로 사전 학습된 Audio Transformer 인코더를 사용한다.

    구체 사양은 다음과 같다.

    • 컨텍스트 윈도우 256K 토큰. 음성 10시간 이상, 720p 영상 400초 이상(1 FPS) 처리
    • 음성 인식 113개 언어·방언, 음성 생성 36개 언어 (한국어 포함)
    • 실시간 턴테이킹 — 사용자가 말을 끊으려는 의도와 단순 추임새(“응”, “어”)를 구분하는 네이티브 대화 인식
    • Audio-Visual Vibe Coding — 영상과 음성 지시만으로 코드 작성. 손 스케치를 카메라로 보여주면 React 웹페이지로 변환

    마지막 항목이 흥미롭다. 음성과 영상을 입력으로 하는 코딩이라는 발상은 실험적이지만, 작동만 한다면 접근성 측면의 의미가 크다.

    벤치마크 — 정말 GPT-4o를 앞서는가

    Alibaba는 Qwen3.5-Omni-Plus가 215개 오디오·오디오비주얼 서브태스크에서 SOTA를 달성했다고 발표했다. 주요 수치를 모아 보면 이렇다.

    • MMMU(다중모달 이해): Qwen3.5-Omni 82.0% vs GPT-4o 79.5%
    • HumanEval(코딩): 92.6% vs GPT-4o 89.2%
    • LibriSpeech WER(음성 인식 오류율): 1.7% vs GPT-4o 2.2% (낮을수록 우수)
    • 음성 안정성(Seed-zh): 1.07점 — ElevenLabs(13.08), Gemini 3.1 Pro(2.42), GPT-Audio(1.11)를 앞섬

    표 위에서 보면 결과는 분명해 보인다. 특히 오디오 이해·추론·인식·번역 전 영역에서 Gemini 3.1 Pro까지 앞선다는 점은 눈에 띈다. 다만 한 가지 단서가 빠지면 안 된다. 이 수치는 Alibaba 측 자체 측정값이다. 독립 검증이 나오기 전까지는 마케팅 숫자로 한 칸 미뤄 두는 게 안전하다. 한국어 성능이나 실제 한국 콜센터 음성에서의 동작은 직접 돌려 봐야 답이 나온다.

    같은 주에 나온 또 한 카드 — Qwen 3.6 Plus

    같은 시기에 공개된 Qwen 3.6 Plus는 성격이 완전히 다르다. 멀티모달이 아니라 에이전틱 능력에 집중한 플래그십 LLM이다. 컨텍스트 윈도우 1M 토큰(약 2,000페이지 분량을 단일 요청으로 처리), Terminal-Bench 2.0에서 61.6점을 기록해 Claude Opus 4.6의 59.3점을 앞섰다. 터미널 기반 에이전트 작업에서 Claude의 우위가 처음 흔들렸다는 뜻이다. Always-On CoT 구조로 추론 토큰을 최소화하면서 에이전트 신뢰도를 높이는 설계가 더해졌다.

    가장 매력적인 점은 OpenRouter에서 qwen/qwen3.6-plus-preview:free로 무료 프리뷰가 열려 있다는 것이다. 가장 가벼운 검증 경로가 만들어졌다.

    접근 경로 — 단, 완전 오픈소스는 아니다

    여기서 한 가지 주의가 필요하다. Qwen3.5-Omni는 완전 오픈소스가 아니다. Plus·Flash 변형은 현재 API 전용으로만 공개됐고, 모델 가중치는 공개되지 않았다. Alibaba가 그동안 유지해 온 오픈소스 행보에서 한발 물러난 결정이다. 클라우드 의존성이라는 비용을 감수해야 한다는 뜻이기도 하다.

    접근 가능한 경로는 여러 가지다. Alibaba DashScope API는 OpenAI 호환 인터페이스를 제공하고, 한국에서는 싱가포르나 미국 리전으로 접근할 수 있다. Hugging Face Spaces에서 Qwen3.5-Omni Offline Demo로 Light 변형을 체험해 볼 수 있고, Qwen 3.6 Plus는 OpenRouter 무료 프리뷰가 있다. 전 세대인 Qwen3-Omni는 GitHub QwenLM 레포에 오픈소스로 올라와 있어 로컬 실행이 가능하다.

    한국 개발자·스타트업에게 의미

    이번 발표가 한국 시장에 던지는 메시지는 세 갈래다. 첫째, 음성 AI 비용 장벽이 한 단계 낮아진다. GPT-4o Audio API는 가격이 비싸기로 유명한데, Qwen3.5-Omni가 비슷한 성능을 더 낮은 비용으로 제공한다. 한국어를 포함한 113개 언어 인식이라는 점이 한국어 음성 앱을 만드는 팀에게 직접적인 검토 가치가 된다. 둘째, 에이전트 작업에서 Claude를 대체할 옵션이 생겼다. Qwen 3.6 Plus가 Terminal-Bench 2.0에서 Claude Opus 4.6을 앞섰다는 결과는 — 자체 측정이라는 단서를 감안해도 — 비용 대비 성능을 재검토할 이유로는 충분하다. 셋째, 멀티모달 파이프라인을 단일 API로 통합할 수 있다는 가능성. 텍스트 모델·음성 인식 모델·영상 분석 모델을 따로 연결하던 구조가 한 번에 정리된다면 인프라 복잡도가 크게 줄어든다.

    다만 Plus·Flash가 API 전용이라는 점, 그리고 Alibaba 클라우드 의존성이 새로 생긴다는 점은 프로덕션 도입 전에 충분히 따져 봐야 한다.

    지금 할 일

    가장 가벼운 검증 경로는 OpenRouter에서 Qwen 3.6 Plus 무료 프리뷰를 한 번 돌려 보는 것이다. 평소 Claude나 GPT에 던지던 긴 문서 요약이나 코딩 에이전트 작업을 같은 프롬프트로 던져 비교해 보면 한 시간 안에 감이 잡힌다. 멀티모달이 궁금하다면 Hugging Face Spaces의 Qwen3.5-Omni Offline Demo가 가장 빠른 입구다. API를 본격적으로 쓰려는 단계라면 DashScope에서 무료 크레딧을 받아 OpenAI SDK의 base_url만 갈아 끼우면 곧바로 연동된다.

    관련 글

    출처

    대표이미지 출처: Qwen 공식 사이트

  • OpenAI Sora 서비스 종료 — 출시 6개월 만에 실패한 이유와 지금 쓸 수 있는 대안 3가지

    3월 24일, OpenAI가 조용히 공지 하나를 올렸다. AI 영상 생성 서비스 Sora의 종료. 출시 6개월도 채 안 된 시점이었다. 한때 영상 생성 AI의 끝판왕으로 불리며 전 세계 크리에이터의 기대를 한 몸에 받았던 서비스가 왜 이렇게 빠르게 사라졌을까. 그리고 그 자리에서 떠난 사용자들은 지금 어디로 갔을까.

    숫자가 말해 주는 죽음의 곡선

    Sora는 2025년 말 정식 출시 직후 반짝 흥행에는 성공했다. 월 사용자 수 100만 명을 돌파하며 화제가 됐지만, 곡선이 너무 빨리 꺾였다. 종료 직전에는 50만 명 이하. 절반 이상이 떠난 셈이다. 표면 이유는 여러 가지가 거론됐지만 실제로는 한 가지 단순한 사실이 결정적이었다. 비용 구조가 작동하지 않았다.

    고화질 영상 생성에는 막대한 GPU 연산이 필요하다. 업계 추산에 따르면 Sora의 하루 운영 비용은 약 100만 달러(약 13억 원). 구독료 수입으로 메우기에는 너무 큰 격차였다. 단가가 비싼 영상 생성 작업의 대부분이 무료 체험과 저가 플랜에서 발생했다는 점도 부정적이었다.

    Disney 파트너십 — 신뢰의 균열

    가장 충격적이었던 디테일은 Disney와의 파트너십 처리 방식이다. Disney는 Sora와 10억 달러 규모의 콘텐츠 제작 파트너십을 체결했는데, 서비스 종료 통보는 종료 직전에야 받았다고 알려졌다. 이 정도 규모의 B2B 고객조차 충분한 사전 협의 없이 끊겼다는 사실은 OpenAI의 엔터프라이즈 신뢰도에 적지 않은 타격을 줬다는 평가가 따라붙는다.

    이 부분이 단순한 해프닝이 아닌 이유는 명확하다. 한국 기업 고객 입장에서도 같은 일이 벌어질 수 있다는 신호로 읽힌다. AI 서비스를 핵심 워크플로에 박아 넣는 결정을 할 때 SLA와 종료 통지 조항을 한 번 더 확인할 이유가 생긴다.

    이탈 사용자들이 향한 곳

    Sora 종료 발표 당일, Kling AI(콰이쇼우)가 애플 앱스토어 무료 앱 차트 상위권에 진입했다. 우연이 아니다. Sora 이탈 사용자들이 곧바로 대안을 찾아 옮겨 간 결과다. 현재 영상 생성 AI 시장의 주요 대안은 세 갈래로 정리된다.

    Kling AI는 콰이쇼우가 만든 모델이다. 최대 2분 영상, 1080p 품질, 무료 플랜까지 갖춘 가성비 카드다. Sora 종료 이후 한국 크리에이터 커뮤니티에서도 빠르게 알려지고 있다. Runway Gen-4는 정반대 포지션이다. 할리우드 프로덕션이 쓰는 정밀 편집과 일관된 캐릭터 유지가 강점이고 가격대도 그에 맞게 높다. Pika Labs는 빠른 생성과 단순한 UI로 처음 영상 AI를 만져 보는 사람에게 진입 장벽이 가장 낮다.

    세 서비스 모두 Sora 종료 이후 트래픽이 눈에 띄게 늘었다는 보고가 함께 나오고 있다.

    Sora 실패의 진짜 의미

    이번 사건은 단일 서비스 하나의 실패가 아니다. OpenAI가 ChatGPT 이후 새 수익원을 찾는 과정에서 마주친 구조적 한계를 드러낸 사건이다. 텍스트 AI는 토큰당 비용 곡선이 빠르게 내려갔지만 영상 생성은 그렇지 않다. 같은 가격으로 같은 품질을 내는 데 들어가는 GPU 자원의 차이가 너무 크다.

    또 한 가지 신호. OpenAI는 ChatGPT·Codex·Atlas 통합으로 슈퍼앱 전략을 강화하는 중이다. Sora처럼 별도 서비스로 운영하던 라인을 정리하고 핵심 플랫폼 안에 기능을 통합하는 방향으로 선회하는 것으로 보인다. 이번 종료는 그 정리 과정의 첫 번째 신호일 가능성이 높다.

    그래서 — 한국 사용자에게 의미

    Sora에 월정액을 결제하고 있었다면 즉시 구독 취소와 청구 내역 확인이 첫 번째 조치다. 더 중요한 건 이번 사건이 던지는 세 가지 메시지다. 첫째, OpenAI가 모든 영역을 이긴 건 아니다. 텍스트의 압도적 지위가 영상으로 자동으로 이어지지 않는다. 분야별 전문 도구를 병행하는 전략이 여전히 유효하다. 둘째, 중국산 AI 도구의 부상을 더 이상 무시하기 어렵다. Kling AI 같은 가격·품질 경쟁력을 갖춘 서비스가 한국 시장에도 빠르게 들어오고 있다. 데이터 보안 이슈를 감안하되 기능 면 비교는 필요하다. 셋째, 단일 AI 서비스에 깊이 의존하는 건 위험하다는 점이 한 번 더 입증됐다. 최소한 2~3개 대안을 늘 같이 테스트해 두는 습관이 필요하다.

    지금 할 일

    가장 빠른 대안 탐색은 세 도구를 한 시간씩 굴려 보는 것이다. klingai.com에서 무료 크레딧을 받아 Sora와 비슷한 프롬프트를 던져 본다. runwayml.com에서는 무료 플랜으로 125 크레딧을 받을 수 있다. pika.art는 가입과 동시에 시작 가능하다. 같은 프롬프트로 세 결과를 비교하면 본인 작업에 어느 도구가 맞는지 한 시간이면 답이 나온다.

    관련 글

    출처

  • Google Gemma 4 오픈소스 공개 — Apache 2.0으로 상업 이용 전면 허용, 지금 바로 쓰는 법

    AI 모델의 성능 발표는 이제 일주일이 멀다 하고 나온다. 그 사이에서 주목할 만한 변화는 사실 모델 능력보다 라이선스에서 나오는 경우가 있다. 4월 2일 Google이 Gemma 4를 공개하면서 함께 발표한 한 줄이 그렇다. 이번 공개부터 라이선스가 Apache 2.0이다. 이전 Gemma 시리즈가 들고 있던 자체 라이선스의 조건들이 통째로 사라졌다는 뜻이다. 모델 능력은 그 다음 이야기다.

    왜 라이선스 변경이 더 큰 뉴스인가

    Gemma 1·2·3은 Google 자체 Gemma Terms of Use 라이선스를 따랐다. 연구·비상업 목적에는 관대했지만 상업 서비스에 적용할 때는 별도 조건 충족이 필요했고, “월간 활성 사용자 1억 명 이상 서비스는 Google과 별도 협의” 같은 조항이 기업 법무팀의 검토 부담을 만들었다. 이 한 줄 때문에 한국 기업이 Gemma를 도입할 때마다 몇 주짜리 검토 절차가 생기곤 했다.

    Apache 2.0은 OSI 공식 승인 라이선스다. 수정·배포·상업 이용 모두 자유롭고, 특허 사용권까지 포함돼 법적 리스크가 낮다. 소스코드 공개 의무도 없다(GPL과 가장 큰 차이). 한 마디로 정리하면 — Gemma 4를 자사 서비스에 탑재해 수익을 내도 Google에 따로 허락을 구하거나 비용을 낼 필요가 없다. Google Open Source Blog는 “개발자 커뮤니티의 오랜 요청을 반영했다”고 설명했지만, 사실 이건 Llama·Mistral 계열에 비해 Gemma가 가지고 있던 가장 큰 약점 하나를 없앤 결정에 가깝다.

    Gemma 4 라인업 — 4가지 사이즈

    모델 자체도 검토해 둘 만하다. Google DeepMind는 Gemma 4를 Gemini 3와 동일한 연구·기술 기반 위에서 만들었고, 네 가지 크기로 나눠 공개했다.

    • E2B (Effective 2B): 스마트폰·엣지 디바이스 수준. 추론 시 활성 파라미터 약 2B
    • E4B (Effective 4B): 노트북·소형 서버 수준. 활성 파라미터 약 4B
    • 26B-A4B (MoE): 전체 26B 중 추론 시 3.8B만 활성. 속도는 4B급, 품질은 26B급
    • 31B Dense: 전 파라미터 상시 활성. 일관된 고품질 응답, 파인튜닝 베이스로 최적

    주목할 수치는 두 가지다. 31B 모델이 Chatbot Arena 글로벌 랭킹에서 전체 3위(오픈모델만이 아니라 유료 상용 모델 포함)에 올랐고, 26B MoE도 6위에 안착했다. 사이즈 대비 성능 효율이 매우 높다. 멀티모달 기능도 강화됐다 — 텍스트·이미지·음성·영상 입력을 네이티브로 처리하고 한국어 포함 140개 이상 언어를 지원하며, 컨텍스트 윈도우는 최대 256K 토큰이다.

    받는 곳 세 군데

    Hugging Face에서 google/gemma-4-31b-it, google/gemma-4-26b-a4b-it, google/gemma-4-e4b-it, google/gemma-4-e2b-it로 검색하면 된다. 계정 로그인 후 라이선스(Apache 2.0) 동의만 하면 즉시 다운로드된다. Kaggle Models에서도 Google 계정 연동으로 노트북에서 바로 활용할 수 있다. 가장 가벼운 진입은 Ollama다. 터미널에서 한 줄.

    ollama run gemma4

    Mac(Apple Silicon), Linux, Windows를 모두 지원한다. 로컬 실행 최소 사양은 E2B 기준 RAM 6GB, 31B Dense는 VRAM 20GB 이상의 GPU를 권장한다. RTX 4090이나 M3 Max 이상의 MacBook Pro면 31B를 실용 속도로 굴릴 수 있다. VRAM이 부족하면 GGUF 양자화 버전이 별도로 제공된다.

    한국 시장에 떨어지는 세 가지 변화

    Gemma 4 공개가 한국 시장에 주는 실질 변화는 라이선스 한 줄에서 나온다. 내용은 단순하다.

    첫째, 스타트업의 AI 서비스 출시 비용이 거의 0원이다. 챗봇, 고객 응대, 문서 요약 같은 기능을 만들 때 OpenAI API 비용 없이 충분한 성능의 모델을 확보할 수 있다. Apache 2.0이라 법무 검토 부담도 없다. E4B나 26B MoE 모델이면 웬만한 비즈니스 태스크는 충분히 소화한다.

    둘째, 데이터 보안이 필수인 금융·의료·공공 분야의 온프레미스 AI 도입이 현실화된다. 지금까지 규제 산업에서 외부 API 사용은 데이터 주권 문제로 기피 대상이었다. Gemma 4를 내부 서버에 직접 올리면 데이터가 외부로 나갈 일이 없고, 상업적 제약도 없으니 서비스 운영도 자유롭다.

    셋째, 한국어 특화 파인튜닝 모델 제작과 상업 배포가 합법이다. 이전 라이선스 하에서는 파생 모델의 상업 배포에 제약이 있었다. Apache 2.0에서는 그 제약이 사라진다. 한국어 도메인 데이터로 파인튜닝한 모델을 만들어 SaaS로 판매하는 것까지 자유롭다.

    지금 할 일

    가장 빠른 경험은 ollama.com에서 Ollama를 설치하고 ollama run gemma4:e4b 한 줄로 E4B 모델을 띄우는 것이다. 8GB RAM 환경에서도 돌고, 평소 자주 던지는 질문 몇 개를 그대로 던져 보면 본인 작업에 맞는지 한 시간 안에 감이 잡힌다. 파인튜닝까지 가 보고 싶다면 Hugging Face 계정을 만들고 Google Colab이나 Kaggle 노트북에서 샘플 코드를 굴려 보는 게 다음 단계다. 이미 OpenAI API를 쓰는 프로젝트가 있다면 어떤 태스크가 Gemma 4 E4B나 26B MoE로 대체 가능한지 한 번 점검해 ROI를 계산해 보자. Apache 2.0이라는 라이선스가 그 결정을 훨씬 가볍게 만든다.

    관련 글

    출처

    대표이미지 출처: Google Blog