Microsoft MAI-Transcribe-1 완전 분석: Whisper 넘어선 음성인식 API 가격·성능·사용법

$0.36/시간. 25개 언어. Whisper-large-v3보다 낫다는 주장. 4월 2일 Microsoft가 Azure AI Foundry를 통해 공개한 음성인식 모델 MAI-Transcribe-1이 내건 숫자다. 자체 발표인 만큼 그대로 믿기 어려운 부분도 있지만, 가격대만 놓고 보면 무시하기 힘든 카드가 등장했다는 건 분명하다.

같은 날 Microsoft는 OpenAI에 의존하지 않는 자체 모델 3종을 한꺼번에 공개했다. 음성합성 MAI-Voice-1, 이미지 생성 MAI-Image-2, 그리고 오늘의 주인공 MAI-Transcribe-1. 이 중 STT 쪽이 가장 빠르게 실무 영향이 가능한 영역이다.

핵심 주장 세 줄

MAI-Transcribe-1은 Azure AI Foundry 위에서 돌아가는 음성인식(STT) API다. Microsoft가 내세우는 키 메시지는 단순하다. 25개 언어 — 그중 한국어 포함 — 전 영역에서 OpenAI Whisper-large-v3를 앞선다는 것. 기존 경쟁 모델 대비 GPU 비용 50% 절감. 그리고 시간당 $0.36, 분당으로 환산하면 약 $0.006다.

한국어 WER(단어 오류율)이 Whisper 대비 낮다는 게 자체 벤치마크 결과인데, 이건 독립 검증 전까지는 어디까지나 마케팅 숫자다. 실제 한국어 콜센터 녹음, 회의 음성 같은 실전 데이터로 직접 돌려 봐야 진짜 차이가 보인다.

경쟁사와 단순 비교

서비스 가격 한국어 특징
MAI-Transcribe-1 $0.36/시간 O 실시간+배치, Azure 통합
OpenAI Whisper API $0.006/분 ($0.36/시간) O 배치 전용
Google STT v2 $0.016/분 ($0.96/시간) O 스트리밍
AWS Transcribe $0.024/분 ($1.44/시간) O AWS 통합
네이버 CLOVA 별도 문의 한국어 특화 한국어 최적화

표만 보면 결론은 분명하다. Google과 AWS 대비 가격이 압도적으로 싸다. Whisper API와는 가격이 같은데 성능이 정말로 더 높다면, STT 워크로드를 옮길 이유가 생긴다. 키 포인트는 “정말로”다.

실제 사용 — Azure 계정 있으면 5분

Azure 구독이 있다면 AI Foundry에서 MAI-Transcribe-1 엔드포인트를 바로 배포할 수 있다. Python SDK 기준 코드는 군더더기가 없다.

from azure.ai.inference import AudioTranscriptionClient
from azure.core.credentials import AzureKeyCredential

client = AudioTranscriptionClient(
    endpoint="https://[your-resource].services.ai.azure.com",
    credential=AzureKeyCredential("[API-KEY]")
)

with open("audio.mp3", "rb") as f:
    response = client.transcribe(
        body={"file": f, "language": "ko"}
    )

print(response.text)

기존에 Azure Cognitive Services STT를 쓰고 있던 환경이라면 엔드포인트와 모델명만 갈아 끼우면 된다. 마이그레이션 부담이 사실상 없다는 뜻이다.

나머지 두 모델 짧게

같은 발표에 끼어 나온 MAI-Voice-1은 텍스트 → 음성 변환 모델이다. 감정과 억양을 자연스럽게 표현하는 게 핵심 자랑거리고, 가격은 아직 공개 전, Azure AI Foundry 베타로 접근 가능하다. OpenAI TTS와 정면 충돌 포지션이다. MAI-Image-2는 이미지 생성 쪽이다. DALL-E 3 대비 사실적 인물 묘사와 텍스트 렌더링이 개선됐다는 주장이고, Microsoft Designer와 통합 예정이다. 둘 다 STT만큼 즉시 효과를 내는 영역은 아니지만, Microsoft가 OpenAI 의존도를 줄이려는 큰 그림은 분명히 보인다.

그래서 — 옮길 가치가 있는가

이미 Azure 위에 인프라가 올라가 있는 한국 기업이라면, MAI-Transcribe-1은 즉시 파일럿할 만하다. 콜센터 녹음 분석, 회의록 자동화, 자막 생성 — STT 워크로드가 매월 수백 시간을 넘어가는 팀이라면 Google·AWS 대비 비용 차이가 분기 단위 예산에서 체감된다. 다만 한 가지를 잊지 말자. Microsoft가 발표한 벤치 숫자는 자기 측정값이다. 한국어 실전 데이터로 Whisper API와 직접 WER을 비교해 본 다음에 결정하는 것이 안전하다.

지금 할 일

Azure 계정이 있다면 ai.azure.com에 들어가 MAI-Transcribe-1 엔드포인트를 1시간 안에 띄울 수 있다. 평소 자주 다루는 한국어 음성 파일 5~10개를 골라 Whisper API와 같은 조건으로 돌려 비교해 보자. WER 차이가 5% 이상 나면 옮길 가치가 있고, 1~2% 차이라면 가격 우위만으로 결정 근거가 충분하다.

관련 글

출처