$0.36/시간. 25개 언어. Whisper-large-v3보다 낫다는 주장. 4월 2일 Microsoft가 Azure AI Foundry를 통해 공개한 음성인식 모델 MAI-Transcribe-1이 내건 숫자다. 자체 발표인 만큼 그대로 믿기 어려운 부분도 있지만, 가격대만 놓고 보면 무시하기 힘든 카드가 등장했다는 건 분명하다.
같은 날 Microsoft는 OpenAI에 의존하지 않는 자체 모델 3종을 한꺼번에 공개했다. 음성합성 MAI-Voice-1, 이미지 생성 MAI-Image-2, 그리고 오늘의 주인공 MAI-Transcribe-1. 이 중 STT 쪽이 가장 빠르게 실무 영향이 가능한 영역이다.
핵심 주장 세 줄
MAI-Transcribe-1은 Azure AI Foundry 위에서 돌아가는 음성인식(STT) API다. Microsoft가 내세우는 키 메시지는 단순하다. 25개 언어 — 그중 한국어 포함 — 전 영역에서 OpenAI Whisper-large-v3를 앞선다는 것. 기존 경쟁 모델 대비 GPU 비용 50% 절감. 그리고 시간당 $0.36, 분당으로 환산하면 약 $0.006다.
한국어 WER(단어 오류율)이 Whisper 대비 낮다는 게 자체 벤치마크 결과인데, 이건 독립 검증 전까지는 어디까지나 마케팅 숫자다. 실제 한국어 콜센터 녹음, 회의 음성 같은 실전 데이터로 직접 돌려 봐야 진짜 차이가 보인다.
경쟁사와 단순 비교
| 서비스 | 가격 | 한국어 | 특징 |
|---|---|---|---|
| MAI-Transcribe-1 | $0.36/시간 | O | 실시간+배치, Azure 통합 |
| OpenAI Whisper API | $0.006/분 ($0.36/시간) | O | 배치 전용 |
| Google STT v2 | $0.016/분 ($0.96/시간) | O | 스트리밍 |
| AWS Transcribe | $0.024/분 ($1.44/시간) | O | AWS 통합 |
| 네이버 CLOVA | 별도 문의 | 한국어 특화 | 한국어 최적화 |
표만 보면 결론은 분명하다. Google과 AWS 대비 가격이 압도적으로 싸다. Whisper API와는 가격이 같은데 성능이 정말로 더 높다면, STT 워크로드를 옮길 이유가 생긴다. 키 포인트는 “정말로”다.
실제 사용 — Azure 계정 있으면 5분
Azure 구독이 있다면 AI Foundry에서 MAI-Transcribe-1 엔드포인트를 바로 배포할 수 있다. Python SDK 기준 코드는 군더더기가 없다.
from azure.ai.inference import AudioTranscriptionClient
from azure.core.credentials import AzureKeyCredential
client = AudioTranscriptionClient(
endpoint="https://[your-resource].services.ai.azure.com",
credential=AzureKeyCredential("[API-KEY]")
)
with open("audio.mp3", "rb") as f:
response = client.transcribe(
body={"file": f, "language": "ko"}
)
print(response.text)
기존에 Azure Cognitive Services STT를 쓰고 있던 환경이라면 엔드포인트와 모델명만 갈아 끼우면 된다. 마이그레이션 부담이 사실상 없다는 뜻이다.
나머지 두 모델 짧게
같은 발표에 끼어 나온 MAI-Voice-1은 텍스트 → 음성 변환 모델이다. 감정과 억양을 자연스럽게 표현하는 게 핵심 자랑거리고, 가격은 아직 공개 전, Azure AI Foundry 베타로 접근 가능하다. OpenAI TTS와 정면 충돌 포지션이다. MAI-Image-2는 이미지 생성 쪽이다. DALL-E 3 대비 사실적 인물 묘사와 텍스트 렌더링이 개선됐다는 주장이고, Microsoft Designer와 통합 예정이다. 둘 다 STT만큼 즉시 효과를 내는 영역은 아니지만, Microsoft가 OpenAI 의존도를 줄이려는 큰 그림은 분명히 보인다.
그래서 — 옮길 가치가 있는가
이미 Azure 위에 인프라가 올라가 있는 한국 기업이라면, MAI-Transcribe-1은 즉시 파일럿할 만하다. 콜센터 녹음 분석, 회의록 자동화, 자막 생성 — STT 워크로드가 매월 수백 시간을 넘어가는 팀이라면 Google·AWS 대비 비용 차이가 분기 단위 예산에서 체감된다. 다만 한 가지를 잊지 말자. Microsoft가 발표한 벤치 숫자는 자기 측정값이다. 한국어 실전 데이터로 Whisper API와 직접 WER을 비교해 본 다음에 결정하는 것이 안전하다.
지금 할 일
Azure 계정이 있다면 ai.azure.com에 들어가 MAI-Transcribe-1 엔드포인트를 1시간 안에 띄울 수 있다. 평소 자주 다루는 한국어 음성 파일 5~10개를 골라 Whisper API와 같은 조건으로 돌려 비교해 보자. WER 차이가 5% 이상 나면 옮길 가치가 있고, 1~2% 차이라면 가격 우위만으로 결정 근거가 충분하다.
관련 글
- Microsoft 365 Copilot Wave 2: 엑셀·Teams·Outlook 완전 변화
- Microsoft Copilot Wave 3 / Cowork / 멀티모델
- AI 가격 전쟁: Gemini 3.1 Flash-Lite $0.25/1M 모델 비교
