GLM-5.1 완전 분석: 오픈소스가 드디어 Claude·GPT-5 꺾었나

“오픈소스 모델이 드디어 Claude를 꺾었다.” 4월 7일 HackerNews 5위에 오른 GLM-5.1 발표 글의 헤드라인이었다. 중국 스타트업 Z.ai가 칭화대와 함께 만든 코딩 특화 LLM. SWE-Bench Pro 1위를 자처하면서 Apache 2.0이 아닌 자체 라이선스로 풀었다. 진짜라면 Claude Code나 Cursor Pro를 끊고 무료로 같은 수준 코딩 AI를 쓸 수 있다는 얘기다.

그런데 1위 주장은 항상 한 박자 늦게 검증된다. 오늘은 어디까지 사실이고 어디부터가 마케팅인지 따져 본다.

모델 자체 사양

GLM-5.1은 754B 파라미터 MoE(Mixture of Experts) 구조다. 전체 파라미터를 한 번에 활성화하지 않고 입력 종류에 따라 필요한 전문가 네트워크만 깨우는 방식이라, 전체 사이즈 대비 추론 비용이 낮다. 핵심 자랑거리는 코딩 능력이다. SWE-Bench Pro에서 1위, 그리고 8시간짜리 자율 코딩 태스크를 중단 없이 돌릴 수 있다는 점. 단일 프롬프트 응답이 아니라 1,700 스텝 규모의 에이전트 실행도 지원한다는 게 Z.ai의 주장이다.

벤치마크 비교 — 표 위에서만 보면

모델 SWE-Bench Pro 비용 오픈소스
GLM-5.1 1위 (자체 측정) 무료(로컬) / API 저렴 O
Claude Opus 4.6 상위권 $15/1M 토큰 X
GPT-5.4 상위권 $10/1M 토큰 X
MiniMax M2.7 SWE-Pro 56.22% $0.30/1M 토큰 X

표 위에서만 보면 결정은 쉽다. 그런데 1위 주장의 근거가 자체 측정값이라는 점을 잊지 말아야 한다. 외부 검증이 나오기 전까지는 마케팅 숫자에 가깝게 보는 게 안전하다. 한국어 성능, 장기 컨텍스트 안정성, 실제 한국 회사 코드베이스에서의 동작은 자기 손으로 돌려 봐야 답이 나온다.

실제로 쓰는 세 가지 길

가장 빠른 시작은 z.ai 웹 플랫폼이다. 계정 만들고 채팅 인터페이스에서 바로 쓴다. API도 제공하는데, OpenAI 호환 포맷이라 기존 코드와 쉽게 붙는다. 이게 첫 번째 길이다.

두 번째는 로컬 실행이다. 754B 풀 모델은 일반 PC로 무리지만, Z.ai는 경량화한 32B와 9B Distilled 버전을 같이 풀었다. 32B는 RTX 4090급 24GB VRAM이 있으면 돌고, 9B는 16GB로도 충분하다. Ollama가 설치돼 있다면 한 줄이다.

ollama pull glm5.1:32b
ollama run glm5.1:32b

세 번째는 기존 코딩 에이전트와 연결이다. Cursor의 Custom Model 설정이나 Continue.dev에서 Base URL만 갈아 끼우면 된다. OpenAI 호환이라 생각보다 매끄럽다.

Base URL: https://api.z.ai/v1
Model: glm-5.1
API Key: [Z.ai에서 발급]

월 20달러 vs 베타 가격

Claude Code Pro나 Cursor Pro에 매달 20달러 이상을 쓰고 있는 개발자라면 GLM-5.1은 검토할 만한 카드다. API는 베타 기간 파격 가격을 제공 중이고, 로컬 Distilled 버전은 초기 셋업이 끝나면 추가 비용이 0이다. 단, 코딩 에이전트 생태계와의 통합 성숙도가 Claude·GPT 수준은 아직 아니다. 익스텐션 지원, 한국어 품질, 장기 컨텍스트 안정성 — 이 세 가지는 직접 쓰면서 판단해야 한다.

지금 할 일

가장 비용이 적은 검증 방법은 z.ai에서 무료 계정을 만들어 평소 작업하던 코드 일부를 그대로 던져 보는 것이다. 한국어로 된 주석이 섞인 파일, 회사 코드 스타일이 들어간 함수 — 벤치마크 숫자가 아니라 본인이 매일 쓰는 데이터로 비교해야 한다. 16GB VRAM 이상 GPU가 있다면 9B 로컬 버전도 1시간이면 띄운다. 결과가 마음에 들면 Continue.dev 연결로 넘어가서 실제 업무 한 사이클을 돌려 보는 게 다음 단계다.

관련 글

출처