매달 청구되는 Claude Code 구독비, Cursor Pro, OpenAI API 토큰 영수증을 보면서 이런 생각을 한 번쯤 해 봤을 것이다. “이걸 그냥 내 노트북에서 돌릴 수는 없나?” 4월 2일 Google이 Apache 2.0 라이선스로 푼 Gemma 4가 그 가능성을 현실로 만들었다. 코드는 사외로 나가지 않고, 매달 청구서는 0이 되며, 코딩 에이전트는 평소처럼 동작한다. 이 글은 실제로 어떻게 구성하는지 단계별로 정리한 것이다.
먼저 모델 고르기
Gemma 4는 네 가지 사이즈로 나온다. 핵심 추천은 26B-A4B(MoE)다. 파라미터는 26B이지만 MoE 구조라 추론 시 실제 활성화되는 건 3.8B에 불과하다. 8~14GB VRAM 노트북·데스크탑 GPU에서 26B급 품질을 낼 수 있는 이유다.
| 모델 | 최소 VRAM | 추천 대상 |
|---|---|---|
| E4B (4B) | 6GB | RTX 3060 / 입문 테스트 |
| 26B-A4B (MoE) | 8~14GB | RTX 3080·4070 / 실무 추천 |
| 31B Dense | 20GB+ | RTX 4090 / 최고 품질 |
맥북 사용자에게도 좋은 소식이 있다. M4 Pro(통합 메모리 48GB) 기준 26B-A4B가 51 토큰/초를 낸다. 컨텍스트는 최대 256K까지 늘릴 수 있지만 풀 컨텍스트를 쓰려면 VRAM 여유가 추가로 필요하다.
Step 1 — Ollama로 30초 만에 띄우기
로컬 LLM 진입의 가장 짧은 길은 Ollama다. 설치 후 명령어 두 줄이면 된다.
# 설치: ollama.com에서 다운로드
ollama pull gemma4:26b # 8~14GB VRAM 권장
ollama pull gemma4:e4b # 6GB VRAM 입문용
ollama run gemma4:26b
Ollama는 localhost:11434에서 자동으로 OpenAI 호환 API를 노출한다. 이 한 가지 사실 때문에 다음 단계가 전부 쉬워진다. OpenAI SDK를 쓰는 모든 코딩 에이전트가 BaseURL만 바꾸면 그대로 동작하기 때문이다.
VRAM이 빠듯하다면 양자화 버전(gemma4:26b-q4)을 추천한다. 메모리 60% 절약, 성능 손실은 2~5% 수준이다. 일상적인 코딩 작업에서는 체감하기 어렵다.
Step 2 — 에이전트 연결
Continue.dev (VS Code · JetBrains)
Continue.dev 확장을 설치한 뒤 ~/.continue/config.json에 모델 정의를 추가한다.
{
"models": [{
"title": "Gemma 4 26B",
"provider": "ollama",
"model": "gemma4:26b"
}],
"tabAutocompleteModel": {
"title": "Gemma 4 E4B",
"provider": "ollama",
"model": "gemma4:e4b"
}
}
자동완성에는 빠른 E4B, 채팅과 코드 생성에는 품질 좋은 26B를 분리해서 쓰는 게 가장 효율적인 조합이다.
Cursor (Custom Model)
Settings → Models → OpenAI에서 “Override Base URL”을 켜고 http://localhost:11434/v1을 입력한다. Cursor의 멀티파일 에이전트 기능(Composer)도 그대로 작동한다.
Claude Code에서 Gemma 4 쓰기
Ollama 또는 LM Studio Headless를 서버로 띄운 뒤 환경변수로 엔드포인트를 지정하면 Claude Code도 로컬 Gemma 4와 연결된다.
ANTHROPIC_BASE_URL=http://localhost:11434/v1 \
ANTHROPIC_API_KEY=local \
claude --model gemma4:26b
또는 ~/.claude/settings.json에 baseURL을 고정으로 박아 두면 매번 환경변수를 칠 필요가 없다.
비용 — 실제 숫자
| 방식 | 월 비용 (일반 개발자 기준) | 특징 |
|---|---|---|
| Claude Code Pro | $100+/월 | 최고 품질, 외부 전송 |
| Cursor Pro | $20/월 + API 초과 | 멀티 모델, 외부 전송 |
| Gemma 4 로컬 | 전기세 ~$2~5/월 | 무료, 코드 외부 전송 없음 |
RTX 3080 기준 하루 4~6시간 코딩 사용 시 전기세는 월 2~5달러 수준이다. 단점도 분명하다. GPU를 코딩 에이전트가 점유하기 때문에 게임이나 영상 렌더링 같은 다른 GPU 집약 작업은 동시에 하기 어렵다.
로컬이 잘 맞는 작업, 클라우드가 잘 맞는 작업
로컬 Gemma 4가 빛나는 영역은 속도와 보안이다. 코드 자동완성과 인라인 제안처럼 응답 속도가 중요한 작업, 외부 전송이 금지된 보안 민감 코드, 반복적인 보일러플레이트 생성, 개인 프로젝트의 잦은 소규모 편집 — 이 네 가지가 대표적이다.
반대로 클라우드 API가 여전히 우위인 영역도 있다. Claude Opus 4.6 수준의 추론이 필요한 복잡한 아키텍처 설계, 수만 줄짜리 코드베이스 전체 리팩토링, 8시간짜리 자율 에이전트 실행. 이 작업들은 글로벌 서버 자원과 최상위 모델이 필요하다. 둘을 함께 쓰는 하이브리드 구성이 현실적인 답이다.
한국 개발자에게 의미
월 구독비 부담이 있는 개인 개발자, 그리고 외부 AI API 사용이 막혀 있는 기업 환경 — 두 그룹이 가장 큰 수혜자다. Gemma 4 26B의 코딩 성능은 Claude Sonnet 3.5 수준으로 평가받고 있어, 일상적인 코딩 작업에서는 충분한 품질이 나온다.
지금 할 일
가장 빠른 시작은 ollama.com에서 Ollama를 설치하고 6GB VRAM이면 충분한 E4B 버전을 한 번 띄워 보는 것이다. 평소 자주 쓰는 코드 한 조각을 그대로 던져 봐서 응답 품질이 본인 작업에 맞는지 확인한 다음, 26B로 올리고 Continue.dev나 Cursor에 연결해 본다. 회사 코드를 외부로 보낼 수 없는 환경이라면 이 구성 자체가 새로운 개발 환경의 출발점이다.






