Grok Build 베타 출시 / xAI 코딩 에이전트 Arena Mode·로컬 우선

TL;DR: xAI가 코딩 에이전트 Grok Build 베타를 4월 22일 공개했다. 8개 에이전트를 동시에 굴려 가장 좋은 결과를 뽑는 Arena Mode와, 코드를 xAI 서버로 보내지 않는 로컬-퍼스트 구조가 핵심이다. Claude Code·Codex·Cursor 3 사용자가 보안 민감한 코드용 보조 카드로 더해볼 만한 도구다.

Grok Build가 마침내 베타로 풀렸다. 일론 머스크가 4월 16일 “다음 주 출시”를 예고한 뒤 (2026년 4월 17일, TestingCatalog 기준), 일주일 만인 4월 22일 베타가 공개됐다. Claude Code·OpenAI Codex·Cursor 3가 이미 시장을 나눠 먹고 있는 코딩 에이전트 판에 xAI가 던진 카드는 무엇인지, 한국 개발자가 지금 도입을 고민할 가치가 있는지 정리한다.

Grok Build는 무엇이고 왜 다른가

Grok Build는 코드를 자기 머신에서만 실행하는 로컬-퍼스트 CLI 코딩 에이전트다. 자연어로 작업을 설명하면 계획(Plan) → 검색(Search) → 빌드(Build) 3단계 워크플로우로 코드를 생성·실행한다 (2026년 4월, Adwait 분석 기준). 가장 큰 차별점은 두 가지다.

로컬-퍼스트 아키텍처: 모든 코드 실행이 개발자 머신에서 일어나고, 소스코드는 xAI 서버로 전송되지 않는다. 모든 액션이 실행 전에 감사·승인 가능하며, 파일·스크립트·네트워크 단위로 권한을 나눠줄 수 있다.
설치는 npm 한 줄: npm install -g grok-build 후 grok-build init으로 시작. 별도 IDE 설치가 필요 없다.

지원 언어는 TypeScript, Python, Java, Rust, C++, Go 6개로, 백엔드부터 시스템 프로그래밍까지 한국 실무에서 자주 쓰는 스택을 모두 포함한다.

Arena Mode: 8개 에이전트가 동시에 같은 문제를 푼다

Arena Mode는 Grok Build의 가장 독특한 기능으로, 최대 8개의 코딩 에이전트가 동일한 작업을 병렬로 풀어낸 뒤 알고리즘이 자동 평가해 순위를 매긴다. 모든 에이전트의 응답이 컨텍스트를 추적하는 세션에서 나란히 표시되어, 사람이 손으로 결과를 비교할 필요가 없다 (2026년 4월, Adwait 기준).

구조는 단순하다. “이 함수 리팩터링해줘”를 한 번 던지면 8개 에이전트가 각자 다른 접근으로 작성한 결과 중 최상위가 추천된다. Cursor 3의 Agents Window가 사용자가 수동으로 워크트리·SSH·클라우드를 골라 분기시키는 것과 달리, Arena Mode는 평가까지 자동화한다는 점이 다르다.

모델·가격: grok-code-fast-1, API 입력 $0.20/1M

Grok Build의 엔진인 grok-code-fast-1은 SWE-Bench Verified에서 70.8%를 기록했고, API 가격은 입력 $0.20/1M, 출력 $1.50/1M, 캐시 입력 $0.02/1M이다 (2026년 4월, TestingCatalog 기준). 컨텍스트 창은 256K로, Claude Sonnet 4.6의 200K보다 크고 Gemini 3.1 Pro의 1M보다는 작다.

도구	입력 $/1M	출력 $/1M	SWE-Bench Verified	실행 위치
grok-code-fast-1	$0.20	$1.50	70.8%	로컬
Claude Sonnet 4.6	$3.00	$15.00	~77%	클라우드
GPT-5.4	$1.25	$10.00	~74%	클라우드

가격만 놓고 보면 Grok Build가 압도적으로 싸다. Claude Sonnet 4.6의 입력 단가 1/15, GPT-5.4의 1/6 수준이다. 단 SWE-Bench 점수는 Claude Sonnet 4.6보다 6% 정도 낮아, 복잡한 멀티 파일 리팩터링에서는 차이가 날 가능성이 있다. xAI는 크레딧 시스템도 준비 중이라, Claude Code·Codex처럼 구독 안에 일정 사용량을 묶고 초과분은 추가 결제하는 모델을 택할 것으로 보인다.

Claude Code·Codex·Cursor 3와 어떻게 다른가

4월 시점에서 Grok Build의 자리는 “보안이 중요한 코드용 보조 카드”다. 동일 카테고리 도구들과 비교하면 다음과 같다.

vs Claude Code: Claude Code는 코드를 Anthropic 클라우드로 보내고 거기서 실행한다. Grok Build는 로컬 실행이라 사내망·고객 데이터 다루는 코드에 더 안전하다. 대신 Claude의 에이전트 협업·MCP 생태계는 아직 못 따라온다.
vs OpenAI Codex CLI: Codex도 로컬 실행이지만 GPT-5.4·5.5 가격이 더 비싸다. Grok Build는 단가 우위가 명확하다.
vs Cursor 3: Cursor 3는 IDE 통합과 Agents Window가 강점. Grok Build는 IDE 없이 터미널만 쓰는 환경에서 강하다.

So What — 한국 개발자에게 무엇이 달라지나

지금까지 사내망 보안 정책 때문에 Claude Code·Cursor를 도입 못 했던 팀에 새 옵션이 생겼다. 코드가 외부로 나가지 않는다는 보장 + 단가 1/15는, 금융·공공·대기업 SI 환경에서 기존 코딩 에이전트를 검토조차 못 했던 사람들에게 처음으로 “도입 검토표 채울 만한” 도구가 된 것이다.

다만 베타 단계라 안정성은 검증 필요. 메인 도구로 갈아타기보다, Claude Code·Codex 쓰던 환경 옆에 놓고 “보안 민감 프로젝트 전용”으로 쓰는 그림이 현실적이다.

지금 바로 할 수 있는 것

설치 테스트: npm install -g grok-build 후 grok-build init으로 더미 프로젝트에 띄워보기. xAI API 키 필요.
Arena Mode 검증: 회사에서 자주 쓰는 패턴(예: API 핸들러 만들기)을 Arena Mode로 8개 돌려보고, Claude Code 결과와 비교 — 실제 실무 코드에서 차이가 얼마나 나는지 확인.
보안 정책 부서와 사전 협의: “코드가 외부로 안 나간다”는 점을 근거로 도입 가능성 타진. 로컬-퍼스트 아키텍처 자료를 정리해 미리 공유.

자주 묻는 질문

Q. Grok Heavy 구독자가 아니어도 쓸 수 있나?
베타 단계라 접근 권한이 단계적으로 풀리는 중이다. xAI 대기 목록에 등록 후 API 키를 받아야 사용 가능하다.

Q. 한국어 코멘트·문서화도 잘 되나?
grok-code-fast-1은 다국어를 지원하지만, 코딩 모델 특성상 한글 자연어 지시보다는 영어 지시가 더 안정적이다. 변수명·주석은 한글 가능.

Q. 캐시 입력 단가가 $0.00이라는데 진짜 무료인가?
일부 자료에서는 $0.02/1M, 다른 자료에서는 $0.00으로 표기된다. 정식 출시 시 xAI 공식 가격표 확인 필요. 어느 쪽이든 캐시 사용시 단가가 거의 무시할 수준이라는 점은 같다.

Q. SWE-Bench 70.8%는 어느 정도 수준인가?
Claude Sonnet 4.6(약 77%) 대비 6%포인트 낮지만, 가격이 1/15라는 점을 고려하면 가성비로는 가장 앞선다. 단순 CRUD·리팩터링은 충분, 복잡한 멀티 모듈 작업은 Claude Code 병행 권장.

Grok Build 베타 출시: xAI 코딩 에이전트 8개 병렬·Arena Mode·로컬 우선 보안 한국 개발자 가이드

Grok Build는 무엇이고 왜 다른가

Arena Mode: 8개 에이전트가 동시에 같은 문제를 푼다

모델·가격: grok-code-fast-1, API 입력 $0.20/1M

Claude Code·Codex·Cursor 3와 어떻게 다른가

So What — 한국 개발자에게 무엇이 달라지나

지금 바로 할 수 있는 것

자주 묻는 질문

관련 글

출처

더 많은 게시물

Google Gemini Enterprise 통합 발표 — Inbox·A2A 1.0·Workspace Studio 한 큐에 풀스택 베팅

추론 강화할수록 AI 에이전트 환각이 늘어난다 — ICLR 2026 The Reasoning Trap 핵심 정리

Microsoft Copilot Agent Mode 정식 출시 — Word·Excel·PowerPoint 안에서 AI가 직접 작업한다

AI 에이전트 IT 헬프데스크 80% 자동 해결, ITSM 비용 절반 — Automation Anywhere 70개 기업 데이터