[태그:] AI 칩

  • Google TPU 8i·8t 발표 완전 정리 — 추론·학습 분리 시대, NVIDIA 60% 점유율 흔들기

    Google TPU 8i·8t 발표 완전 정리 — 추론·학습 분리 시대, NVIDIA 60% 점유율 흔들기

    TL;DR: Google이 Cloud Next ’26에서 추론 전용 TPU 8i와 학습 전용 TPU 8t를 동시 발표했다. 같은 칩을 두 용도에 쓰던 시대가 끝나고, 워크로드별 분리 시대가 열린다. NVIDIA가 60% 점유한 AI 컴퓨팅 시장에 Google이 가장 공격적인 카드를 꺼냈다.

    Google이 4월 22일 Cloud Next ’26에서 7세대 TPU 한 개가 아니라 8i(추론용)와 8t(학습용) 두 개를 동시 공개했다. 이는 단순 세대 업그레이드가 아니라, “AI 인프라 워크로드를 추론과 학습으로 분리해 별도 최적화한다”는 큰 전략의 첫 신호다 (2026년 4월, Virtualization Review 기준). Anthropic이 Google·Broadcom과 3.5GW TPU 계약을 맺은 직후의 후속 카드라, 한국 기업의 클라우드 선택 기준이 다시 흔들릴 시점이다.

    TPU 8t: 학습 전용, 121 ExaFlops·100만 칩 클러스터

    TPU 8t는 슈퍼팟 한 개에서 121 ExaFlops 컴퓨팅 파워와 2 페타바이트 고대역폭 메모리(HBM)를 제공하며, 단일 논리 클러스터에서 100만 칩까지 거의 선형으로 확장 가능하다. 이전 세대 대비 저장소 접근 속도가 10배 빨라졌다 (2026년 4월, Virtualization Review 기준).

    이를 묶는 네트워크는 Virgo Network로, 47 페타비트/초의 논블로킹 양방향 대역폭으로 134,000개 TPU 8t를 단일 클러스터로 연결한다. 학습 단계에서 가장 큰 병목인 GPU 간 통신을 광학 네트워크로 풀어내는 시도다.

    TPU 8i: 추론 전용, 가성비 80% 향상

    TPU 8i는 추론 전용으로 설계됐다. 칩당 288GB HBM과 384MB 온칩 SRAM을 갖춰, 이전 세대 대비 성능 대비 가격이 80% 향상됐다. Mixture of Experts(MoE) 모델에 특화된 19.2 Tb/s 인터커넥트 대역폭은 이전 세대의 2배이며, 온칩 지연시간은 최대 5배 줄었다 (Virtualization Review).

    항목 TPU 8t (학습) TPU 8i (추론)
    핵심 성능 슈퍼팟 121 ExaFlops 가성비 +80%
    메모리 슈퍼팟 2 PB HBM 칩당 288 GB HBM + 384 MB SRAM
    인터커넥트 Virgo 47 Pb/s 19.2 Tb/s (MoE 최적화)
    확장성 100만 칩 단일 클러스터 온칩 지연 최대 5배 감소

    왜 추론과 학습을 분리하나

    학습은 거대한 클러스터에서 며칠~몇 주에 걸쳐 도는 워크로드, 추론은 사용자 요청마다 즉각 응답해야 하는 워크로드다. 두 작업의 최적 메모리 구조·전력 소비·인터커넥트 패턴이 완전히 다른데, 지금까지 같은 GPU/TPU에 모두 의존하면서 비효율이 누적돼 왔다.

    Google의 분리 전략이 의미하는 것: 추론용 인프라가 별도로 최적화되면, ChatGPT·Claude·Gemini 같은 서비스의 단가가 의미 있게 떨어진다. Stanford AI Index 2026에 따르면 NVIDIA가 전체 AI 컴퓨팅 용량의 60% 이상을 차지하는데(IEEE Spectrum), Google이 이 균형을 흔드는 가장 큰 카드가 TPU 8i다.

    Anthropic·Gemini Enterprise와 묶인 큰 그림

    이번 발표는 단독이 아니다. Google은 같은 자리에서 Gemini Enterprise Agent Platform, Agentic Data Cloud, GKE Agent Sandbox, C4N·M4N 크로스클라우드 VM 계열까지 한꺼번에 공개했다. 모두 “추론 워크로드를 받아낼 그릇”이다 (The Register).

    한 달 전 Anthropic이 Google·Broadcom과 3.5GW 규모 TPU 계약을 발표한 것(Post 479)이 이번 칩 라인업과 정확히 맞물린다. Claude가 NVIDIA 의존을 줄이고 TPU로 단가를 낮추겠다는 뜻이고, 그 결과 Claude API 가격이 향후 6~12개월 안에 추가 인하될 가능성이 높다.

    So What — 한국 직장인·개발자에게 무엇이 달라지나

    당장 두 가지가 바뀐다. 첫째, Gemini API 가격 경쟁력이 더 강해진다. Gemini 3.1 Pro가 이미 GPT-5.4의 1/3 단가인데(Post 488), TPU 8i가 본격 가동되면 추가 인하 여지가 생긴다. 둘째, 한국 기업이 클라우드 선택할 때 “GCP가 NVIDIA에 덜 묶여 있다”는 새 변수가 생긴다 — 미국 수출 규제·NVIDIA 공급 부족 리스크 헷지 카드로 검토 가치가 있다.

    역으로, NVIDIA H/B/Blackwell 시리즈에 의존하는 한국 SI·클라우드 업체는 가격 압박이 거세질 전망이다. AWS Trainium·Inferentia, Microsoft Maia에 이어 Google까지 자체 칩을 본격 무기화하면서 NVIDIA 마진이 처음으로 흔들리는 분기가 시작된다.

    지금 바로 할 수 있는 것

    • Gemini API 가격 재산정: 지금 ChatGPT API 또는 Claude API 쓰는 시스템에 Gemini 3.1 Pro 단가를 다시 넣어 시뮬레이션. TPU 8i 가동 후 추가 인하 가능성까지 시나리오에 포함.
    • 클라우드 멀티벤더 검토: AWS·Azure 단일 의존인 회사라면 GCP를 추론 워크로드 전용으로 추가하는 안 검토. NVIDIA 공급 리스크 헷지 명분으로 의사결정자 설득 가능.
    • Google Cloud Next ’26 세션 다시보기: Google Cloud 공식 블로그에서 발표 영상·기술 문서 확인. 인프라 담당자라면 TPU 8i 벤치마크 페이지 북마크.

    자주 묻는 질문

    Q. 한국에서 TPU 8i·8t 직접 이용 가능한가?
    GCP의 한국 리전(서울)에 우선 배치되는지는 미발표. 일반적으로 Google은 미국 리전부터 출시 후 단계적 확장하므로, 한국에서는 us-central·asia-east 리전을 통한 원격 사용이 6~12개월간 우선 옵션일 가능성이 높다.

    Q. NVIDIA H100·B200과 가격 비교는?
    Google이 공식 가격을 발표하지 않아 직접 비교는 불가. 단 이전 세대 TPU v5p가 NVIDIA H100 대비 학습 워크로드에서 약 30~40% 저렴하다는 분석이 있어, 8세대도 비슷한 수준의 가성비를 유지할 가능성이 높다.

    Q. Anthropic이 TPU에 의존하면 Claude 안정성에 영향은?
    Anthropic은 NVIDIA·AWS Trainium·Google TPU의 멀티 벤더 전략을 명시했다. TPU 8t·8i 도입은 비용 측면 카드이며 단일 의존이 아니므로, Claude 가용성에 직접 위험은 낮다.

    Q. Mixture of Experts(MoE)에 특화됐다는 건 무슨 뜻인가?
    GPT-4o·Claude·DeepSeek V4 같은 최신 모델은 MoE 구조를 쓴다. 모델의 일부 “전문가” 모듈만 호출되는데, 이때 칩 간 통신이 폭증한다. TPU 8i의 19.2 Tb/s 인터커넥트는 이 통신 병목을 줄여 추론 속도를 끌어올린다.

    관련 글

    출처

← hol4b.com