구글 8세대 TPU 2종 공개, 학습용 8t·추론용 8i로 역할 분리

구글이 Google Cloud Next에서 8세대 TPU를 공개했다. 단일 칩이 아니라 대규모 학습 전용 TPU 8t와 실시간 추론 전용 TPU 8i, 두 가지 아키텍처로 나뉜다. 엔비디아 GPU 의존도를 낮추는 수직 통합 전략의 일환이다.

학습과 추론을 왜 칩부터 분리했나

이전 세대 TPU는 학습과 추론을 단일 설계로 처리했다. 8세대부터는 역할을 아예 나눴다.

- TPU 8t: 대규모 모델 학습 전용. 높은 메모리 대역폭과 연산 밀도 최적화 - TPU 8i: 실시간 추론 전용. 지연 시간과 비용 효율 중심 설계

두 작업의 요구 사양이 근본적으로 다르다는 판단에서 나온 아키텍처 분리다. AI 추론 비용이 서비스 단가에 직결되는 시점에서, 추론 전용 칩은 단가 구조를 바꾸는 핵심 변수가 된다.

Google Cloud 사용자에게 언제 체감되나

TPU 8i 기반 추론이 Vertex AI·Gemini API에 적용되기 시작하면, Google Cloud를 쓰는 한국 사용자가 가장 먼저 속도와 가격 변화를 체감할 위치에 있다. 구체적인 출시 일정과 가격 변경 내용은 아직 공개되지 않았다. 엔비디아 GPU 대신 TPU 8i로 추론이 처리되는 비율이 높아질수록 비용 절감 효과가 현실화될 수 있다.

Google Cloud 사용 중이라면 지금 확인할 것

Vertex AI 또는 Gemini API를 현재 사용 중이라면 Google Cloud 공식 블로그와 Cloud Next 발표 자료에서 TPU 8i 기반 추론 서비스 출시 일정을 확인하라. 속도·가격 변경 공지 구독을 설정해두면 비용 재검토 시점을 놓치지 않는다.

구글 8세대 TPU 2종 공개, 학습용 8t·추론용 8i로 역할 분리

The Lead

학습과 추론을 왜 칩부터 분리했나

Google Cloud 사용자에게 언제 체감되나

Google Cloud 사용 중이라면 지금 확인할 것

Public Discussion

토론