메타가 AWS Graviton CPU를 택한 이유, 에이전트 비용 구조가 다르다

메타가 AWS Graviton CPU를 수십억 달러 규모로 3년 계약했다. 에이전트형 AI는 단발 추론과 달리 지속적으로 돌아가는 워크로드여서 GPU보다 CPU가 비용 효율적인 경우가 생긴다.

에이전트 워크로드는 왜 CPU에 더 맞는가

메타는 AI 에이전트 구현을 위해 AWS의 자체 설계 칩 Graviton CPU를 컴퓨팅 포트폴리오에 통합한다고 발표했다. 계약 규모는 수천만 개 코어, 최소 3년이다.

이 선택의 배경은 워크로드 유형의 차이다.

단발 LLM 추론 (질문 하나 → 답변 하나): 짧고 강한 연산 — GPU가 유리
에이전트 실행 (계획 수립 → 도구 호출 → 결과 확인 → 반복): 길고 병렬적인 연산 — CPU가 비용 효율적

메타의 계약은 대형 플랫폼 수준의 결정이다. 그러나 이 방향이 시사하는 것은 빌더에게도 유효하다.

내가 만드는 AI 서비스, 비용 구조를 먼저 구분해야 한다

지금 기획 중인 AI 서비스가 '사용자가 질문하면 바로 답하는 구조'인지, '백그라운드에서 계속 작업을 수행하는 에이전트 구조'인지에 따라 클라우드 비용이 달라진다. 전자는 API 호출당 과금이 맞고, 후자는 장기 실행 인스턴스가 더 경제적일 수 있다.

메타의 Graviton 계약 규모나 실제 단가는 공개되지 않았다. 빌더 수준에서 직접 적용 가능한 수치는 소스에 없으므로, 자신의 서비스 구조에 맞는 비용 계산은 별도로 해야 한다.

내 서비스가 단발인지 에이전트인지 먼저 구분해 보자

지금 만들거나 기획 중인 AI 서비스가 '단발 질문-응답'인지 '계속 돌아가는 에이전트'인지 구분해 보자. AWS 비용 계산기(https://calculator.aws/)에서 Lambda(단발 호출)와 EC2 장기 실행 비용을 직접 비교하면 어떤 구조가 비용 효율적인지 감이 잡힌다.

메타가 AWS Graviton CPU를 택한 이유, 에이전트 비용 구조가 다르다

The Lead

에이전트 워크로드는 왜 CPU에 더 맞는가

내가 만드는 AI 서비스, 비용 구조를 먼저 구분해야 한다

내 서비스가 단발인지 에이전트인지 먼저 구분해 보자

Public Discussion

토론