Meta, Graviton5 수천만 코어 계약, 에이전트가 CPU를 잡아먹는다

Meta가 AWS와 수십억 달러 규모 다년 계약을 맺고 Graviton5 CPU 코어 수천만 개를 확보했다. GPU가 아니다. 에이전트 추론이 인프라 병목의 위치를 바꾸고 있다.

에이전트는 왜 CPU를 쓰는가

에이전트 추론(Agentic inference)은 GPU만으로 돌아가지 않는다. 에이전트가 도구를 호출하고, 결과를 판단하고, 다음 단계를 결정하는 오케스트레이션 루프는 CPU에서 처리된다. GPU는 모델 추론 순간에만 집중하지만, 그 사이를 잇는 반복 루프는 CPU를 지속적으로 점유한다.

기존 AI 인프라는 학습과 단발 추론 중심으로 설계됐기 때문에 GPU 비중이 압도적이었다. 에이전트 워크로드는 이 구조를 흔든다. Tom's Hardware는 Meta의 이번 계약을 'CPU 부족(CPU shortage)'의 신호로 해석했다. GPU 병목이 어느 정도 완화되자 CPU가 다음 제약 자원으로 부상했다는 것이다.

내가 만드는 에이전트에서 비용은 어디서 나오는가

Meta 수준의 인프라 계약이 내 에이전트와 무슨 상관이냐고 할 수 있다. 직접 관련이 있다. LangGraph, CrewAI 같은 에이전트 프레임워크에서 오케스트레이션 레이어가 두꺼울수록 API 호출 비용 외에 숨은 비용이 생긴다.

- 도구 호출 반복 횟수: 에이전트가 한 태스크에 도구를 몇 번 호출하는지가 비용의 핵심 변수다 - 컨텍스트 누적: 루프가 돌수록 컨텍스트 길이가 늘어나고 토큰 비용이 증가한다 - 오케스트레이션 레이턴시: CPU 처리 대기가 길어지면 에이전트 응답 속도 전체가 느려진다

Meta가 수십억 달러를 CPU에 쓰는 이유는 이 오케스트레이션 비용을 제어하기 위해서다. 소규모 빌더에게 이것은 프레임워크 선택과 에이전트 루프 설계가 비용 구조를 결정한다는 뜻이다.

내 에이전트의 숨은 비용을 미리 확인해보자

지금 쓰는 에이전트 프레임워크(LangGraph, CrewAI 등)의 GitHub 이슈나 공식 문서에서 'orchestration overhead' 또는 'CPU usage' 키워드를 검색해보자. 도구 호출 횟수와 컨텍스트 누적이 실제 운영 비용에 어떻게 반영되는지 확인하면, 설계 단계에서 루프를 얼마나 짧게 만들어야 하는지 판단할 수 있다.

Meta, Graviton5 수천만 코어 계약, 에이전트가 CPU를 잡아먹는다

The Lead

에이전트는 왜 CPU를 쓰는가

내가 만드는 에이전트에서 비용은 어디서 나오는가

내 에이전트의 숨은 비용을 미리 확인해보자

Public Discussion

토론