Claude 200K 초과 2배 요금 사라졌다, 캐싱·배치 조합하면 얼마까지 내려가나

Anthropic이 Claude Sonnet 4.6·Opus 4.6에서 200K 토큰 초과 구간에 붙이던 2배 할증을 없앴다. 100만 토큰 전 구간이 $3/M 입력 단가로 통일됐다. 긴 문서를 처리할 때마다 비용이 갑자기 뛰던 구조가 바뀐 것이다.

캐싱·배치 조합하면 실효 비용이 얼마까지 내려가나

변경 전 구조에서는 200K 토큰을 넘는 순간 입력 단가가 $6/M까지 올라갔다. 계약서 수백 장, 긴 대화 히스토리, 법률 문서 전체를 한 번에 넣으면 비용이 예측 불가로 튀는 이유가 여기 있었다.

이제 할증이 사라졌고, 여기에 두 가지를 더 붙이면 실효 비용을 더 낮출 수 있다.

프롬프트 캐싱 : 반복 입력 구간을 재사용해 입력 비용 최대 90% 절감
배치 API : 실시간이 아닌 비동기 처리로 50% 할인

두 가지를 동시에 적용하면 실효 입력 비용이 $0.30/M까지 떨어진다. 기존 할증 구간 최대치($6/M)와 비교하면 20배 차이다. 단, 출력 토큰은 여전히 $15/M이고, 캐싱·배치는 사용 패턴이 맞아야 적용 가능하다. 매번 다른 내용을 실시간으로 처리해야 하는 경우라면 할인 효과는 제한적이다.

왜 지금 할증을 없앴나

장문 컨텍스트 처리 비용 자체가 낮아지면서 Anthropic이 프리미엄 요금 없이도 수익 구조를 유지할 수 있게 됐다는 해석이 나온다. 동시에 Gemini 1.5 Pro 등 경쟁 모델이 대용량 컨텍스트를 단일 단가로 이미 제공해온 구조와의 격차를 해소해야 하는 압박도 있었다.

Reddit r/ClaudeCode에서는 '오늘부로 기존 페널티 삭제됨'이라는 사용자 확인이 나왔다. 공식 발표가 아닌 커뮤니티 보고이므로 Anthropic 공식 가격표에서 직접 확인하는 것이 정확하다. 현재 확인된 모델은 Opus 4.6·Sonnet 4.6이며, 다른 모델에 동일 구조가 적용됐는지는 별도 확인이 필요하다.

내 프로젝트에서 직접 계산해보자

Anthropic 공식 가격표(anthropic.com/pricing)에서 Sonnet 4.6 기준으로 확인한다. 내 프로젝트에서 200K 토큰을 넘는 구간이 있는지 먼저 파악하고, 반복 입력 비율이 높으면 캐싱, 실시간 처리가 불필요하면 배치 API 적용 가능 여부를 순서대로 따져보면 된다.

Claude 200K 초과 2배 요금 사라졌다, 캐싱·배치 조합하면 얼마까지 내려가나

The Lead

캐싱·배치 조합하면 실효 비용이 얼마까지 내려가나

왜 지금 할증을 없앴나

내 프로젝트에서 직접 계산해보자

Public Discussion

토론