Claude Code 할당량이 20배 증발, 공식은 "아껴 쓰세요"라고 말하다
- 핵심 요점: Anthropic의 Claude Code 도구에 28일 동안 지속된 캐시 버그가 존재하여, 사용자가 세션을 복원할 때 캐시를 효과적으로 활용하지 못하고 API 호출 비용이 10-20배 급증했으나, 공식 답변은 과다 청구를 인정하지 않고 기능 사용을 다운그레이드하여 할당량을 절약하도록 권고했습니다.
- 핵심 요소:
- 독립 모니터링 데이터에 따르면, 버그 존재 기간 동안 Claude Code의 캐시 읽기 비율은 정상 수준인 97-99%에 비해 훨씬 낮은 4-17%에 불과하여, 세션을 복원할 때마다 전액 요금이 부과되었습니다.
- 이 버그는 3월 4일 도입되어 4월 1일 수정될 때까지 20개 버전에 걸쳐 존재했으며, 이 기간 동안 프로모션 활동으로 인해 문제가 일시적으로 가려졌고, 프로모션 종료 후 사용자 할당량 소모 문제가 집중적으로 폭발했습니다.
- 사용자 보고에 따르면, 구독 사용자의 월간 할당량이 극히 짧은 시간 내에 소진되었습니다. 예를 들어, Max 20x 플랜 사용자의 5시간 롤링 윈도우가 19분 만에 완전히 소진되었습니다.
- Anthropic 엔지니어는 조사 후 피크 시간대 제한이 강화되었음을 인정했으나, 버그로 인한 과다 청구는 부인했으며, 모델 다운그레이드, 고급 기능 비활성화를 통해 사용량을 절약하도록만 권고했습니다.
- 공식 답변과 수정 기록 간에 모순이 존재합니다. 수정 버전 v2.1.90은 캐시 무효화 및 전액 청구를 초래한 버그를 명확히 수정했으나, 공식 커뮤니케이션에서는 이 청구 이상에 대해 언급하지 않았습니다.
4-17%. 이것은 지난 한 달 동안 Claude Code의 프롬프트 캐시 적중률입니다. 정상 수준은 97-99%입니다.
이는 이전 세션을 복원할 때, Claude Code가 이미 처리된 컨텍스트를 재사용하지 않고 매번 처음부터 전체 내용을 처리했음을 의미하며, 소모된 할당량은 정상적인 경우의 10배에서 20배에 달합니다. 당신은 대화를 이어간다고 생각하지만, 실제로는 매번 완전히 새로운, 정가를 지불하는 대화를 다시 시작하고 있는 것입니다.

이 수치는 독립 개발자 ArkNill의 프록시 모니터링 실측 데이터에서 나왔습니다. 그는 투명 프록시를 설정하여 Claude Code와 Anthropic API 간의 모든 요청을 기록했고, API 서버가 캐시된 대화 접두사를 매칭할 수 없게 만드는 최소 두 개의 클라이언트 측 캐시 버그를 발견했습니다. 이로 인해 매 라운드마다 완전한 토큰 재구성이 강제되었습니다.

위 그림은 세 단계의 캐시 적중률 대비를 보여줍니다. v2.1.69부터 v2.1.89까지(즉 버그 존재 기간) standalone 버전의 캐시 적중률은 고작 4-17%에 불과했습니다. v2.1.90에서 핵심 버그 중 하나를 수정한 후, 콜드 스타트 캐시 적중률은 47-99.7%로 돌아왔습니다. v2.1.91에 이르러 안정적으로 실행 중인 상태의 캐시 적중률은 97-99%로 회복되었습니다.
차트에서 주목할 만한 세부 사항은 v2.1.90의 범위가 매우 넓다는 점(47%에서 99.7%)입니다. 이는 세션이 방금 복원되었을 때 캐시를 '예열'해야 하기 때문으로, 처음 몇 라운드의 적중률은 낮지만 곧 정상 수준으로 돌아옵니다. 그러나 버그 버전에서는 이 예열이 절대 발생하지 않습니다. 캐시 적중은 시스템 프롬프트의 14,500 토큰에서 영원히 멈추고, 모든 대화 기록은 매번 정가로 청구됩니다.
28일, 20개 버전
이 버그는 한 번의 업데이트에서 도입되고 다음 업데이트에서 수정되는 그런 종류가 아닙니다. npm 레지스트리의 릴리스 기록에 따르면, 버그를 도입한 v2.1.69은 3월 4일에 출시되었고, 버그를 수정한 v2.1.90은 4월 1일에 출시되었습니다. 그 사이에는 28일의 간격이 있었고, 20개의 버전을 걸쳐 있었습니다.

타임라인은 흥미로운 세부 사항을 드러냅니다. 3월 4일 버그가 도입된 후, 사용자들은 즉시 대규모로 불만을 제기하지 않았습니다. 3월 23일에 이르러서야 불만이 집중적으로 폭발했는데, 그 사이에 거의 3주가 걸렸습니다. 그 이유는 GitHub 이슈 #41930의 정리에 따르면, 3월 13일부터 28일까지 Anthropic이 2배 할당량 프로모션(비피크 시간대 2배)을 진행했기 때문으로, 이는 객관적으로 버그의 영향을 가렸습니다. 프로모션이 끝난 후, 캐시 버그로 인한 소모가 정상적인 과금 기준선으로 돌아오자, 사용자들의 할당량은 순식간에 '증발'했습니다.
Anthropic의 대응은 빠르지 않았습니다. 3월 26일, 즉 사용자 불만이 폭발한 지 3일 후, 엔지니어 Thariq Shihipar가 개인 X 계정을 통해 피크 시간대(주중 태평양 표준시 오전 5시-11시)의 한도가 조여졌다고 발표했습니다. 3월 30일, Anthropic은 Reddit에서 '사용자들이 예상보다 훨씬 빠르게 한도에 도달하고 있다'고 인정하며, 이를 팀의 최우선 과제로 삼았다고 밝혔습니다. 4월 1일에 이르러서야 팀 멤버 Lydia Hallie가 공식적인 조사 결론을 발표했습니다.
전체 과정에서 Anthropic은 블로그 게시물을 발표하지 않았고, 이메일 알림을 보내지 않았으며, 상태 페이지를 업데이트하지 않았습니다. 모든 공식 소통은 엔지니어들의 개인 소셜 미디어 게시물과 소수의 Reddit 댓글을 통해서만 이루어졌습니다.
당신은 얼마를 지불했고, 얼마나 사용할 수 있었나요?
GitHub 이슈 #41930에는 수백 건의 사용자 보고가 모였습니다. 가장 극단적인 사례는 Max 20x 구독자($200/월)로, 그의 5시간 롤링 윈도우가 19분 만에 완전히 소진되었습니다. Max 5x 사용자($100/월)는 5시간 윈도우가 90분 만에 소진되었다고 보고했습니다. The Letter Two의 보도에 따르면, 단순한 'hello' 한 마디가 세션 할당량의 13%를 소모했다는 사용자도 있었습니다. 한 Pro 사용자($20/월)는 Discord에서 자신의 할당량이 '매주 월요일에 다 쓰이고, 토요일에야 리셋된다'며, 30일 중 단 12일만 정상적으로 사용할 수 있었다고 말했습니다.

ArkNill의 벤치마크 테스트에 따르면, 버그 버전 v2.1.89에서 Max 20x 플랜의 100% 할당량은 약 70분 내에 소진됩니다. 그는 또한 500K 토큰 컨텍스트 세션에 대한 단일 --resume 작업의 할당량 비용을 측정했는데, 시스템이 전체 컨텍스트를 완전히 재생하기 때문에 약 $0.15에 달했습니다.
'당신이 사용하는 방식이 틀렸어요'
Lydia Hallie의 조사 결론은 두 가지를 확인했습니다. 첫째, 피크 시간대 한도가 실제로 조여졌다는 점, 둘째, 100만 토큰 컨텍스트 세션의 소모량이 증가했다는 점입니다. 그녀는 팀이 몇 가지 버그를 수정했다고 밝혔지만, '어떤 버그도 추가 과금을 유발하지 않았다'고 강조했습니다.
이어 그녀는 할당량 절약을 위한 네 가지 조언을 제시했습니다:
1. Opus 대신 Sonnet 4.6을 사용하라(Opus의 소모 속도는 약 두 배);
2. 깊은 추론이 필요하지 않을 때는 추론 강도를 낮추거나 확장 사고(extended thinking)를 끄라;
3. 1시간 이상 방치된 긴 세션은 복원하지 말고 새로 시작하라;
4. 환경 변수 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000을 설정하여 컨텍스트 창 크기를 제한하라.
어떤 형태의 한도 리셋이나 보상에 대해서는 언급하지 않았습니다.
AI 팟캐스트 진행자 Alex Volkov는 이 응답을 '당신이 사용하는 방식이 틀렸어요'(You're holding it wrong)로 요약하며, Anthropic이 스스로 100만 토큰 컨텍스트를 기본값으로 설정하고, Opus를 플래그십 모델로 홍보하고, 확장 사고를 판매 포인트로 내세웠으면서, 이제는 유료 사용자에게 그 기능들을 사용하지 말라고 조언한다고 지적했습니다.
'추가 과금이 없었다'는 주장은 Claude Code 자체의 업데이트 기록과도 긴장 관계가 있습니다. Lydia가 응답을 발표하기 하루 전, v2.1.90은 v2.1.69부터 존재해 온 캐시 회귀 버그를 수정했습니다: --resume으로 세션을 복원할 때, 캐시에 적중해야 할 요청이 완전한 프롬프트 캐시 미스(캐시 누락)를 유발하여 정가로 청구되었습니다. Lydia의 응답에는 이 확인된 과금 이상에 대한 언급이 없었습니다.

대조적으로, OpenAI의 Codex도 이전에 유사한 할당량 이상 소모 문제가 발생한 적이 있습니다. OpenAI의 대응은 사용자 할당량을 리셋하고, 크레딧을 보충하며, 3월에 Codex 사용 상한을 제거한다고 발표하는 것이었습니다. Anthropic의 대응은 사용자에게 모델을 다운그레이드하고, 기능을 끄고, 컨텍스트를 제한하라고 조언하며, 책임을 사용자의 사용 방식으로 돌린 것입니다.
Anthropic이 판매하는 것은 '최강 모델 + 최대 컨텍스트 + 최고 추론 능력' 구독이고, 받는 것은 월 20달러에서 200달러의 요금입니다. 28일 동안 지속된 캐시 버그 하나가 유료 사용자의 할당량을 10-20배 속도로 증발시켰고, 공식 응답은 아껴서 쓰라는 것입니다.


