Claude Codeのクォータが20倍も蒸発、公式は「節約して使って」と発言

区块律动BlockBeats

特邀专栏作者

2026-04-03 11:00

この記事は約2564文字で、全文を読むには約4分かかります

Claude Codeキャッシュバグ全記録

AI要約

展開

核心的な見解：AnthropicのClaude Codeツールには28日間続いたキャッシュバグがあり、ユーザーがセッションを再開する際にキャッシュを効果的に利用できず、API呼び出しコストが10～20倍に急増した。しかし、公式の回答は過剰請求を認めておらず、代わりにユーザーに機能をダウングレードして使用することでクォータを節約するよう提案している。
重要な要素：
1. 独立したモニタリングデータによると、バグが存在した期間中、Claude Codeのキャッシュ読み取り率はわずか4～17％で、正常時の97～99％を大きく下回り、セッションを再開するたびに全額が課金されていた。
2. このバグは3月4日に導入され、4月1日に修正されるまで、20のバージョンにわたって存在し、プロモーション活動によって一時的に問題が隠されていた。プロモーション終了後、ユーザーのクォータ消費問題が一斉に表面化した。
3. ユーザーレポートによると、サブスクリプションユーザーの月間クォータが極めて短時間で枯渇しており、例えばMax 20xプランのユーザーは、5時間のローリングウィンドウが19分で完全に使い切られたケースがある。
4. Anthropicのエンジニアは調査後、ピーク時の制限強化を認めたが、バグによる過剰請求は否定し、ユーザーにモデルのダウングレードや高度な機能のオフを推奨して使用量を節約するよう提案したのみである。
5. 公式の回答と修正記録には矛盾があり、修正バージョンv2.1.90はキャッシュの無効化と全額課金を引き起こすバグを明確に修正しているが、公式のコミュニケーションではこの課金異常について言及されていない。

4-17%。これは過去1ヶ月間のClaude Codeのプロンプトキャッシュ読み取り率です。通常の水準は97-99%です。

これは、以前のセッションを再開する際に、Claude Codeが既に処理済みのコンテキストを再利用せず、毎回最初からすべての内容を処理していることを意味し、消費されるクォータは通常の10倍から20倍になります。あなたは会話を続けていると思っていますが、実際には毎回新しく、全額の会話を一から始めているのです。

この数字は独立系開発者ArkNillによるプロキシモニタリングの実測結果に基づいています。彼は透過プロキシを設定し、Claude CodeとAnthropic API間のすべてのリクエストを記録し、少なくとも2つのクライアント側キャッシュバグが原因でAPIサーバーがキャッシュ済みの会話プレフィックスを照合できず、毎回完全なトークン再構築を余儀なくされていることを発見しました。

上の図は、3つの段階におけるキャッシュ読み取り率の比較を示しています。v2.1.69からv2.1.89の期間（つまりバグ存在期間）、スタンドアロン版のキャッシュ読み取り率はわずか4-17%でした。v2.1.90で重要なバグの1つが修正された後、コールドスタート時のキャッシュ読み取り率は47-99.7%に戻りました。v2.1.91では、安定稼働下でのキャッシュ読み取り率が97-99%に回復しました。

グラフの詳細で注目すべき点は、v2.1.90の範囲が非常に広いこと（47%から99.7%）です。これは、セッションが再開された直後はキャッシュを「ウォームアップ」する必要があり、最初の数ラウンドのヒット率は低いものの、すぐに正常な水準に戻るためです。一方、バグバージョンでは、このウォームアップは決して発生しません——キャッシュ読み取りはシステムプロンプトの14,500トークンで永久に留まり、すべての会話履歴は毎回全額で課金されます。

28日間、20バージョン

このバグは、あるアップデートで導入され、次のアップデートで修正されるような類のものではありませんでした。npmレジストリの公開記録によると、バグを導入したv2.1.69は3月4日にリリースされ、バグを修正したv2.1.90は4月1日にリリースされました。その間は28日間、20バージョンにまたがっていました。

タイムラインは興味深い詳細を明らかにしています。3月4日にバグが導入された後、ユーザーからの大規模な苦情はすぐには発生しませんでした。苦情が集中して発生したのは3月23日で、その間には約3週間の隔たりがありました。その理由は、GitHub issue #41930の整理によると、3月13日から28日にかけてAnthropicが2倍クォータプロモーション（オフピーク時間帯に倍増）を実施しており、これが客観的にバグの影響を隠していたためです。プロモーション終了後、キャッシュバグによる消費は通常の課金ベースラインに戻り、ユーザーのクォータは瞬時に「蒸発」しました。

Anthropicの対応は迅速ではありませんでした。3月26日、つまりユーザーの苦情が発生してから3日後、エンジニアのThariq Shihiparが個人のXアカウントで、ピーク時間帯（太平洋時間の平日午前5時から午前11時）の制限が引き締められたことを発表しました。3月30日、AnthropicはRedditで「ユーザーが予想をはるかに超える速さで制限に達している」ことを認め、チームの最優先事項として扱っていると述べました。4月1日になってようやく、チームメンバーのLydia Hallieが正式な調査結果を発表しました。

この過程全体を通じて、Anthropicはブログ記事の公開、メール通知の送信、ステータスページの更新を一切行いませんでした。すべての公式コミュニケーションは、エンジニアの個人ソーシャルメディア投稿と少数のRedditコメントを通じてのみ行われました。

あなたはいくら払って、どれだけ使えるのか？

GitHub issue #41930には、数百件のユーザーレポートが集められています。最も極端なケースは、Max 20xサブスクリプションユーザー（月額200ドル）で、彼の5時間ローリングウィンドウは19分以内に完全に枯渇しました。Max 5xユーザー（月額100ドル）は、5時間ウィンドウが90分以内に使い切られたと報告しています。The Letter Twoの報道によると、ユーザーの中には、単純な「hello」という一言でセッションクォータの13%を消費したと主張する者もいました。Proユーザー（月額20ドル）はDiscordで、自分のクォータは「毎週月曜日に使い切り、土曜日にリセットされる」ため、30日間のうち正常に使用できたのは12日間だけだったと述べています。

ArkNillのベンチマークテストによると、バグバージョンv2.1.89では、Max 20xプランの100%クォータは約70分で枯渇します。彼はまた、500Kトークンのコンテキストを持つセッションに対する単一の--resume操作のクォータコストを測定し、約0.15ドルであるとしました。これは、システムがコンテキスト全体を完全に再生するためです。

「あなたの使い方が間違っている」

Lydia Hallieの調査結果は、2点を確認しました。1つはピーク時間帯の制限が実際に引き締められたこと、もう1つは100万トークンコンテキストのセッション消費が増大したことです。彼女はチームがいくつかのバグを修正したと述べましたが、「過剰請求を引き起こしたバグは1つもない」と強調しました。

その後、彼女は4つの節約提案を行いました：

1. OpusではなくSonnet 4.6を使用すること（Opusの消費速度は約2倍）；

2. 深い推論が必要ない場合は、推論強度を下げるかextended thinkingをオフにすること；

3. 1時間以上放置された長いセッションは再開せず、新しく開始すること；

4. 環境変数CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000を設定してコンテキストウィンドウサイズを制限すること。

いかなる形式の制限リセットや補償にも言及しませんでした。

AIポッドキャスト司会者のAlex Volkovは、この対応を「あなたの使い方が間違っている」（You're holding it wrong）と要約し、Anthropic自身が100万トークンコンテキストをデフォルトに設定し、Opusをフラッグシップモデルとして宣伝し、extended thinkingを売りにしておきながら、今になって有料ユーザーにこれらの機能を使用しないよう提案していると指摘しました。

「過剰請求はない」という主張は、Claude Code自身の更新記録とも矛盾しています。Lydiaが回答を発表する前日、v2.1.90はv2.1.69から存在していたキャッシュのリグレッションバグを修正しました：--resumeを使用してセッションを再開する際、キャッシュヒットするはずのリクエストが完全なプロンプトキャッシュミスを引き起こし、全額で課金されていました。Lydiaの回答では、この確認済みの課金異常について言及されていませんでした。

対照的に、OpenAIのCodexも以前に同様のクォータ異常消費問題を経験しました。OpenAIの対応は、ユーザーのクォータをリセットし、クレジットを補填し、3月にCodexの使用上限を撤廃すると発表することでした。Anthropicの対応は、ユーザーにモデルのダウングレード、機能のオフ、コンテキストの制限を提案し、その責任をユーザーの使用法に帰するものでした。

Anthropicが販売しているのは「最強モデル + 最大コンテキスト + 最高推論能力」のサブスクリプションであり、請求しているのは月額20ドルから200ドルの費用です。28日間にわたるキャッシュバグにより、有料ユーザーのクォータは10〜20倍の速度で蒸発し、公式の回答は「節約して使ってください」というものでした。