Claude Code Hạn Mức Bốc Hơi 20 Lần, Chính Thức Lại Nói 'Tiết Kiệm Dùng'
- Quan Điểm Cốt Lõi: Công cụ Claude Code của Anthropic tồn tại một lỗi bộ nhớ đệm kéo dài 28 ngày, khiến người dùng không thể sử dụng hiệu quả bộ nhớ đệm khi khôi phục phiên, chi phí gọi API tăng vọt 10-20 lần, nhưng phản hồi chính thức không thừa nhận tính phí quá mức, mà đề nghị người dùng tiết kiệm hạn mức bằng cách hạ cấp chức năng sử dụng.
- Yếu Tố Then Chốt:
- Dữ liệu giám sát độc lập cho thấy, trong thời gian lỗi tồn tại, tỷ lệ đọc bộ nhớ đệm của Claude Code chỉ là 4-17%, thấp hơn nhiều so với mức bình thường 97-99%, dẫn đến mỗi lần khôi phục phiên đều được tính phí theo giá đầy đủ.
- Lỗi này được đưa vào từ ngày 4/3 đến khi sửa vào ngày 1/4, trải qua 20 phiên bản, trong thời gian đó hoạt động khuyến mãi đã che giấu vấn đề, sau khi khuyến mãi kết thúc, vấn đề tiêu hao hạn mức của người dùng bùng nổ tập trung.
- Báo cáo người dùng cho thấy, hạn mức hàng tháng của người dùng đăng ký cạn kiệt trong thời gian cực ngắn, ví dụ như cửa sổ cuộn 5 giờ của người dùng gói Max 20x đã hoàn toàn cạn kiệt chỉ trong 19 phút.
- Kỹ sư Anthropic sau khi điều tra đã thừa nhận hạn mức được thắt chặt trong giờ cao điểm, nhưng phủ nhận lỗi dẫn đến tính phí quá mức, chỉ đề nghị người dùng hạ cấp mô hình, tắt chức năng nâng cao để tiết kiệm lượng sử dụng.
- Phản hồi chính thức và ghi chép sửa lỗi tồn tại mâu thuẫn, phiên bản sửa lỗi v2.1.90 rõ ràng đã sửa lỗi dẫn đến bộ nhớ đệm mất hiệu lực và tính phí toàn bộ, nhưng trong thông tin liên lạc chính thức không đề cập đến việc tính phí bất thường này.
4-17%. Đây là tỷ lệ đọc prompt cache của Claude Code trong tháng qua. Mức bình thường là 97-99%.
Điều này có nghĩa là khi bạn khôi phục một phiên trước đó, Claude Code không tái sử dụng ngữ cảnh đã xử lý trước đó, mà mỗi lần đều xử lý lại toàn bộ nội dung từ đầu, tiêu hao hạn mức gấp 10 đến 20 lần so với bình thường. Bạn nghĩ rằng mình đang tiếp tục một cuộc trò chuyện, nhưng thực tế mỗi lần đều bắt đầu một cuộc trò chuyện hoàn toàn mới, với mức giá đầy đủ.

Con số này đến từ thực nghiệm giám sát proxy của nhà phát triển độc lập ArkNill. Bằng cách thiết lập proxy trong suốt, anh đã ghi lại mọi yêu cầu giữa Claude Code và API Anthropic, phát hiện ít nhất hai lỗi bộ nhớ đệm phía client khiến máy chủ API không thể khớp với tiền tố hội thoại đã được lưu trong bộ nhớ đệm, buộc phải tái tạo lại toàn bộ token mỗi lượt.

Biểu đồ trên so sánh tỷ lệ đọc bộ nhớ đệm qua ba giai đoạn. Trong giai đoạn từ v2.1.69 đến v2.1.89 (tức thời kỳ tồn tại lỗi), tỷ lệ đọc bộ nhớ đệm của phiên bản standalone chỉ ở mức 4-17%. Sau khi v2.1.90 sửa một lỗi quan trọng, tỷ lệ đọc bộ nhớ đệm khi khởi động lạnh đã trở về mức 47-99.7%. Đến v2.1.91, tỷ lệ đọc bộ nhớ đệm trong hoạt động ổn định đã phục hồi về 97-99%.
Một chi tiết đáng chú ý trong biểu đồ: phạm vi của v2.1.90 rất rộng (47% đến 99.7%), điều này là do khi phiên vừa được khôi phục vẫn cần "làm nóng" bộ nhớ đệm, tỷ lệ trúng trong vài lượt đầu khá thấp, nhưng nhanh chóng trở về mức bình thường. Trong khi ở phiên bản có lỗi, quá trình làm nóng này không bao giờ xảy ra — việc đọc bộ nhớ đệm mãi dừng ở 14,500 token của prompt hệ thống, toàn bộ lịch sử hội thoại mỗi lần đều được tính phí đầy đủ.
28 ngày, 20 phiên bản
Lỗi này không phải loại được đưa vào trong một bản cập nhật và được sửa trong bản tiếp theo. Theo hồ sơ phát hành trên npm registry, v2.1.69 đưa lỗi vào được phát hành vào ngày 4 tháng 3, còn v2.1.90 sửa lỗi được phát hành vào ngày 1 tháng 4. Giữa hai phiên bản cách nhau 28 ngày, trải dài qua 20 phiên bản.

Dòng thời gian tiết lộ một chi tiết đáng suy ngẫm. Sau khi lỗi được đưa vào ngày 4 tháng 3, người dùng không lập tức phàn nàn ồ ạt. Mãi đến ngày 23 tháng 3, các khiếu nại mới bùng nổ tập trung, giữa hai thời điểm cách nhau gần ba tuần. Lý do là, theo phân tích từ issue GitHub #41930, từ ngày 13 đến 28 tháng 3, Anthropic đã triển khai chương trình khuyến mãi hạn mức gấp đôi (gấp đôi vào giờ off-peak), điều này trên thực tế đã che giấu ảnh hưởng của lỗi. Sau khi chương trình khuyến mãi kết thúc, mức tiêu hao do lỗi bộ nhớ đệm quay trở lại đường cơ sở tính phí bình thường, hạn mức của người dùng lập tức "bốc hơi".
Phản hồi từ Anthropic không đến nhanh chóng. Ngày 26 tháng 3, tức ba ngày sau khi làn sóng khiếu nại của người dùng bùng nổ, kỹ sư Thariq Shihipar đã thông báo trên tài khoản X cá nhân rằng hạn mức cho giờ cao điểm (5am-11am PT các ngày trong tuần) đã được siết chặt. Ngày 30 tháng 3, Anthropic thừa nhận trên Reddit rằng "người dùng chạm đến giới hạn nhanh hơn nhiều so với dự kiến", cho biết đã đặt vấn đề này ở mức độ ưu tiên cao nhất của nhóm. Mãi đến ngày 1 tháng 4, thành viên nhóm Lydia Hallie mới công bố kết luận điều tra chính thức.
Trong toàn bộ quá trình, Anthropic không xuất bản bất kỳ bài viết blog nào, không gửi thông báo qua email, không cập nhật trang trạng thái. Tất cả giao tiếp chính thức chỉ được thực hiện thông qua bài đăng mạng xã hội cá nhân của các kỹ sư và một số ít bình luận trên Reddit.
Bạn đã trả bao nhiêu tiền, có thể dùng được bao lâu?
Issue GitHub #41930 tập hợp hàng trăm báo cáo từ người dùng. Trường hợp cực đoan nhất là một người dùng đăng ký Max 20x ($200/tháng), cửa sổ cuộn 5 giờ của anh ta đã cạn kiệt hoàn toàn chỉ trong 19 phút. Người dùng Max 5x ($100/tháng) báo cáo cửa sổ 5 giờ hết trong 90 phút. Theo báo cáo của The Letter Two, còn có người dùng cho biết một câu "hello" đơn giản đã tiêu hao 13% hạn mức phiên. Một người dùng Pro ($20/tháng) nói trên Discord rằng hạn mức của anh ta "dùng hết vào mỗi thứ Hai và chỉ được đặt lại vào thứ Bảy", trong 30 ngày chỉ có 12 ngày có thể sử dụng bình thường.

Theo bài kiểm tra chuẩn của ArkNill, trên phiên bản có lỗi v2.1.89, 100% hạn mức của gói Max 20x sẽ cạn kiệt trong khoảng 70 phút. Anh cũng tính toán chi phí hạn mức cho một thao tác --resume duy nhất đối với một phiên có ngữ cảnh 500K token, khoảng $0.15, vì hệ thống sẽ phát lại toàn bộ ngữ cảnh.
"Bạn đang cầm nó sai cách"
Kết luận điều tra của Lydia Hallie xác nhận hai điểm, một là hạn mức giờ cao điểm thực sự đã được siết chặt, hai là mức tiêu hao cho các phiên có ngữ cảnh 1 triệu token đã tăng lên. Cô cho biết nhóm đã sửa một số lỗi, nhưng nhấn mạnh rằng "không có lỗi nào dẫn đến việc tính phí quá mức".
Sau đó, cô đưa ra bốn đề xuất tiết kiệm hạn mức:
1. Dùng Sonnet 4.6 thay vì Opus (Opus tiêu hao nhanh gấp khoảng hai lần);
2. Giảm cường độ suy luận hoặc tắt extended thinking khi không cần suy luận sâu;
3. Không khôi phục các phiên dài không hoạt động quá một giờ, hãy mở một phiên mới;
4. Đặt biến môi trường CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 để giới hạn kích thước cửa sổ ngữ cảnh.
Không đề cập đến bất kỳ hình thức đặt lại hạn mức hoặc bồi thường nào.
Người dẫn podcast về AI Alex Volkov tóm tắt phản hồi này là "bạn đang cầm nó sai cách" (You're holding it wrong), chỉ ra rằng chính Anthropic đã đặt ngữ cảnh 1 triệu token làm mặc định, quảng bá Opus như mô hình flagship, đưa extended thinking thành điểm bán hàng, nhưng giờ lại đề nghị người dùng trả phí không sử dụng các tính năng này.
Tuyên bố "không tính phí quá mức" cũng có sự căng thẳng với chính nhật ký cập nhật của Claude Code. Ngay trước ngày Lydia công bố phản hồi một ngày, v2.1.90 đã sửa một lỗi hồi quy bộ nhớ đệm tồn tại từ v2.1.69: khi sử dụng --resume để khôi phục phiên, các yêu cầu lẽ ra phải trúng bộ nhớ đệm lại kích hoạt prompt cache miss hoàn toàn, tính phí đầy đủ. Phản hồi của Lydia không đề cập đến sự bất thường về tính phí đã được xác nhận này.

Để đối chiếu, Codex của OpenAI trước đây cũng từng xuất hiện vấn đề tiêu hao hạn mức bất thường tương tự. Cách làm của OpenAI là đặt lại hạn mức người dùng, bổ sung credits, và vào tháng 3 đã thông báo loại bỏ giới hạn sử dụng đối với Codex. Cách làm của Anthropic là đề nghị người dùng hạ cấp mô hình, tắt tính năng, giới hạn ngữ cảnh, và quy trách nhiệm cho cách sử dụng của người dùng.
Anthropic bán gói đăng ký "mô hình mạnh nhất + ngữ cảnh lớn nhất + khả năng suy luận cao nhất", thu phí từ 20 đến 200 đô la mỗi tháng. Một lỗi bộ nhớ đệm kéo dài 28 ngày khiến hạn mức của người dùng trả phí bốc hơi với tốc độ gấp 10-20 lần, phản hồi chính thức là khuyên bạn tiết kiệm mà dùng.


