ปัญหาแพ็กเกจ Claude Code Pro Max 5x ใช้โควตาหมดภายใน 1.5 ชั่วโมง แม้ใช้งานในระดับพอประมาณ
(github.com/anthropics)- ในแพ็กเกจ Pro Max 5x(1M context) มีรายงานว่าแม้จะใช้งานถามตอบและงานพัฒนาในระดับพอประมาณ ก็ยังเกิด โทเค็นเกินลิมิตภายใน 1.5 ชั่วโมง
- สาเหตุที่ถูกชี้คือบั๊กที่คำนวณโทเค็น
cache_readด้วยอัตราเต็ม (1.0x) ทำให้ผลของแคชหายไปและโควตาถูกใช้เร็วผิดปกติ - การเรียกอัตโนมัติจาก background session, auto-compact, และ การป้อน context ขนาดใหญ่ ทำให้ความเร็วในการใช้โควตาสูงขึ้นร่วมกัน
- ชุมชนวิเคราะห์ว่า การลด cache TTL (1 ชั่วโมง→5 นาที) และอาการ cache busting เป็นสาเหตุหลัก
- Anthropic กำลังดำเนินการ ลด context เริ่มต้น (400k), ปรับปรุง UX, และ เพิ่มประสิทธิภาพการเรียกที่ไม่ active พร้อมเก็บฟีดแบ็กจากผู้ใช้
ปัญหาโควตาหมดอย่างรวดเร็วในแพ็กเกจ Pro Max 5x
- มีรายงานว่าในแพ็กเกจ Pro Max 5x(claude-opus-4-6, 1M context) แม้ใช้งานถามตอบระดับกลางและงานพัฒนาแบบเบา ๆ ก็ยังเกิด โควตาหมดภายใน 1.5 ชั่วโมง
- ก่อนหน้านี้ในช่วงพัฒนาอย่างหนัก 5 ชั่วโมง การใช้โควตายังเป็นปกติ แต่หลังรีเซ็ตกลับหมดอย่างรวดเร็ว
- สภาพแวดล้อมคือ Claude Code CLI on WSL2 และเกิดในเซสชันเดียว (มี auto-compact 2 ครั้ง)
- บั๊กที่คำนวณโทเค็น
cache_readด้วยอัตราเต็ม (1.0x) ถูกชี้ว่าเป็นสาเหตุสำคัญ- ตามปกติ
cache_readควรถูกคำนวณที่อัตรา 1/10 มิฉะนั้นประโยชน์ของแคชจะหายไป - มีการวิเคราะห์การใช้โทเค็นผ่านออบเจ็กต์
usageใน session log (~/.claude/projects/.../*.jsonl)
- ตามปกติ
- การเรียกอัตโนมัติจาก background session, การประมวลผล auto-compact ที่มีต้นทุนสูง, และ อินพุตขนาดใหญ่จากหน้าต่าง context 1M ทำงานร่วมกันจนเร่งการใช้โควตา
- จากการวิเคราะห์ของชุมชน ผู้ใช้บางส่วนชี้ว่า การลด cache TTL (1 ชั่วโมง→5 นาที) และอาการ cache busting คือสาเหตุหลัก
- ทีม Anthropic กำลังดำเนินการ ลด context เริ่มต้น (400k), ปรับปรุง UX, และ เพิ่มประสิทธิภาพการเรียกที่ไม่ active พร้อมขอข้อมูลเพิ่มเติมผ่านฟีดแบ็กจากผู้ใช้
ปริมาณการใช้โทเค็นที่วัดได้
-
ช่วงที่ 1 (15:00–20:00, 5 ชั่วโมง, พัฒนาอย่างหนัก)
- API 2,715 ครั้ง, Cache read 1,044M, Cache create 16.8M, เอาต์พุต 1.15M โทเค็น
- อินพุตที่มีผลจริง (เมื่อใช้อัตรา 1/10) 121.8M โทเค็น
- ดำเนินการ Express server + iOS app, graphify pipeline, และ การประสาน multi-agent ตาม SPEC
-
ช่วงที่ 2 (20:00–21:30, 1.5 ชั่วโมง, ใช้งานระดับกลาง)
- เมนเซสชัน (vibehq): API 222 ครั้ง, Cache read 23.2M, Cache create 1.4M, เอาต์พุต 91k
- background session (รวม token-analysis, career-ops): เรียกรวม 691 ครั้ง, Cache read 103.9M, เอาต์พุต 387k
- รวม effective token 13.1M (เมื่อใช้อัตรา 1/10) → ถ้าปกติไม่ควรเกินโควตา
- แต่ในความเป็นจริงคือ 105.7M โทเค็น (เมื่อคำนวณแบบ 1.0x) → เทียบเท่า 70.5M ต่อชั่วโมง ซึ่งสอดคล้องกับอาการโควตาหมด
สรุปปัญหาหลัก
-
1. ความผิดพลาดในการคำนวณลิมิตค่าบริการของโทเค็น Cache read
- ที่คาดหวัง:
cache_readควรถูกคำนวณที่อัตรา 1/10 - ที่เกิดขึ้นจริง: ถูกคำนวณที่อัตราเต็ม ทำให้ ผลของแคชถูกทำให้ไร้ผล
- ในสภาพแวดล้อม 1M context มีการส่ง 100~960k โทเค็นต่อการเรียกหนึ่งครั้ง ทำให้ เกิน 200 ครั้งก็หมดได้ภายในไม่กี่นาที
- ที่คาดหวัง:
-
2. การใช้โควตาร่วมจาก background session
- แม้เป็นเซสชันที่ไม่ active (เช่น token-analysis, career-ops) ก็ยัง ใช้โควตาร่วมต่อเนื่อง ผ่านการเรียก auto-compact และ post-processing
-
3. การเรียก auto-compact ที่มีต้นทุนสูง
- ก่อนบีบอัด จะส่ง context ทั้งหมด (~966k โทเค็น) ไปเป็น
cache_creationทำให้ เกิดการเรียกที่แพงที่สุดโดยอัตโนมัติ
- ก่อนบีบอัด จะส่ง context ทั้งหมด (~966k โทเค็น) ไปเป็น
-
4. ผลข้างเคียงของหน้าต่าง context 1M
- context ขนาดใหญ่ทำให้จำนวนโทเค็นต่อการเรียกพุ่งสูงและ เร่งความเร็วในการใช้โควตา
ขั้นตอนการทำซ้ำ
- รัน Claude Code ด้วยโมเดล Opus บนแพ็กเกจ Pro Max 5x
- ใส่ไฟล์กฎราว 30 ไฟล์ไว้ใน
~/.claude/rules/(มี overhead 19k โทเค็น) - ทำงานที่เน้นเครื่องมือ เช่น อ่านไฟล์, build, test
- ใช้คำสั่ง
/contextเพื่อตรวจว่าขนาด context เพิ่มขึ้น - หลังเรียก 200~300 ครั้ง ให้ตรวจว่าโควตาลดลงรวดเร็ว
- เปิดค้างไว้ 2~3 เซสชันในเทอร์มินัลอื่น
- หลังรีเซ็ต ให้ตรวจว่าโควตายังหมดในเวลาอันสั้น
เปรียบเทียบพฤติกรรมที่คาดหวังกับที่เกิดขึ้นจริง
-
ที่คาดหวัง:
cache_readถูกคำนวณที่อัตรา 1/10- เซสชันที่ไม่ active ใช้โควตาน้อยที่สุด
- auto-compact ไม่ทำให้เกิดการใช้โควตาสูงเกินไป
- หากใช้งานระดับกลางควรใช้งานได้ต่อเนื่อง 2~3 ชั่วโมง
-
ที่เกิดขึ้นจริง:
- โควตาหมดภายใน 1.5 ชั่วโมง
- background session ใช้ไป 78%
- มีการส่งรวม 105.7M โทเค็น จึงคาดว่า
cache_readถูกคำนวณแบบอัตราเต็ม
ข้อเสนอเพื่อการปรับปรุง
- ทำให้วิธีคำนวณ
cache_readชัดเจน — ระบุอัตราที่ใช้คำนวณลิมิตค่าบริการจริงไว้ในเอกสาร - จำกัดตาม effective token — แก้ให้
cache_readถูกคำนวณที่อัตรา 1/10 - ตรวจจับเซสชันว่าง — ป้องกันการเรียกอัตโนมัติของเซสชันที่ไม่ active หรือแสดงคำเตือน
- แสดงภาพการใช้โทเค็นแบบเรียลไทม์ — แสดงปริมาณ
cache_read,cache_create, อินพุต และเอาต์พุตแยกกัน - คาดการณ์ต้นทุนตาม context — แสดงต้นทุนโทเค็นโดยประมาณก่อนเริ่มงาน
การวิเคราะห์และการอภิปรายของชุมชน
-
cnighswonger
- เก็บข้อมูลการเรียก 1,500 ครั้งตลอด 24 ชั่วโมงด้วยอินเตอร์เซปเตอร์
claude-code-cache-fix - เมื่อทดสอบสมมติฐาน 3 แบบ (
cache_read0.0x, 0.1x, 1.0x) พบว่า มีเพียงโมเดล 0.0x ที่ให้ผลสอดคล้องกันในหน้าต่าง 5 ชั่วโมง (CV 34.4%) - ข้อสรุป:
cache_readแทบไม่ส่งผลต่อโควตาในทางปฏิบัติ และแคชยังทำงานตามปกติ - อย่างไรก็ตาม ยังต้องมีการตรวจสอบเพิ่มเติมเพราะข้อมูลมาจากบัญชีเดียว
- เก็บข้อมูลการเรียก 1,500 ครั้งตลอด 24 ชั่วโมงด้วยอินเตอร์เซปเตอร์
-
henu-wang
- หลังเกิด regression ที่ cache TTL ถูกลดจาก 1 ชั่วโมงเหลือ 5 นาที ทุกครั้งที่พักเซสชันจะเกิด
cache_createและทำให้ ต้นทุนสูงขึ้น 12.5 เท่า - ยิ่ง context ยาว ต้นทุนก็เพิ่มขึ้นแบบไม่เชิงเส้น
- แนวทางแก้ชั่วคราวที่เสนอคือ คงเซสชันให้สั้น, ใช้คำสั่ง
/compactอย่างกระตือรือร้น, และ preload context สำคัญไว้ใน CLAUDE.md
- หลังเกิด regression ที่ cache TTL ถูกลดจาก 1 ชั่วโมงเหลือ 5 นาที ทุกครั้งที่พักเซสชันจะเกิด
-
bcherny (ทีม Anthropic)
- ยอมรับว่าเมื่อใช้หน้าต่าง context 1M prompt cache miss มีต้นทุนสูง
- กำลังทดลองปรับปรุง UX (เช่น แนะนำให้ใช้
/clearเมื่อต่อเซสชันระยะยาว) และ ลด context เริ่มต้นเป็น 400k - พบกรณีที่งานไม่ active ใช้โทเค็นเกินความจำเป็นเมื่อใช้ multi-agent หรือปลั๊กอิน และกำลังปรับปรุง การ cleanup อัตโนมัติและการจัดตาราง
-
wadabum
สรุปข้อเสนอจากชุมชน
- RockyMM: เมื่อเซสชันถึงลิมิต ให้สรุปอัตโนมัติแล้วค่อยกลับมาทำต่อ และลด TTL เหลือ 10 นาที
- mikebutash: รายงานว่าแพ็กเกจ Pro ใช้ได้เพียง 2 prompt ต่อ 5 ชั่วโมง และยืนยันว่า rollback ไป v2.1.81 พร้อมติดตั้ง cache-fix แล้วดีขึ้น 3~4 เท่า
- wutlu: รีเซ็ตเซสชันตามงานแต่ละชิ้นเพื่อลดปัญหา
- dprkh: แชร์ debug mode skill (Skill.md) เพื่อช่วยหาสาเหตุ
บทสรุป
- ปัญหา โควตาหมดอย่างรวดเร็วในแพ็กเกจ Pro Max 5x ยืนยันได้ว่าเกิดจากผลรวมของพฤติกรรมแคช, regression ของ TTL, context ที่พองตัว, และการเรียกจากเบื้องหลัง
- ชุมชนเสนอว่าต้นเหตุหลักคือ cache busting และการลด TTL มากกว่าความผิดพลาดในการคำนวณ
cache_read - ทีม Anthropic กำลังดำเนินการ ลดค่า context เริ่มต้น, ปรับปรุง UX ของแคช, และเพิ่มประสิทธิภาพการเรียกที่ไม่ active พร้อมขอข้อมูลเพิ่มเติมผ่านฟีดแบ็กจากผู้ใช้ (
/feedback)
2 ความคิดเห็น
ถ้าวัดกันที่คุณภาพก็แทบไม่มีอะไรมาแทนได้
ถ้าใช้แพตช์ง่าย ๆ แล้วทำให้ใช้งานได้นานขึ้นก็คงจะดีนะครับ
ความคิดเห็นจาก Hacker News
ผมคือ Boris จากทีม Claude Code หลังจากตรวจสอบปัญหาที่มีรายงานเข้ามาเมื่อเร็ว ๆ นี้ พบว่าสาเหตุหลักมีอยู่สองข้อ
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudeได้หากผู้ใช้คนใดกำลังประสบปัญหา การส่งฟีดแบ็กด้วยคำสั่ง
/feedbackจะช่วยในการดีบักได้/clearไม่ใช่วิธีแก้ ถ้าล้างแคชก็ต้องสร้างใหม่อยู่ดี ต้นทุนจึงเท่าเดิม การใช้ UX เพื่อ ชี้นำให้ผู้ใช้ใช้คอนเท็กซ์เล็กลง เท่ากับลดคุณภาพบริการ ถ้าเป็นปัญหาเรื่องต้นทุนก็ควรแก้ที่ราคาหรือสถาปัตยกรรมช่วงหลัง Claude ช้าลงและไม่มีประสิทธิภาพอย่างเห็นได้ชัด แม้จะระบุไฟล์ให้แล้วก็ยังวนลูปสำรวจนานเกิน 5 นาที และแตะลิมิตเซสชันอย่างรวดเร็ว ใช้วันละแค่สามครั้งก็เสียโควตารายสัปดาห์ไป 25% แล้ว เลยย้ายไปใช้แผน Codex ราคา $100 ซึ่ง ทั้งแม่นยำกว่าและให้เผื่อมากกว่า เพียงแต่สไตล์การพูดของ Codex ค่อนข้างน่ารำคาญ เลยเพิ่มคำสั่งแยกไว้ใน Agents.md ความรู้สึกด้าน UI นั้น Claude Code เมื่อก่อนดีกว่า แต่ในด้าน ดีบักแบ็กเอนด์และแก้ปัญหาซับซ้อน Codex เหนือกว่า ตอนนี้ผมแนะนำให้ลองเทียบ Codex กับแผน $20 ของ Cursor ดู
พอไล่ดูอีชูแล้วก็เข้าใจว่าทำไม Anthropic ถึงปิดตั๋วเร็ว ส่วนใหญ่ดูเหมือนเป็น noise ที่ AI สร้างขึ้นมา วิธีแก้ของผมมีดังนี้
สิ่งที่ไม่พอใจที่สุดคือ Anthropic บังคับใช้โมเดล 1M
/model opusหรือ/model sonnetตอนนี้เริ่มรู้สึกเหมือน ยุคของการอุดหนุนกำลังจะจบลง แม้แต่ในชุมชน Google Gemini ก็มีเสียงบ่นถล่มเรื่อง การลดโควตา ในช่วงหลัง (ลิงก์อีชู) สุดท้ายผมก็ย้ายไปใช้คู่ Kiro IDE กับ Codex CLI และพอใจมาก
อีชู ที่ชี้ถึงสาเหตุรากของปัญหาถูกปิดเป็น “Not planned” ทำให้น่ากังวล
พอลอง ย้อนกลับไปใช้เวอร์ชัน 2.1.34 ปัญหาโควตาและปัญหาแคชส่วนใหญ่ก็หายไป
เพิ่ม
"effortLevel": "high","CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1เป็นต้น ไว้ใน~/.claude/settings.jsonและลบเวอร์ชันอื่นออกAdaptive thinking ยังไม่สมบูรณ์ แต่ถ้าปรับปรุงได้ในอนาคตก็น่าจะช่วยได้ ถึงอย่างนั้นก็ยังลังเลว่าจะย้ายไป Codex ดีไหม
CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000,DISABLE_AUTOUPDATER=1ไว้ใน~/.bashrcเหมือนกันโมเดลระดับล่างก็มีปัญหาคล้ายกัน ผมคิดว่า การซื้อขายอย่างเป็นธรรมเริ่มจากการวัดผลที่โปร่งใส ผมจะยกเลิกการสมัครเดือนนี้
ปีนี้ผมลองใช้ AI agent มาช่วยยื่นภาษี โดยใช้ Opus 4.6, Codex 5.4 และ Antigravity 3.1 อย่างละแผน $20
Codex จัดการได้สมบูรณ์แบบใน 12 นาที ส่วน Antigravity พลาดไปหนึ่งหน้าแต่ก็แก้ได้เร็ว Claude Code กลับ หยุดเพราะเกินลิมิตการใช้งาน และถึงลองใหม่ก็ยังมีความคลาดเคลื่อน ต่ำกว่าที่คาดไว้มาก
หลังจาก ประกาศอัปเดต บน Reddit Claude ก็ เปลี่ยนไปจนใช้เขียนโค้ดในชีวิตประจำวันไม่ได้อีกต่อไป เครดิตของบัญชี Pro หมดในชั่วโมงเดียวจนต้องกลับไปใช้ Gemini หรือ ChatGPT
สุดท้ายแล้วดูเหมือนว่า โครงสร้างการคิดค่าโทเค็น ของ Anthropic ถูกออกแบบมาให้ไม่เป็นธรรมกับผู้ใช้ทั่วไป พอลองใช้จริงก็สัมผัสได้ทันทีว่าพวกเขาต้องการเงินมากแค่ไหน