ตลอดหนึ่งเดือนที่ผ่านมา มีรายงานต่อเนื่องจากผู้ใช้บางส่วนว่าคุณภาพคำตอบของ Claude ลดลง Anthropic ติดตามสาเหตุและยืนยันว่ามาจากการเปลี่ยนแปลง 3 อย่างที่แยกจากกัน ซึ่งส่งผลต่อ Claude Code, Claude Agent SDK และ Claude Cowork โดย API เองไม่ได้รับผลกระทบ และระบุว่าปัญหาทั้งหมดได้รับการแก้ไขแล้ว ณ วันที่ 20 เมษายน 2026 (v2.1.116) โพสต์มอร์เท็มนี้อธิบายสาเหตุของปัญหา สิ่งที่แก้ไข และมาตรการป้องกันไม่ให้เกิดซ้ำ
สาเหตุและลำดับเหตุการณ์ของปัญหาทั้งสาม
- ลดค่าเริ่มต้นของความพยายามในการให้เหตุผล (reasoning effort) ลง (4 มีนาคม): มีการเปลี่ยนระดับความพยายามในการให้เหตุผลเริ่มต้นของ Claude Code จาก
highเป็นmediumเพื่อช่วยลดเวลารอที่ยาวจนดูเหมือนว่า UI ค้าง แต่ผู้ใช้รับรู้ได้ว่าคุณภาพคำตอบลดลง จึงย้อนกลับการเปลี่ยนแปลงนี้ในวันที่ 7 เมษายน ปัจจุบันค่าเริ่มต้นถูกตั้งเป็นxhighสำหรับ Opus 4.7 และhighสำหรับโมเดลอื่น - การลบประวัติการให้เหตุผลจากบั๊กในการปรับแคชให้เหมาะสม (26 มีนาคม): เมื่อกลับมาใช้เซสชันที่ไม่มีการใช้งานเกิน 1 ชั่วโมง ฟีเจอร์ที่ออกแบบมาให้ล้างประวัติการให้เหตุผล (thinking) ก่อนหน้าเพียงครั้งเดียว กลับมีบั๊กที่ทำให้มันลบซ้ำในทุกเทิร์นของบทสนทนาหลังจากนั้น ส่งผลให้ Claude จำไม่ได้ว่าทำไมตนเองจึงทำงานบางอย่างลงไป กลายเป็นสาเหตุของอาการ "ขี้ลืม" การตอบซ้ำ และการเลือกใช้เครื่องมืออย่างผิดปกติที่ผู้ใช้พบเจอ นอกจากนี้ยังมีผลข้างเคียงคือเกิด cache miss (ไม่พบข้อมูลที่บันทึกไว้) ซ้ำ ๆ ทำให้โควตาการใช้งานหมดเร็วกว่าที่คาด ปัญหานี้ได้รับการแก้ไขเมื่อวันที่ 10 เมษายน
- คำสั่งให้กระชับเกินไปใน system prompt (16 เมษายน): เพื่อลดผลลัพธ์ที่ยืดยาวของ Opus 4.7 จึงมีการเพิ่ม system prompt ว่า "ข้อความระหว่างการเรียกใช้เครื่องมือแต่ละครั้งต้องไม่เกิน 25 คำ และคำตอบสุดท้ายต้องไม่เกิน 100 คำ" แม้การทดสอบภายในจะไม่พบปัญหา แต่ภายหลังยืนยันได้ว่าส่งผลเสียต่อคุณภาพการเขียนโค้ดจริง จึงลบออกเมื่อวันที่ 20 เมษายน
เหตุใดจึงพบปัญหาช้า
- การเปลี่ยนแปลงทั้งสามถูกใช้คนละช่วงเวลาและกับทราฟฟิกคนละขอบเขต จึงดูเหมือนเป็นการเสื่อมของคุณภาพโดยรวมที่ไม่สม่ำเสมอ และยากต่อการระบุสาเหตุเฉพาะ
- มีความต่างระหว่างสภาพแวดล้อมทดสอบภายในกับสภาพแวดล้อมของผู้ใช้จริง สำหรับบั๊กแคชนั้น การทดลองอีกชุดที่กำลังดำเนินอยู่ภายในและความต่างของวิธีแสดงผลใน UI ทำให้แม้แต่การทำให้เกิดซ้ำก็ไม่ง่าย
- ชุดประเมินผลที่มีอยู่เดิม (eval suite) ยังครอบคลุมไม่กว้างพอ ผลกระทบของการเปลี่ยน system prompt เพิ่งเผยให้เห็นว่าประสิทธิภาพลดลง 3% หลังจากรันการประเมินที่หลากหลายมากขึ้น
มาตรการป้องกันไม่ให้เกิดซ้ำ
- บังคับให้พนักงานภายในใช้บิลด์สาธารณะที่ปล่อยจริง เพื่อลดความคลาดเคลื่อนจากบิลด์สำหรับทดสอบภายใน
- เพิ่มความเข้มงวดในการควบคุมการเปลี่ยนแปลง system prompt โดยทุกการเปลี่ยนแปลงจะต้องผ่านการประเมินอย่างกว้างขวางแยกตามโมเดล วิเคราะห์ผลกระทบของแต่ละบรรทัดแบบ ablation และใช้การทยอยปล่อยพร้อมช่วงเฝ้าดูผล (soak period) ที่เพียงพอ
- ปรับปรุงเครื่องมือ Code Review จากข้อสังเกตที่ว่า Opus 4.7 สามารถพบบั๊กแคชได้เมื่อได้รับทั้งที่เก็บโค้ดที่เกี่ยวข้องเป็นบริบท จึงจะขยายขอบเขตของรีโพซิทอรีที่อ้างอิงได้ระหว่างการรีวิวโค้ด
- เปิดช่องทางสื่อสารกับผู้ใช้ (@ClaudeDevs) เพื่อแบ่งปันเบื้องหลังของการตัดสินใจเกี่ยวกับผลิตภัณฑ์อย่างโปร่งใส
เกี่ยวกับประเด็น "ไม่มีการลดคุณภาพโดยเจตนา"
- Anthropic ระบุว่าไม่เคยลดความสามารถของโมเดลโดยเจตนา และยืนยันว่า API กับ inference layer ไม่ได้รับผลกระทบ อย่างไรก็ตาม ก็เป็นความจริงที่การเปลี่ยนค่าการตั้งค่าและบั๊กใน product layer (Claude Code) ทำงานซ้อนกันจนทำให้คุณภาพที่ผู้ใช้รับรู้ลดลง พร้อมกันนี้ยังประกาศรีเซ็ตโควตาการใช้งานให้กับผู้สมัครสมาชิกทุกคนด้วย
13 ความคิดเห็น
ทำไมสาเหตุของเหตุขัดข้องทั้งสามอย่างถึงเกี่ยวข้องกับการลดต้นทุนโดยตรงทั้งหมดเลยล่ะ 55555
ดูท่าว่าทรัพยากร GPU จะขาดแคลนหนักจริง ๆ จนถึงขั้นทำให้ประสิทธิภาพลดลงแบบนี้เลยนะ.....
นี่แหละคือคำตอบที่ถูกต้อง แต่ข้อแก้ตัวมันยาวไปหน่อย 555
ดูเหมือนว่าเขาจะเขียนยาวมากว่า ที่ผ่านมาพวกเขาปล่อยขึ้นใช้งานโดยไม่แม้แต่จะทดสอบ public build และหลังจากปล่อยแล้วก็ยังไม่ทดสอบอีกด้วยนะครับ ผมเองก็เจอบั๊กนี้เข้าอย่างจังตั้งแต่วันที่ 26 มีนาคมแล้ว แต่ภายในกลับใช้เวลาตั้ง 3 สัปดาห์กว่าจะยืนยันได้ คิดว่านี่มันสมเหตุสมผลแล้วเหรอ...
ทันทีที่แพตช์ออก โควตา 5 ชั่วโมงที่ปกติต้องใช้ 3-4 ชั่วโมงกว่าจะหมด กลับเริ่มถูกใช้จนหมดภายใน 30 นาที แต่บัญชีพนักงานไม่มีโควตา 5 ชั่วโมงแบบนั้นอยู่แล้ว หรืออย่างน้อยก็ไม่ได้ขาดแคลนจนต้องคอยเปิดดู
/usageทุกครั้งระหว่างทำงาน ก็คงเลยใช้เวลานานพอสมควรกว่าจะสังเกตเห็นพอดู
claude codeใน SWE-Bench-Pro daily benchmark (ชุดที่คัดมา) แล้วจะเห็นอะไรที่น่าสนใจในช่วง 4/10~4/20 runtime ลดลงครึ่งหนึ่ง (653s→345s), tool call ลดลงครึ่งหนึ่ง (3.3K→1.8K), โทเค็นลดลง −18% แต่ pass rate กลับเพิ่มขึ้นอีก +16pp รูปแบบที่ทั้งสี่แกนขยับไปในทิศทางที่ดีพร้อมกันแบบนี้ไม่ใช่แพตเทิร์นที่เห็นกันบ่อย
postmortem วันที่ 4/23 คืออุบัติเหตุ 3 เคสที่เกิดขึ้นระหว่างกระบวนการนั้น ซึ่งพอดูแล้วทั้งหมดเกิดจาก "พยายามลดโทเค็น/latency"
ในทางกลับกัน codex(gpt-5.4-xhigh) ตัวเลขในช่วงเดียวกันแทบไม่ขยับเลย pass rate ตรึงอยู่แถว 56%, และโทเค็น/runtime/tool call ก็ยังอยู่ที่ระดับประมาณ 2 เท่าของ
claude codeเหมือนเดิมนี่ไม่ใช่โพสต์มอร์เท็มของเหตุขัดข้อง แต่เป็นโพสต์มอร์เท็มการลดต้นทุนหรือเปล่า?
บังคับให้พนักงานภายในใช้บิลด์ที่เผยแพร่จริง เพื่อลดความเหลื่อมล้ำกับบิลด์สำหรับการทดสอบภายใน
ฮ่าๆๆๆ
เหมือนว่าจะไปสอน YAGNI ให้กับ Opus 4.7 เข้าแล้วนะครับ ทุกครั้งที่ตัดสินใจเรื่องสถาปัตยกรรมก็อ้างเหตุผลว่าเป็นการค่อย ๆ ปรับแก้ตาม YAGNI เลยคิดว่าอ๋อคงเป็นแบบนั้น สุดท้ายก็เกิดเรื่องจนได้ แถมเพื่อนคนนี้ความจำก็ไม่ได้ยาวนัก ยังดันติดนิสัยผัดไปก่อนอีก เลยชวนให้ปวดหัวใหญ่เลยครับ
มีแค่ผมคนเดียวหรือเปล่าที่คิดว่า ตอนมีการชี้ปัญหาในช่วงแรกก็ยังยืนกรานว่าไม่มีปัญหา แต่พอเรื่องกลายเป็นประเด็นใหญ่จนคงปิดไม่อยู่แล้ว ถึงค่อยออกมาเปิดเผย
บนเว็บ claude.ai เองก็รู้สึกว่าการใช้งานแย่ลงแบบยิบย่อยเหมือนกัน... เพื่อประหยัดโทเค็นเลยปิดเมมโมรีไปแล้วครับ
พอเห็นประกาศนี้แล้วกลับยิ่งรู้สึกว่าเชื่อถือ Anthropic ไม่ได้มากขึ้นไปอีก
ด้านบนมีบทความที่เกี่ยวข้องอยู่ 2 ชิ้น ซึ่งเป็นบทความที่ห่างกัน 7 เดือน ปัญหาก็ยังเป็น 3 อย่างเดิมเหมือนกัน
การวิเคราะห์หลังเหตุการณ์ของ 3 ประเด็นคุณภาพของ Claude ที่ลดลงเมื่อไม่นานมานี้ 2025-09-19
อัปเดตเกี่ยวกับรายงานคุณภาพของ Claude Code ล่าสุด 2026-04-24
ฉันโกรธถึงระดับ $5 เครดิตเลย!!
พูดยืดยาวจัง..