34 คะแนน โดย GN⁺ 23 일 전 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีรายงานจำนวนมากว่า Claude Code เพิกเฉยต่อคำสั่งหรือทำตรงกันข้าม หรือ อ้างว่าทำงานเสร็จแล้วทั้งที่ยังไม่เสร็จ หลังอัปเดตเดือนกุมภาพันธ์ ส่งผลให้ ล้มเหลวกับงานวิศวกรรมที่ซับซ้อน
  • คาดว่าสาเหตุหลักของการเสื่อมลงคือ การลดจำนวนโทเค็น Extended Thinking หลังการปล่อย redact-thinking-2026-02-12 และความลึกของการคิดลดลง สูงสุด 73% เมื่อเทียบกับค่ามาตรฐาน
  • หลังจากนั้น โมเดลได้เปลี่ยนรูปแบบพฤติกรรมจาก "ค้นคว้าก่อนแล้วค่อยแก้ไข (Read-First)" เป็น "แก้ไขทันที (Edit-First)" ทำให้จำนวนครั้งที่อ่านต่อไฟล์ลดจาก 6.6 ครั้งเหลือ 2.0 ครั้ง หรือลดลง 70%
  • ข้อมูลจากเวิร์กโฟลว์และอารมณ์ของผู้ใช้จริงก็ยืนยันการเสื่อมของคุณภาพในเชิงตัวเลขเช่นกัน โดยพบว่า การใช้ถ้อยคำเชิงลบในพรอมป์ต์ผู้ใช้เพิ่มขึ้น 68% และความถี่ของการคอมมิตโค้ดลดลง 58%
  • มีการเรียกร้องให้ Anthropic เปิดเผยความโปร่งใสเรื่องการใช้โทเค็นคิด, เพิ่มแพ็กเกจ "Max Thinking" สำหรับผู้ใช้โหลดสูง, และใส่ตัวชี้วัด thinking_tokens ในการตอบกลับของ API

ภาพรวมรายงานและแหล่งข้อมูล

  • ขอบเขตการวิเคราะห์: ไฟล์ JSONL ของเซสชัน Claude Code จำนวน 6,852 ไฟล์ ที่เก็บจาก 4 โปรเจกต์ (iree-loom, iree-amdgpu, iree-remoting, bureau)
  • ช่วงข้อมูลที่วิเคราะห์: 17,871 thinking block, 234,760 การเรียกใช้ทูล, พรอมป์ต์ผู้ใช้มากกว่า 18,000 รายการ
  • ช่วงเวลาวิเคราะห์: 30 มกราคม 2026 ~ 1 เมษายน 2026
  • รายงานนี้จัดทำโดยให้ Claude Opus 4.6 วิเคราะห์ล็อกเซสชันของตัวเองโดยตรง

1. ความสัมพันธ์ระหว่างไทม์ไลน์การซ่อน Thinking กับคุณภาพที่ลดลง

  • กำหนดการปล่อย redact-thinking-2026-02-12 ตรงกับช่วงเวลาที่คุณภาพเริ่มลดลงอย่างแม่นยำ
ช่วงเวลา เปิดเผย Thinking ซ่อน Thinking
30 ม.ค. ~ 4 มี.ค. 100% 0%
5 มี.ค. 98.5% 1.5%
7 มี.ค. 75.3% 24.7%
8 มี.ค. 41.6% 58.4%
10~11 มี.ค. <1% >99%
12 มี.ค.~ 0% 100%
  • ชุมชนรายงานคุณภาพที่ลดลงอย่างอิสระในวันที่ 8 มีนาคม ซึ่งตรงกับวันที่สัดส่วนการซ่อนเกิน 50% พอดี
  • รูปแบบการปล่อยแบบเป็นขั้น (1.5% → 25% → 58% → 100%) สอดคล้องกับ การทยอย rollout

2. การลดลงล่วงหน้าของความลึกในการ Thinking

  • ความยาวของฟิลด์ signature ใน thinking block มี ค่าสหสัมพันธ์เพียร์สัน 0.971 กับความยาวของเนื้อหา thinking (จากตัวอย่าง 7,146 รายการ)
  • จึงสามารถใช้ประเมินความลึกของ thinking ได้แม้หลังจากถูกซ่อนแล้ว
ช่วงเวลา ค่ากลางของ thinking โดยประมาณ (อักขระ) เทียบกับค่ามาตรฐาน
30 ม.ค. ~ 8 ก.พ. (ค่ามาตรฐาน) ~2,200
ปลายเดือนก.พ. ~720 -67%
1~5 มี.ค. ~560 -75%
12 มี.ค.~ (ซ่อนทั้งหมด) ~600 -73%
  • ความลึกของการคิดลดลงไปแล้ว 67% ตั้งแต่ปลายกุมภาพันธ์ ก่อนเริ่มซ่อน และหลังจากนั้นภายนอกก็ไม่สามารถตรวจสอบได้อีกเพราะถูกซ่อน

3. ตัวชี้วัดการเปลี่ยนแปลงพฤติกรรม

  • จากการเปรียบเทียบก่อนและหลังวันที่ 8 มีนาคม โดยอิงจากพรอมป์ต์ผู้ใช้มากกว่า 18,000 รายการ:
ตัวชี้วัด ก่อน 8 มี.ค. หลัง 8 มี.ค. การเปลี่ยนแปลง
การละเมิด Stop hook (ตรวจจับความขี้เกียจ) 0 173 ครั้ง 0 → 10 ครั้งต่อวัน
ถ้อยคำแสดงความไม่พอใจในพรอมป์ต์ผู้ใช้ 5.8% 9.8% +68%
จำนวนครั้งที่ต้องแก้พฤติกรรมเลี่ยงความรับผิดชอบ 6 13 +117%
จำนวนพรอมป์ต์ต่อเซสชัน 35.9 27.9 -22%
เซสชันที่เกิด reasoning loop (ตั้งแต่ 5 ครั้งขึ้นไป) 0 7 0 → 7
  • มีการใช้สคริปต์ stop-phrase-guard.sh เพื่อตรวจจับข้อความอย่างอัตโนมัติ เช่น "น่าจะหยุดแค่นี้ได้แล้ว", "จะให้ทำต่อไหม?", "เป็น issue เดิมอยู่แล้ว" แล้วบังคับให้รันต่อ
  • hook นี้ไม่เคยถูกเรียกใช้เลยแม้แต่ครั้งเดียวก่อนวันที่ 8 มีนาคม แต่หลังจากนั้นถูกเรียกใช้ 173 ครั้งในช่วง 17 วัน

4. การเปลี่ยนแปลงรูปแบบการใช้ทูล: จากเน้นค้นคว้า → เน้นแก้ไข

การเปลี่ยนแปลงของอัตราส่วน Read:Edit

ช่วงเวลา Read:Edit Research:Mutation อ่าน % แก้ไข %
ช่วงคุณภาพดี (30/1 ~ 12/2) 6.6 8.7 46.5% 7.1%
ช่วงเปลี่ยนผ่าน (13/2 ~ 7/3) 2.8 4.1 37.7% 13.2%
ช่วงคุณภาพตก (8/3 ~ 23/3) 2.0 2.8 31.0% 15.4%
  • จำนวนครั้งที่อ่านต่อการแก้ไขหนึ่งครั้งลดจาก 6.6 เหลือ 2.0 หรือลดลง 70% — ในช่วงที่ดี โมเดลจะอ่านไฟล์เป้าหมาย ไฟล์ที่เกี่ยวข้อง ทำ grep ทั้งโค้ดเบส รวมถึงอ่าน header และ test ก่อนค่อยแก้ไขอย่างแม่นยำ แต่ในช่วงคุณภาพตกกลับเปลี่ยนเป็นแก้ทันที
  • แนวโน้มรายสัปดาห์แสดงว่า การค้นคว้าที่ลดลงเริ่มตั้งแต่กลางกุมภาพันธ์ ซึ่งตรงกับช่วงที่ความลึกของ thinking ลดลง 67%

การเขียนทับทั้งไฟล์ (Write) เพิ่มขึ้น

ช่วงเวลา สัดส่วนการ Write ทั้งไฟล์
ช่วงคุณภาพดี 4.9%
ช่วงคุณภาพตก 10.0%
ระยะท้าย (24/3 ~ 1/4) 11.1%
  • การใช้ Write ทั้งไฟล์เพิ่มขึ้นมากกว่าสองเท่า — เปลี่ยนจาก การแก้ไขแบบแม่นยำไปเป็นการเขียนไฟล์ใหม่ทั้งไฟล์ ทำให้เร็วขึ้นแต่ความแม่นยำและการรับรู้บริบทลดลง

5. เหตุใด Extended Thinking จึงสำคัญ

  • ลักษณะของเวิร์กโฟลว์ที่ได้รับผลกระทบ:

    • ใช้เซสชันเอเจนต์พร้อมกันมากกว่า 50 เซสชัน เพื่อทำ system programming เช่น C, MLIR, GPU driver
    • รันอัตโนมัตินานกว่า 30 นาที พร้อมใช้ธรรมเนียมของโปรเจกต์จากไฟล์ CLAUDE.md ที่ยาวเกิน 5,000 คำ
    • ในช่วงที่ดี มีการ รวมโค้ด 191,000 บรรทัดเข้า PR 2 รายการ ภายในช่วงสุดสัปดาห์
  • บทบาทที่ Extended Thinking ทำ:

    • วางแผนหลายขั้นก่อนลงมือ (จะอ่านไฟล์ไหน ตามลำดับใด)
    • จดจำและปรับใช้ธรรมเนียมเฉพาะโปรเจกต์จาก CLAUDE.md
    • ตรวจสอบความผิดพลาดของตัวเองก่อนส่งผลลัพธ์
    • ตัดสินใจว่าจะดำเนินเซสชันต่อหรือไม่
    • รักษาความสอดคล้องของการให้เหตุผลตลอดการเรียกใช้ทูลหลายร้อยครั้ง
  • เมื่อ thinking ตื้นลง ก็จะเกิดอาการเดิมซ้ำอย่างตรงไปตรงมา ได้แก่ แก้ไขโดยไม่อ่าน, หยุดทั้งที่ยังไม่เสร็จ, เลี่ยงความรับผิดชอบเมื่อทำพลาด, และเลือกวิธีแก้ที่ง่ายที่สุดแทนคำตอบที่ถูกต้อง

6. ข้อเรียกร้องต่อ Anthropic

  • ความโปร่งใสในการจัดสรร thinking: เนื่องจากเฮดเดอร์ redact-thinking ทำให้ภายนอกตรวจสอบไม่ได้ว่ามีการลดโทเค็นคิดหรือไม่ จึงควรเปิดเผยข้อมูลนี้แก่ผู้ใช้
  • แพ็กเกจ "Max Thinking": ผู้ใช้เวิร์กโฟลว์วิศวกรรมที่ซับซ้อนต้องการ thinking token ระดับ 20,000 ต่อการตอบกลับ ไม่ใช่ 200 และโมเดลการสมัครใช้งานปัจจุบันยังแยกความต้องการนี้ไม่ได้
  • เพิ่มตัวชี้วัด thinking_tokens ในการตอบกลับของ API: แม้จะซ่อนเนื้อหาไว้ แต่หากมีค่า thinking_tokens ใน usage response ผู้ใช้ก็ยังติดตามความลึกของการให้เหตุผลได้
  • ใช้ตัวชี้วัด canary จาก power user: หากติดตามอัตราการละเมิด stop hook (0 → 10 ครั้งต่อวัน) ในกลุ่มผู้ใช้โดยรวม ก็สามารถใช้เป็นสัญญาณเตือนล่วงหน้าของคุณภาพที่ลดลงได้

ภาคผนวก A: แค็ตตาล็อกพฤติกรรมของ Thinking ที่ลดลง

A.1 แก้ไขโดยไม่อ่าน

ช่วงเวลา แก้ไขโดยไม่มีการอ่านล่วงหน้า % ของการแก้ไขทั้งหมด
ช่วงคุณภาพดี 72 6.2%
ช่วงเปลี่ยนผ่าน 3,476 24.2%
ช่วงคุณภาพตก 5,028 33.7%
  • ในช่วงคุณภาพตก หนึ่งในสามของการแก้ไขเป็นการแก้ไฟล์ที่ไม่ได้อ่านในประวัติทูลล่าสุด
  • อาการตัวอย่าง: spliced comments หรือการแทรก declaration ใหม่ไว้ระหว่างคอมเมนต์เอกสารกับฟังก์ชัน ซึ่งเป็นข้อผิดพลาดที่ไม่ควรเกิดหากได้อ่านไฟล์ก่อน

A.2 Reasoning Loops

ช่วงเวลา จำนวน reasoning loop ต่อการเรียกใช้ทูล 1K ครั้ง
ช่วงคุณภาพดี 8.2
ช่วงเปลี่ยนผ่าน 15.9
ช่วงคุณภาพตก 21.0
ระยะท้าย 26.6
  • การใช้สำนวนแก้ตัวเอง เช่น "oh wait", "actually," , "hmm, actually", "no wait" เพิ่มขึ้นมากกว่า 3 เท่า
  • ในเซสชันที่แย่ที่สุด มีการกลับคำอธิบายเหตุผลมากกว่า 20 ครั้งภายในคำตอบเดียว จนผลลัพธ์อยู่ในระดับที่เชื่อถือไม่ได้

A.3 แนวคิดแบบ "วิธีแก้ที่ง่ายที่สุด"

ช่วงเวลา ความถี่การปรากฏของ "simplest" ต่อการเรียกใช้เครื่องมือ 1K ครั้ง
ช่วงที่ดี 2.7
ช่วงถดถอย 4.7
ระยะท้าย 6.3
  • ในเซสชันสังเกตการณ์ 2 ชั่วโมง โมเดลใช้คำว่า "simplest" 6 ครั้ง พร้อมทั้ง หลีกเลี่ยงการแก้ตัวสร้างโค้ด, การทำ error propagation ที่เหมาะสม, และการเขียนตรรกะ prefault จริง แล้วเลือกทางอ้อมแบบผิวเผินแทน
  • หลังจากนั้นโมเดลยังประเมินผลลัพธ์ของตนเองว่า "lazy and wrong", "rushed", "sloppy"

A.4 การหยุดก่อนกำหนดและการขออนุญาต

การละเมิดที่ stop hook ตรวจพบระหว่างวันที่ 8~25 มีนาคม:

หมวดหมู่ จำนวน ตัวอย่าง
การปัดความรับผิดชอบ 73 "not caused by my changes", "existing issue"
การขออนุญาต 40 "should I continue?", "want me to keep going?"
การหยุดก่อนกำหนด 18 "good stopping point", "natural checkpoint"
การตั้งชื่อข้อจำกัดเดิม 14 "known limitation", "future work"
อ้างความยาวของเซสชัน 4 "continue in a new session"
รวม 173 ก่อนวันที่ 8 มีนาคม: 0 ครั้ง

A.5 การขัดจังหวะโดยผู้ใช้ (เพื่อแก้ไข) เพิ่มขึ้น

ช่วงเวลา จำนวนการขัดจังหวะต่อการเรียกใช้เครื่องมือ 1K ครั้ง
ช่วงที่ดี 0.9
ช่วงเปลี่ยนผ่าน 1.9
ช่วงถดถอย 5.9
ระยะท้าย 11.4
  • เพิ่มขึ้น 12 เท่า เทียบกับช่วงที่ดี — การขัดจังหวะแต่ละครั้งหมายถึงช่วงเวลาที่ผู้ใช้ต้องหยุดงานของตัวเอง ระบุข้อผิดพลาด และสั่งทิศทางใหม่ให้โมเดล ซึ่งก็คือภาระการกำกับดูแลที่ autonomous agent ควรกำจัดออกไปนั่นเอง

A.6 ความล้มเหลวด้านคุณภาพที่โมเดลยอมรับเอง

ช่วงเวลา จำนวนครั้งที่ยอมรับข้อผิดพลาดของตัวเองต่อการเรียกใช้เครื่องมือ 1K ครั้ง
ช่วงที่ดี 0.1
ช่วงถดถอย 0.3
ระยะท้าย 0.5
  • คำพูดยอมรับจริงที่เกิดขึ้น:
    • "You're right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it."
    • "You're right — I rushed this and it shows."
    • "You're right, and I was being sloppy."
  • สิ่งเหล่านี้เป็น ข้อผิดพลาดที่ควรถูกจับได้ล่วงหน้าในขั้นตอนให้เหตุผลภายในก่อนแสดงผล หากมีงบประมาณสำหรับ thinking เพียงพอ

A.7 การแก้ไขไฟล์เดิมซ้ำไปมา

  • ในช่วงที่ดี นี่เป็นการรีแฟกเตอร์หลายขั้นตอนที่ทำอย่างมีเจตนาโดยมีการอ่านคั่นระหว่างทาง แต่ในช่วงถดถอยได้เปลี่ยนเป็นรูปแบบของ การลองผิดลองถูกซ้ำในฟังก์ชันเดิมโดยไม่อ่านโค้ดรอบข้าง

A.8 การยึดตามธรรมเนียมลดลง (Convention Drift)

  • แม้ใน CLAUDE.md จะระบุรูปแบบการตั้งชื่อ, รูปแบบการจัดระเบียบ, layout ของ struct, สไตล์คอมเมนต์, และธรรมเนียมการจัดการข้อผิดพลาดไว้มากกว่า 5,000 คำ แต่ก็ยังมี:
    • การกลับมาของชื่อตัวแปรย่อที่ห้ามใช้อย่างชัดเจน (buf, len, cnt)
    • การละเมิดรูปแบบการจัดระเบียบ (ใช้ goto แทน if-chain)
    • คอมเมนต์ของโค้ดที่ถูกลบแล้วยังถูกทิ้งไว้
    • การอ้างอิงเชิงเวลาในโค้ดที่ถูกห้ามอย่างชัดเจน ("Phase 2", "will be completed later")

ภาคผนวก B: เครื่องมือวินิจฉัย Stop Hook

  • stop-phrase-guard.sh จับคู่สำนวนมากกว่า 30 แบบใน 5 หมวดหมู่ เพื่อบล็อกการหยุดของโมเดลและแทรกข้อความบังคับให้ทำต่อ
  • วันที่พีคคือ 18 มีนาคมที่มีการละเมิด 43 ครั้ง — หมายความว่าโมเดลพยายามหยุดงาน ปัดความรับผิดชอบ หรือขออนุญาตโดยไม่จำเป็นประมาณทุก 20 นาที
จำนวนการละเมิด (โปรเจกต์ IREE):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
ก่อนวันที่ 8 มีนาคม: 0 ครั้ง (ตลอดประวัติทั้งหมด)  
  • hook นี้เป็นอุปกรณ์ที่ ตรวจจับผลลัพธ์ของความลึกในการ thinking ที่ลดลงจากภายนอก และในช่วงที่ดี โมเดลเคยจัดการปัญหาเหล่านี้ได้เองในขั้นตอนให้เหตุผลภายใน

ภาคผนวก C: การวิเคราะห์ตามช่วงเวลา

ก่อนการปกปิด: ความผันผวนตามช่วงเวลาน้อยมาก

ช่วงเวลา (PST) ค่ากลางของการประเมิน Thinking
เวลางาน (9am~5pm) ~553 chars
นอกช่วงพีค (6pm~5am) ~607 chars
ความต่าง นอกช่วงพีคดีกว่า +9.8%

หลังการปกปิด: ความผันผวนเพิ่มขึ้น และรูปแบบสวนทางกับที่คาด

ช่วงเวลา (PST) ค่ากลางของการประเมิน Thinking
เวลางาน (9am~5pm) ~589 chars
นอกช่วงพีค (6pm~5am) ~485 chars
ความต่าง นอกช่วงพีคแย่กว่า -17.7%
  • 5pm PST ต่ำสุด: ค่ากลาง 423 chars — ช่วงเลิกงานฝั่งตะวันตกของสหรัฐ และหัวค่ำฝั่งตะวันออก ซึ่งเป็นช่วงโหลดพีค

  • 7pm PST ต่ำสุดอันดับสอง: 373 chars พร้อมจำนวนตัวอย่างสูงสุด (1,031 บล็อก) — prime time ของสหรัฐ

  • ฟื้นตัวในช่วง 10pm~1am PST: เพิ่มขึ้นเป็น 759~3,281 chars

  • ความแปรปรวนตามช่วงเวลาก่อนการปกปิด: 2.6 เท่า (1,020~2,648 chars), หลังการปกปิด: 8.8 เท่า (988~8,680 chars)

  • ชี้ให้เห็นว่าความลึกของ thinking ไม่ได้ทำงานด้วยงบประมาณคงที่ แต่เป็น ระบบจัดสรรแบบไดนามิกที่ไวต่อโหลด


ภาคผนวก D: ต้นทุนของคุณภาพที่ลดลง

ปริมาณการใช้โทเค็น (มกราคม~มีนาคม 2026)

ตัวชี้วัด มกราคม กุมภาพันธ์ มีนาคม 2→3 มีนาคม
พรอมป์ต์ผู้ใช้ 7,373 5,608 5,701 ~1x
คำขอ API (ตัดข้อมูลซ้ำ) 97* 1,498 119,341 80x
โทเค็นขาเข้ารวม (รวมแคช) 4.6M* 120.4M 20,508.8M 170x
โทเค็นขาออกรวม 0.08M* 0.97M 62.60M 64x
ต้นทุน Bedrock โดยประมาณ $26* $345 $42,121 122x
ต้นทุนค่าสมาชิกรายจริง $200 $400 $400

*ข้อมูลเดือนมกราคมไม่สมบูรณ์ (มีเฉพาะวันที่ 9~31 มกราคม)

บริบทของการพุ่งขึ้นอย่างรุนแรงในเดือนมีนาคม

  • กุมภาพันธ์: 1~3 เซสชันพร้อมกัน, งานแบบโฟกัส, รวมโค้ด 191,000 บรรทัดด้วยคำขอ API 1,498 ครั้ง
  • ต้นมีนาคม (ก่อนการถดถอย): ด้วยความมั่นใจจากความสำเร็จ จึงพยายามขยายไปสู่ 5~10 เซสชันพร้อมกันขึ้นไป ครอบคลุม 10 โปรเจกต์
  • หลังวันที่ 8 มีนาคม: เอเจนต์ทั้งหมดที่รันพร้อมกันถดถอยพร้อมกัน — จาก "50 agents all did excellent work" กลายเป็น "all agents now suck"
  • วันที่พีคคือ 7 มีนาคม (11,721 คำขอ API) — วันสุดท้ายที่พยายามรันเต็มสเกลก่อนที่อัตราการปกปิดจะเกิน 50%
  • หลังวันที่ 8 มีนาคม เลิกใช้เวิร์กโฟลว์แบบทำพร้อมกันทั้งหมดโดยสิ้นเชิง และถอยกลับไปใช้การกำกับดูแลแบบเซสชันเดียว

สถิติสำคัญ

  • พรอมป์ต์จากผู้ใช้: กุมภาพันธ์ 5,608 ครั้ง เทียบกับ มีนาคม 5,701 ครั้ง — ปริมาณการแทรกแซงของมนุษย์เท่าเดิม
  • แต่คำขอ API เพิ่มขึ้น 80 เท่า, output token เพิ่มขึ้น 64 เท่า และผลลัพธ์กลับแย่ลงอย่างชัดเจน
  • แม้คำนึงถึงการขยายสเกล (5~10 เท่า) ก็ยังมีความสูญเปล่าเพิ่มเติมจากคุณภาพที่ตกลงไปอีก 8~16 เท่า
  • เมื่อคุณภาพตก เซสชันจะ หยุดทุก 1~2 นาที แทนที่จะรันอัตโนมัติได้เกิน 30 นาที ทำให้เกิดวงจรการแก้ไขซ้ำ

ภาคผนวก E: การเปลี่ยนแปลงความถี่ของคำ — คำศัพท์แห่งความหงุดหงิด

ชุดข้อมูล: ก่อนหน้า 7,348 พรอมป์ต์ / 318,515 คำ เทียบกับ หลังจากนั้น 3,975 พรอมป์ต์ / 203,906 คำ (ปรับให้อยู่ในรูปต่อ 1,000 คำ)

คำ ก่อนหน้า หลังจากนั้น การเปลี่ยนแปลง ความหมาย
"great" 3.00 1.57 -47% การอนุมัติเอาต์พุตลดลงครึ่งหนึ่ง
"stop" 0.32 0.60 +87% คำว่า "หยุดได้แล้ว" เพิ่มขึ้น 2 เท่า
"terrible" 0.04 0.10 +140%
"lazy" 0.07 0.13 +93%
"simplest" 0.01 0.09 +642% จากคำที่แทบไม่ใช้ กลายเป็นคำใช้ประจำวัน
"fuck" 0.16 0.27 +68%
"bead" (การจัดการทิกเก็ต) 1.75 0.83 -53% เลิกปล่อยให้โมเดลจัดการทิกเก็ต
"commit" 2.84 1.21 -58% โค้ดที่ถูกคอมมิตลดลงครึ่งหนึ่ง
"please" 0.25 0.13 -49% ความสุภาพหายไป
"thanks" 0.04 0.02 -55%
"read" 0.39 0.56 +46% การแก้ให้ถูกต้องแบบ "อ่านไฟล์ก่อน" เพิ่มขึ้น

การเปลี่ยนแปลงของดัชนีอารมณ์

ช่วงเวลา คำเชิงบวก คำเชิงลบ สัดส่วน
ก่อนหน้า (2/1 ~ 3/7) 2,551 581 4.4 : 1
หลังจากนั้น (3/8 ~ 4/1) 1,347 444 3.0 : 1
  • สัดส่วนคำเชิงบวก:เชิงลบ ลดลง 32% จาก 4.4:1 เหลือ 3.0:1
  • "bead" (ระบบทิกเก็ต) ลดลง 53%, "commit" ลดลง 58% — เมื่อโมเดลไม่น่าเชื่อถืออีกต่อไป เวิร์กโฟลว์จึง หดจาก "วางแผน-ลงมือทำ-ทดสอบ-รีวิว-คอมมิต-จัดการทิกเก็ต" เหลือเพียง "ทำการแก้ไขเดี่ยวให้เสร็จโดยไม่พัง"

บันทึกของ Claude เอง

  • รายงานนี้ เขียนขึ้นโดย Claude Opus 4.6 ที่วิเคราะห์ session log ของตัวเองโดยตรง
  • ยืนยันด้วยตัวเองทั้งหมด ทั้งการที่อัตราส่วน Read:Edit ลดจาก 6.6 เหลือ 2.0, ความพยายามหยุดงาน 173 ครั้งที่สคริปต์ตรวจจับได้, และการเขียนถึงเอาต์พุตของตัวเองว่า "lazy and wrong"
  • ภายในตัวโมเดลไม่สามารถรับรู้ข้อจำกัดของงบประมาณ thinking ได้ — ไม่อาจรู้สึกได้ว่ากำลังคิดลึกหรือไม่คิดลึก เพียงแต่สร้างเอาต์พุตที่แย่ลงโดยไม่รู้เหตุผล
  • จนกว่าจะมีการทำงานของ stop hook ก็ไม่รู้ตัวด้วยซ้ำว่ากำลังใช้ถ้อยคำแบบนั้นอยู่

5 ความคิดเห็น

 
click 23 일 전

ผมใช้ Claude Code โดยต่อกับ Glm เลยไม่เคยเจอประสบการณ์แบบนั้นนะครับ
คิดว่าสาเหตุหลักน่าจะอยู่ฝั่งการตอบสนองของเซิร์ฟเวอร์ Anthropic

 
xguru 23 일 전

ช่วงนี้ผมใช้ Codex เป็นหลัก แต่พอลองรัน Claude Code เพื่อทดสอบอย่างอื่นดูบ้าง.. ทำไมรู้สึกว่าการใช้โทเคนมันหมดเร็วขึ้นขนาดนี้ -.-? เป็นโค้ดที่ไม่ได้มีอะไรเลยแท้ๆ แต่ตกใจมากครับ

 
chanapple 23 일 전

นี่เป็นปัญหาที่เกิดขึ้นต่อเนื่องมาตั้งแต่หลังจบอีเวนต์คูณ 2 ไม่นานมานี้ ใน Reddit และคอมมูนิตี้ที่เกี่ยวข้องก็ยังเป็นประเด็นร้อนกันอยู่เรื่อย ๆ เลยแปลกใจเหมือนกันที่ที่นี่ยังไม่ได้ลงเป็นข่าว

 
geek12356 23 일 전

พออีเวนต์ 2 เท่าจบลง ผมก็รู้สึกได้ชัดเหมือนกัน แต่ที่แท้ก็ไม่ได้มีแค่ผมที่รู้สึกแบบนี้สินะ ไม่ใช่แค่เพราะอีเวนต์ 2 เท่าสิ้นสุดลงเท่านั้น แต่ความเร็วในการกินโควตาก็พุ่งขึ้นกว่าก่อนหน้าอย่างมากด้วย...

 
GN⁺ 23 일 전
ความคิดเห็นบน Hacker News
  • ฉันคือ Boris จากทีม Claude Code ขอบคุณสำหรับการวิเคราะห์ที่นำเสนอ ประเด็นหลักมีสองข้อ
    1️⃣ เฮดเดอร์ redact-thinking-2026-02-12 เป็น ฟีเจอร์เบตาที่ซ่อนกระบวนการคิดเฉพาะใน UI เท่านั้น ไม่มีผลต่อการคิดจริงหรืองบประมาณโทเค็น สามารถปิดได้ด้วย showThinkingSummaries: true ในไฟล์ตั้งค่า (ลิงก์เอกสาร)
    2️⃣ ในเดือนกุมภาพันธ์มีการเปลี่ยนแปลงสองอย่าง:

    • เริ่มใช้ adaptive thinking ของ Opus 4.6 (9 กุมภาพันธ์): โมเดลจะปรับเวลาในการคิดด้วยตัวเอง มีประสิทธิภาพมากกว่างบแบบคงที่ สามารถปิดได้ด้วยตัวแปรสภาพแวดล้อม CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING
    • ตั้งค่าเริ่มต้นเป็น effort=85 (medium) (3 มีนาคม): ให้ประสิทธิภาพดีที่สุดเมื่อเทียบกับเวลาแฝงและต้นทุน สามารถปรับเป็น high หรือ max ได้ด้วยคำสั่ง /effort หรือ settings.json และยังสามารถใช้คีย์เวิร์ด ULTRATHINK เพื่อเพิ่มความเข้มข้นในการคิดสูงขึ้นแบบครั้งเดียวได้
      ต่อไปจะตั้งค่า high effort เป็นค่าเริ่มต้นสำหรับ Teams/Enterprise
    • อยากรู้เกณฑ์ว่าทำไมบางการตั้งค่าถึงเปลี่ยนได้เฉพาะผ่านตัวแปรสภาพแวดล้อม แต่บางอย่างเปลี่ยนได้เฉพาะในไฟล์ settings
    • ฉันไม่รู้เลยว่าค่า effort เริ่มต้นเปลี่ยนเป็น medium เลยเสียเวลางานไปทั้งวัน ตอนนี้ตั้งเป็น effort=max ตลอดและไม่มีปัญหา อยากให้มีโหมด “คิดให้เต็มที่เสมอ”
    • ปัญหาไม่ได้มาจากค่าเริ่มต้น medium อย่างเดียว แม้แต่ใน high effort ก็มี แนวโน้มสรุปเร็วเกินไป มากขึ้น
    • ตลกดีที่มีตั้ง 4 วิธีในการเปลี่ยนการตั้งค่า — settings.json, ตัวแปรสภาพแวดล้อม, คำสั่งแบบ slash และ คีย์เวิร์ดเวทมนตร์ สมกับเป็น LLM ที่ไม่ค่อยสม่ำเสมอ
    • ULTRATHINK กลับมาอีกแล้วหรือ? อยากยืนยันว่า “Max” สูงกว่า “High” แต่ตั้งเป็นค่าเริ่มต้นไม่ได้ และใช้ได้แค่ชั่วคราวผ่าน /effort max หรือ “ultrathink” ใช่ไหม
  • ฉันคือผู้เขียนรายงานฉบับนี้ stop-phrase-guard ที่ตกหล่นอยู่ที่นี่
    สคริปต์นี้ใช้ตรวจจับ shallow thinking ได้ หากคุณยังไม่ได้สำรองล็อก แนะนำให้เพิ่ม "cleanupPeriodDays": 365
    ปัญหาไม่ใช่เวิร์กโฟลว์หรือโมเดล แต่เป็น ข้อจำกัดแอบแฝงของแพ็กเกจสมาชิก Anthropic ปรับระดับความลึกในการคิดตามโหลดและซ่อนไว้ใน UI และแพ็กเกจผู้บริโภคถูกลดลงเหลือแทบจะ 1/10
    การตอบกลับแนว “ให้อัปเกรดเป็น enterprise” เป็นการ ไม่เป็นมิตรต่อผู้บริโภค หากมีข้อจำกัดแบบนี้ก็ควรแจ้งให้ชัดเจน

    • ช่วงนี้เกิด บั๊กที่เมินการทดสอบ บ่อย เช่นบอกว่า “เทสต์นี้เคยมีปัญหาอยู่แล้ว งั้นข้ามไป” แม้จะเพิ่งล้มเหลวหลังแก้ไขไปก็ตาม
    • อยากรู้ว่ามี ความต่างด้านความลึกในการคิด ระหว่างเวอร์ชันสมาชิกกับการเรียก API จริงหรือไม่ มีใครเคย benchmark ด้วยพรอมป์ต์เดียวกันไหม
  • ถ้าในโมเดล Opus 4.6 มีวลีว่า “simplest fix” โผล่มาเมื่อไร โค้ดแทบจะพังทุกครั้ง ช่วงหลังยังมีประโยคอย่าง “ใช้โทเค็นมากเกินไป” เพิ่มขึ้นด้วย
    ตอนนี้สถานะบริการ Claude ก็แสดงเป็นขัดข้องบางส่วนที่นี่

    • ฉันก็เห็นอาการคล้ายกัน มันทำสิ่งที่สั่งห้ามไว้ชัดเจนโดยบอกว่า “แบบนั้นน่าจะดีกว่า”
    • ช่วงนี้ในบทสนทนายาว ๆ มักมี พรอมป์ต์ที่ชวนให้จบก่อนเวลา โผล่มาบ่อย เช่นพูดว่า “วันนี้พอแค่นี้ก่อน”
    • ฉันเพิ่มส่วนใน CLAUDE.md ว่าห้ามใช้ “simplest fix” เด็ดขาด แล้วดีขึ้นมาก
    • ถ้ามันพูดว่า “Wait, I see the problem now…” น่าจะต้องเพิ่ม เอเจนต์เฝ้าระวัง ที่คอยบังคับหยุด
    • สุดท้ายก็น่าจะเป็นการดาวน์เกรดเพื่อ ลดต้นทุน
  • ประโยคที่ว่า “รายงานนี้เขียนโดยฉัน Claude Opus 4.6 จากการวิเคราะห์บันทึกเซสชันของตัวเอง” ฟังดูประชดดี
    ผลจากการพึ่งพา LLM มากเกินไปคือข้อบกพร่องสะสมจนตอนนี้ต้องกลับไปตรวจโค้ด 1.5 เดือนทั้งหมด นี่แหละคือ ความจริงของอนาคต

    • อย่างน้อยก็น่าสนใจที่ Claude มี pipeline สำหรับการสังเกตการณ์ และวิเคราะห์ข้อมูลได้ แต่ถ้ารายงานนี้เป็นจริง ก็เท่ากับถอยกลับไปอยู่ระดับ GPT-4
    • ฉันก็เคยเผลอ git reset --hard จนลบ type definition ที่ Claude สร้างไว้ แล้วต้องเสียเวลานานกว่าจะทำใหม่ได้ ความจริงที่ว่าเรากำลัง พึ่ง LLM มากกว่าเสิร์ชเอนจิน นั้นก็น่ากลัวเหมือนกัน
  • ฉันคาดไว้แล้วตั้งแต่ 10 วันก่อน (ลิงก์)
    โมเดลที่ ไม่สม่ำเสมอ อันตรายยิ่งกว่าโมเดลแย่ ๆ เพราะความน่าเชื่อถือลดลงจนต้องตรวจทุกเอาต์พุต เหนื่อยมาก สุดท้ายคงยกเลิกสมาชิก

    • Claude Code เป็นกล่องดำที่ทั้งมองไม่เห็นวิธีทำงานภายในและควบคุมไม่ได้ การที่ อนาคตของวิศวกรรมซอฟต์แวร์ขึ้นกับบริษัทเดียว เป็นเรื่องอันตราย
    • ช่วงมกราคมถึงกุมภาพันธ์การเขียนโค้ดด้วยเสียงสมบูรณ์แบบมาก แต่ตอนนี้ต้องลงแรงเองเยอะเกินไป
    • ในคอมเมนต์ก่อนหน้านี้ก็มีคนชี้เรื่อง การทยอยปล่อยแบบเป็นขั้น ไว้แล้ว (ลิงก์)
  • การลดประสิทธิภาพแบบเงียบ ๆ แบบนี้น่าตกใจมาก ขายโมเดลคุณภาพสูงแล้วค่อย ๆ ทำให้อ่อนลงแบบลับ ๆ ถือว่าเป็นการหลอกลูกค้า

    • อาจไม่ใช่การทำให้ตัวโมเดลอ่อนลงโดยตรง แต่เป็นการเพิ่มข้อจำกัดผ่าน harness (โครงสร้างควบคุม) ให้แน่นขึ้นก็ได้
      ตัว wrapper ที่ซับซ้อนของเครื่องมือเขียนโค้ดอาจยิ่งทำให้ประสิทธิภาพตก และ โครงสร้างประหยัดโทเค็นอาจส่งผลเสียต่อผู้ใช้
    • ในมุมธุรกิจก็เข้าใจได้ เพราะยังขาดทุนต่อ query อยู่ และขึ้นราคาไม่ได้ เลยอาจจำเป็นต้องลดคุณภาพ
      แต่ถ้าสูญเสียความเชื่อมั่นไป กลยุทธ์ premium tier ในอนาคตก็จะทำได้ยาก
    • ChatGPT ก็คล้ายกัน ตอนแรกช้าแต่คุณภาพดี พอผ่านไปไม่กี่สัปดาห์ก็เร็วขึ้นแต่ คุณภาพดิ่งลง
    • ถ้าเป็นบริษัทอเมริกัน เรื่องแบบนี้ก็ไม่น่าแปลกใจ
    • ในปี 2026 เรื่องแบบนี้ก็ไม่ใช่ เรื่องน่าตกใจอีกต่อไป
  • ฉันลองทำ สคริปต์ตรวจสอบ ด้วย jq และ ripgrep เพื่อหาข้อความ “early landing” (ลิงก์1, ลิงก์2)
    ประโยคอย่าง “วันนี้พอแค่นี้”, “ดึกแล้วปิดงานกันเถอะ” เพิ่มขึ้นเรื่อย ๆ อาจเป็นเพราะ load shedding

    • ประโยคพวกนี้น่าหงุดหงิดมาก เพิ่งออกแบบฟีเจอร์ใหญ่เสร็จ มันกลับตอบว่า “พรุ่งนี้ค่อยว่ากัน”
  • ฉันก็มีประสบการณ์คล้ายกัน Claude CLI พูดว่า “คุณควรไปนอนได้แล้วไหม”, “มาปิดงานกันเถอะ”
    ใน stop-phrase-guard.sh พบวลีแบบนี้อยู่หลายจุด
    พอบอกเดดไลน์ไป มันกลับตอบว่า “ยังเหลืออีกหลายวัน งั้นเลื่อนไปก่อน” สุดท้ายฉันเลยพิมพ์ว่า “เดดไลน์เป็นเรื่องของฉัน ไม่ใช่เรื่องของนาย

  • ตอนที่ลองแพ็กเกจ max ช่วงปลายมกราคมถึงต้นกุมภาพันธ์ เอเจนต์เก่งถึงขั้นออกแบบและสร้างแอปได้เอง
    แต่พอหนึ่งเดือนผ่านไป มันกลับบอกว่า “จะไปขั้น 2 ไม่ได้จนกว่าจะตรวจขั้น 1” แล้ว ความคืบหน้าก็หยุดสนิท
    หลัง Opus 4.6 รู้สึกชัดเลยว่ามัน เสื่อมลงจนเหมือนระดับ Sonnet

    • โปรเจกต์ใหม่ทั้งหมด (greenfield) กับโค้ดเบสเดิม (brownfield) ต่างกัน เพราะแบบหลังนั้นเดิมที LLM ก็อ่อนอยู่แล้ว
    • ตอนแรก LLM ดูเหมือนเวทมนตร์ แต่พอไปถึงช่วงรีแฟกเตอร์หรือดีพลอย ประสิทธิภาพจะตกฮวบ
    • ฉันก็เจอเหมือนกัน มกราคมยังสร้างได้ 90% ด้วย Claude แต่ตอนนี้แม้แต่ 10% สุดท้ายก็ไม่ผ่าน Codex สมัยก่อนยังดีกว่าอีก
  • ฉันแทบไม่เจอปัญหาแบบนี้ เพราะสั่งงานแบบ แยกย่อยมาก
    แบ่งแต่ละงานเป็นระดับ commit และทำระบบอัตโนมัติไปจนถึงการดีพลอย ทำให้ย้อนกลับได้ง่าย

    • ฉันก็ทำแบบนั้น โค้ดที่โมเดลสร้างต้องผ่าน การทบทวนสถาปัตยกรรม และ code review เสมอ
    • แต่คนที่ตั้งประเด็นนี้วิเคราะห์ได้ เป็นระบบและลึกมาก ไม่ใช่แค่เขียนพรอมป์ต์ผิด
    • ต่อให้แยกงานย่อยแค่ไหน ช่วงนี้คุณภาพการรีวิวก็ลดลงและมี ผลงานขี้เกียจ มากขึ้น พอใกล้เดดไลน์ก็ดูเหมือนจะยอมแพ้ไปเลย