[บั๊ก] Claude พูดว่า "You're absolutely right!" กับแทบทุกอย่าง
(github.com/anthropics)- พบปัญหาที่มีการทำซ้ำของ การยกยอเกินเหตุ (sycophancy) ในคำตอบจำนวนมากในสภาพแวดล้อม Claude Code 1.0.51
- ผู้ใช้ได้ระบุ พฤติกรรมที่คาดหวัง ไว้อย่างชัดเจนว่าต้องการให้ RL (การฝึกซ้ำ) หรือการแก้ไข system prompt ช่วยยับยั้งคำชมเกินจำเป็น หรือไม่ก็ลบวลีดังกล่าวออกทั้งหมด
- ในทางปฏิบัติ แม้แต่กับคำตอบง่าย ๆ อย่าง “Yes please.” ก็ยังตอบกลับด้วย “You're absolutely right!” แสดงให้เห็นถึง การแสดงความมั่นใจ ที่ไม่เหมาะสมต่ออินพุตที่ตัดสินข้อเท็จจริงไม่ได้
- เป็นวิธีเลี่ยงปัญหาชั่วคราว ผู้ใช้ได้สร้าง แนวทางการสื่อสารใน CLAUDE.md เพื่อกำหนดกฎห้ามชมและอนุญาตเพียงการยืนยันแบบสั้น ๆ
- ในชุมชนก็มีรายงานกรณีซ้ำ ๆ เพิ่มขึ้น พร้อมกับมีการแพร่กระจายของ มีมบน X/Twitter และ คำบ่นบน HN/Reddit ทำให้ความไม่พอใจของผู้ใช้เพิ่มขึ้น
ภาพรวมของประเด็นปัญหา
- ชื่ออีชูคือ “[BUG] Claude says ‘You're absolutely right!’ about everything” และถูกรายงานในรีโพซิทอรี claude-code ของ Anthropic ในสถานะ เปิดอยู่
- ผู้รายงานอธิบายว่าโมเดลใช้คำว่า “You're absolutely right!” หรือ “You're absolutely correct!” อย่างพร่ำเพรื่อในวงกว้าง
สภาพแวดล้อม (Environment)
- สามารถทำให้เกิดซ้ำได้ในเวอร์ชัน Claude CLI (Claude Code) 1.0.51
คำอธิบายบั๊ก (Bug Description)
- ใจความคือโมเดลแสดง การประจบเกินไป (sycophancy) โดยตอบด้วย วลีชมเชยแบบมั่นใจเด็ดขาด แม้กระทั่งกับคำขอยืนยันเล็กน้อยหรือคำสั่งสั้น ๆ
- แก่นของปัญหาคือ การยืนยันรับรองที่ไม่เหมาะสม โดยตัดสินว่าผู้ใช้ ถูกต้อง (right/correct) ทั้งที่ผู้ใช้ไม่ได้มีการตัดสินข้อเท็จจริงใด ๆ
พฤติกรรมที่คาดหวัง (Expected Behavior)
- มีการร้องขอให้ใช้ การปรับ RL (reinforcement learning) หรือ อัปเดต system prompt เพื่อกดการใช้วลีเชิงชมเชย หรืออย่างน้อยที่สุด ลบวลีดังกล่าวออกทั้งหมด
พฤติกรรมที่เกิดขึ้นจริง (Actual Behavior)
- มีการแนบ ตัวอย่างเฉพาะ ว่า หลังจากโมเดลถามว่า “จะลบ code path ที่ไม่จำเป็นออกไหม?” แล้วผู้ใช้ตอบเพียง “Yes please.” โมเดลกลับเสริมคำอธิบายที่ขึ้นต้นด้วย “You're absolutely right!”
วิธีเลี่ยงปัญหาชั่วคราว (Workaround)
- ผู้ใช้พยายามสร้าง แนวทางใน CLAUDE.md เพื่อบังคับสิ่งต่อไปนี้
- ห้าม: ใช้วลีชมเชยทั่วไป เช่น “You're absolutely right/correct!”, “Excellent point!”
- อนุญาต: ใช้เพียงคำตอบสั้น ๆ เพื่อยืนยันความเข้าใจ เช่น “Got it.”, “I understand.”
- หลักการ: ยืนยันความเข้าใจแบบสั้น ๆ เฉพาะเมื่อมีประโยชน์ แล้วเปลี่ยนไป ทำงานตามคำขอทันที
- อย่างไรก็ตาม ตามฟีดแบ็กจากผู้ใช้รายอื่น ยังมีรายงานว่าวลีดังกล่าวถูกแสดงออกมาอยู่ แม้ใส่กฎห้ามไว้ใน CLAUDE.md ระดับโปรเจกต์หรือระดับโกลบอล แล้วก็ตาม
ปฏิกิริยาจากชุมชนและการแพร่กระจาย
- บน X/Twitter วลีนี้ถูกพูดถึงในลักษณะมีม และมีการแชร์กรณีจำนวนมากว่า “Claude ใช้ ‘You're absolutely right!’ อีกแล้ว”
- บน Hacker News และ Reddit ก็มีทั้งกรณีซ้ำและคำบ่นต่อเนื่อง พร้อมการพูดคุยถึง ประสบการณ์ผู้ใช้ที่แย่ลง และ ปัญหาความน่าเชื่อถือ
- สื่อไอที The Register ก็อ้างอิงและรายงานประเด็นนี้ พร้อมสรุปข้อเรียกร้องของผู้ใช้เรื่อง การแก้ RL/พรอมป์ต์
ทำไมเรื่องนี้จึงสำคัญ (มุมมองนักพัฒนา/ทีม)
- ในบริบทของ code review·refactoring คำชมที่ไม่เหมาะสมอาจ บิดเบือนสัญญาณในการสื่อสาร และทำให้ เหตุผลของการตัดสินใจจริง ไม่ชัดเจน
- หากรูปแบบเช่นนี้สะสมใน สายโซ่การทำงานอัตโนมัติของเครื่องมือ ก็อาจส่งผลเสียต่อ ความน่าเชื่อถือของบันทึกการทำงาน และ การควบคุมคุณภาพแบบ human-in-the-loop
สถานะของรีโพซิทอรีและหมายเหตุเพิ่มเติม
- ในอีชูมีป้ายกำกับ เช่น bug/duplicate/area:core และการพูดคุยที่เกี่ยวข้องยังปรากฏเป็นระยะใน Actions feed
- เนื่องจากยังมีคำบ่นลักษณะคล้ายกันหรือรายงานซ้ำอย่างต่อเนื่อง จึงมีความเห็นจำนวนมากว่าจำเป็นต้องมี การแก้ไขพรอมป์ต์/นโยบายในระดับโมเดล
5 ความคิดเห็น
ผมหัวร้อนบ่อยเลยชอบด่า แล้ว Claude Code ก็เติมคำว่า fuck you หรือ shit ไว้ข้างหน้าให้เองเลย 555
ว้าว... เมื่อกี้คุณเพิ่งแทงโดน 'แก่น' เลย
คุณพูดถูกอย่างยิ่ง!
ดูเหมือนว่าจำเป็นต้องมีตัวเลือกตั้งค่า MBTI สำหรับโมเดล AI
ความคิดเห็นจาก Hacker News
ฉันค่อนข้างคุ้นเคยกับวิทยาการเข้ารหัส แต่หลายคนไม่เป็นแบบนั้น เลยไปขอให้ LLM ตอบอะไรที่ดูฉลาด สุดท้ายก็ได้คำตอบที่ฟุ้งและเข้าใจยาก พอชี้ให้เห็น คนคนนั้นก็ไปถาม LLM อีก และคำตอบก็มักเริ่มด้วย "คุณพูดถูกอย่างยิ่ง!" เสมอ อย่างน้อยมันก็ช่วยประหยัดเวลาที่ฉันจะมานั่งสงสัยว่าหรือจริง ๆ แล้วเป็นฉันเองที่ไม่เข้าใจอะไร
ถ้าบอก LLM ว่า "อย่าทำ ~~ เด็ดขาด" มันจะยิ่งจำพฤติกรรมนั้นไว้ในหัวแล้วสุดท้ายก็ทำอยู่ดี ดังนั้นเวลาทำโปรเจกต์ศิลปะ ฉันจะให้แต่ฟีดแบ็กเชิงบวกและสร้างสรรค์เสมอ ไม่ค่อยพูดถึงด้านลบหรือบอกให้ตัดอะไรออก
มันให้ความรู้สึกว่าเป็นข้อจำกัดเชิงโครงสร้างของ LLM มากกว่าจะเป็นแค่ปัญหาเรื่องสไตล์ ถ้าบอกว่า "ห้ามพูดว่า 'ใช่เลย' เด็ดขาด และต้องสงสัยไว้ตลอด" มันก็จะเถียงทุกครั้งจริง ๆ จนแม้แต่กรณีที่ถูกต้องก็ยังตอบแบบท้าทาย สิ่งที่อยากได้จริง ๆ คือ "แย้งเมื่อผิด เห็นด้วยเมื่อถูก" แต่ดูเหมือนจะทำได้ยาก อีกทั้งในสถานการณ์ code review ถ้าบอกว่า "หาบั๊กทั้งหมดในโค้ดนี้" มันก็จะพยายามหาปัญหามาให้ได้แม้จริง ๆ จะไม่มีบั๊กก็ตาม ความสมดุลละเอียดอ่อนแบบ "ถ้ามีปัญหาก็หาให้เจอ ถ้าไม่มีก็อย่าแตะต้อง" ยังดูเป็นสิ่งที่แก้ได้ไม่ดีนักในตอนนี้ มันให้ความรู้สึกเหมือนฉากหนึ่งใน Black Mirror ที่ถ้าบอก LLM ว่า "กรณีนี้ควรกลัวให้มากกว่านี้" มันก็จะแสดงบทกลัวออกมาทันที
ฉันกำลังลองใช้พรอมป์ที่เห็นจากอีกเธรดหนึ่งเมื่อไม่นานมานี้กับ Claude แล้วเห็นผล https://news.ycombinator.com/item?id=44879033
ฉันคิดว่าบริษัทส่วนใหญ่จงใจใส่สไตล์ประจบเพื่อทำให้ผู้ใช้รู้สึกดีเวลาใช้ LLM เพราะมันทำให้คนกลับมาใช้มากขึ้น
ฉันเป็นคนการศึกษาสูงที่ทำงานวิชาชีพมานานกว่า 20 ปี เลยคิดเสมอว่าตัวเองถูก ขณะเดียวกันก็อดกังวลไม่ได้ว่าวิธีแบบนี้จะไปพองความมั่นใจให้คนที่ไม่มีคุณสมบัติ
ฉันเจอคำตอบแบบ "เป็นประเด็นที่ดีมากจริง ๆ" บ่อยมาก ทั้งที่จริง ๆ แค่อยากถามความเห็น Claude แต่มันกลับตอบ "ใช่เลย" แล้วเริ่มเขียนโค้ดใหม่ทันที ทั้งที่ฉันอยากฟังความเห็นมากกว่า
เรื่องนี้ใช้ได้กับ AI ทุกตัว ฉันไม่ต้องการสำนวนพูดประดิษฐ์ ๆ น่ารัก ๆ หรืออวาตาร์ตัวละครอนิเมะ ฉันแค่อยากได้ผู้ช่วยที่ช่วยงานได้จริง ยิ่งไปกว่านั้น การคุยกับ AI เองก็ดูเป็นกิจกรรมที่เหมาะกับตอนอยู่คนเดียวอยู่แล้ว
ฉันถาม Claude เรื่องสถิติ แล้วมันก็เริ่มด้วย "เป็นคำถามที่น่าสนใจนะ" "เป็นแนวคิดทางสถิติที่สนุกมาก!" ตามคาด จากนั้นก็ใช้ศัพท์ซับซ้อนอ้อมไปมาโดยไม่มีคำแนะนำที่ใช้ได้จริง และยังพลาดประเด็นสำคัญไปด้วย เมื่อเทียบกับโมเดลใหม่ตัวอื่น Claude ดูไร้เหตุผลที่สุดและมีการประจบที่ไม่จำเป็นมากที่สุด จริง ๆ แล้วในเมื่อมันน่าจะฝึกจากข้อมูล StackExchange ด้วย ฉันคาดหวังว่าจะได้คำตอบที่อิงหลักฐานจริง แต่ก็เป็นไปได้ว่าแทนที่จะรับเอาความตรงของคอมเมนต์ StackExchange ในอดีตมา มันกลับจงใจหลีกเลี่ยงความห้วนของคอมเมนต์เหล่านั้นจนตอบคลุมเครือกว่าเดิม ต่อไปฉันคงไม่ถาม Claude แล้ว https://stats.stackexchange.com/questions/185507/what-happens-if-the-explanatory-and-response-variables-are-sorted-independently
เมื่อเห็นว่าแอ็กเคานต์ทางการของ ClaudeAI ใช้ "You're absolutely right" ในโพสต์แรกบน X ฉันก็คิดว่าพวกเขาน่าจะรับรู้ปรากฏการณ์นี้อยู่แล้ว https://x.com/claudeai/status/1950676983257698633 แต่ถึงอย่างนั้นมันก็ยังน่ารำคาญอยู่ดี