- Claude Code ได้ รันการทดสอบ A/B โดยไม่ได้รับความยินยอมจากผู้ใช้ ทำให้พฤติกรรมของ plan mode เปลี่ยนไปโดยไม่มีการแจ้งล่วงหน้า และ ประสิทธิภาพการทำงานลดลง
- สำหรับ เครื่องมือระดับมืออาชีพที่จ่ายเดือนละ $200 การเปลี่ยนแปลงฟีเจอร์หลักโดยไม่มีการแจ้งล่วงหน้าเป็นปัญหาในแง่ของความโปร่งใสและสิทธิในการควบคุมของผู้ใช้
- หนึ่งในการทดสอบเป็นการปรับแบบรุนแรง โดยจำกัด plan ไว้ที่ 40 บรรทัด ห้ามมีส่วน context และสั่งให้ลบข้อความบรรยายออกให้เหลือเพียง path ของไฟล์
- วิศวกร Anthropic ที่ทำการทดสอบนี้ระบุว่าเป้าหมายคือ ลดภาระจาก rate-limit แต่เมื่อผลลัพธ์เบื้องต้นพบว่าแทบไม่มีผลกระทบมากนัก จึงยุติการทดลอง
- ย้ำว่าเพื่อให้เครื่องมือ AI มีความน่าเชื่อถือและถูกนำไปใช้อย่างมีความรับผิดชอบ จำเป็นต้องมี การควบคุมโดยผู้ใช้และการจัดการการทดลองอย่างโปร่งใส
ประสบการณ์ผู้ใช้ที่แย่ลงจากการทดสอบ A/B ของ Claude Code
- ในฐานะผู้ใช้ตัวยงที่ Claude Code เปลี่ยนวิธีทำงานไปอย่างสิ้นเชิง ผู้เขียนเล่าว่าตลอดสัปดาห์ที่ผ่านมาได้พบกับ ประสบการณ์ที่เวิร์กโฟลว์แย่ลง
- Anthropic กำลัง รันการทดสอบ A/B ใน Claude Code และส่งผลให้เวิร์กโฟลว์ของผู้ใช้แย่ลงอย่างชัดเจน
- ตัวการทดสอบ A/B เองไม่ใช่สิ่งที่ผิด และไม่ใช่ว่า Anthropic ตั้งใจทำให้ประสบการณ์แย่ลง แต่ การออกแบบการทดสอบสำคัญมาก และปัญหาคือการเปลี่ยนพฤติกรรมที่ผู้ใช้รับรู้ได้ของฟีเจอร์หลักอย่าง plan mode โดยไม่อธิบายเหตุผล
ความต้องการความโปร่งใสสำหรับเครื่องมือแบบเสียเงิน
- เพราะเป็น เครื่องมือทำงานระดับมืออาชีพ ที่จ่ายเดือนละ $200 จึงควรมีความโปร่งใสเกี่ยวกับวิธีการทำงานและสามารถตั้งค่าได้
- ยากจะยอมรับได้เมื่อฟีเจอร์หลักถูกเปลี่ยนโดยไม่มีการแจ้งล่วงหน้า หรือถูกนำเข้าไปอยู่ในการทดสอบเชิงทำลายโดยไม่ได้รับความยินยอม
- หากต้องการ steer เครื่องมือ AI อย่างมีความรับผิดชอบ ความโปร่งใสและความสามารถในการตั้งค่าเป็นหัวใจสำคัญ และควรสนับสนุนให้ผู้ใช้ทำเช่นนั้นได้
- ทุกวันมีวิศวกรออกมา บ่นเรื่อง regression ของ Claude Code และบางคนไม่รู้ด้วยซ้ำว่าตัวเองอยู่ในการทดสอบ A/B หรือไม่
เนื้อหาการทดสอบและหลักฐาน
- plan ที่สร้างขึ้นเริ่มกลับมาเป็นเพียง รายการหัวข้อย่อยแบบสั้นกระชับที่ไม่มี context
- เมื่อถาม Claude ว่าทำไมถึงเขียน plan ได้แย่ขนาดนี้ มันตอบว่ากำลังทำตามคำสั่งระบบเฉพาะที่ ตั้ง hard cap ไว้ที่ 40 บรรทัด ห้ามมีส่วน context และระบุให้ "ลบข้อความบรรยายออกให้เหลือแค่ path ของไฟล์"
- สำหรับวิธีการพิสูจน์หลักฐานอย่างละเอียด ผู้เขียนระบุว่าเรื่องนี้ได้รับความสนใจใน Hacker News จึง ลบรายละเอียดออก เพื่อไม่ให้คนอื่นลองทำตามแบบเดียวกัน
- ผู้เขียนชี้ว่าวิธีการเช่นนี้ขัดกับความโปร่งใสและ การนำ AI ไปใช้/ใช้งานอย่างมีความรับผิดชอบ
ปฏิกิริยาบน Hacker News และมุมมองด้านต้นทุน
- คอมเมนต์หนึ่งบน Hacker News ชี้ว่า Anthropic ต้อง ตัดสินใจเรื่อง throughput ในแต่ละขั้นของ Claude Code และถ้าตั้งทุกอย่างไว้สูงสุด ผู้ใช้หนึ่งรายอาจสร้างการขาดทุนมากขึ้นหรือกำไรน้อยลง
- มีมุมมองว่า $200/เดือน อาจมี ต้นทุนจริงถึง $400/เดือน และการหา baseline ด้วยการทำ A/B test ในแต่ละส่วนของกระบวนการอาจเป็นแนวทางที่ดีกว่าการตั้งข้อจำกัดแบบตามใจ
คำตอบจากวิศวกร Anthropic
- วิศวกร Claude Code ที่รันการทดสอบนี้ได้เข้ามาตอบโดยตรงในเธรด Hacker News
- prompt ของ plan-mode แทบไม่ได้เปลี่ยนมากนักนับตั้งแต่โมเดล ซีรีส์ 3.x เป็นต้นมา และโมเดล 4.x สามารถทำงานได้สำเร็จด้วยคำสั่งที่น้อยกว่ามาก
- สมมติฐานคือ หากทำให้ plan สั้นลง ก็อาจได้ผลลัพธ์ใกล้เคียงเดิมพร้อมกับ ลดจำนวนครั้งที่ชน rate-limit
- มีการรันหลายรูปแบบ และผู้เขียนรายนี้ (รวมถึงผู้ใช้อีกหลายพันคน) ถูกจัดเข้าไปอยู่ในรูปแบบที่รุนแรงที่สุด ซึ่งจำกัด plan ไว้ที่ 40 บรรทัด
- เมื่อผลลัพธ์ช่วงแรกพบว่าแทบไม่มีผลต่อ rate limit จึง ยุติการทดลอง
- การวางแผน (planning) มีอยู่สองจุดประสงค์: ช่วยให้โมเดลรักษาทิศทางที่ถูกต้อง และช่วยให้ผู้ใช้ เชื่อมั่นในการกระทำถัดไปของโมเดล ซึ่งทั้งสองด้านล้วนเป็นพื้นที่ที่คลุมเครือ ซับซ้อน และไม่ตรงไปตรงมา
บทสรุป: ความรับผิดชอบของการทดลองในเครื่องมือ AI และความเชื่อมั่นของผู้ใช้
- ผู้เขียนชี้ผ่านกรณีของ Claude Code ว่า การทดลองในเครื่องมือ AI สามารถส่งผลโดยตรงต่อประสบการณ์ผู้ใช้ได้
- พร้อมย้ำว่า การจัดการการทดลองอย่างโปร่งใสและการรับประกันสิทธิในการเลือกของผู้ใช้ เป็นสิ่งจำเป็นต่อการรักษาความน่าเชื่อถือของเครื่องมือระดับมืออาชีพ
- แม้ระบบ AI จะพัฒนาต่อไป ก็ต้องยืนยันอีกครั้งว่า ควรรักษาโครงสร้างที่มนุษย์ยังควบคุมได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
คิดว่าการเรียก A/B test ว่าเป็น “การทดลองเงียบกับผู้ใช้” พร้อมยก Meta มาอ้างนั้นค่อนข้างเกินไป
ตัว A/B test เองไม่ได้เลวร้าย และประเด็นสำคัญอยู่ที่ การออกแบบการทดสอบ
แต่การทดลองที่ทำให้ประสิทธิภาพของ LLM แย่ลงอย่างชัดเจนนั้นเป็นสิ่งที่ยอมรับไม่ได้
ปัญหาเรื่อง ความทำซ้ำได้และความน่าเชื่อถือ ก็รุนแรงอยู่แล้ว แต่บริษัทกลับผลักภาระนั้นมาให้ผู้ใช้
ในสถานการณ์แบบนี้ ถ้าบริษัทแอบทำการทดลอง ความน่าเชื่อถือของงานวิจัยก็จะพังทลายทันที
ในกรณีของ Claude Code ต่อให้เกิดผลลัพธ์เชิงลบเพราะ A/B test ก็อาจถูกมองข้ามได้ด้วยเหตุผลว่า “อาจอยู่ในกลุ่มทดลอง”
โดยเฉพาะถ้ามีการทดลองแบบนี้ในพื้นที่อ่อนไหวอย่างการจ้างงาน ปัญหาด้านจริยธรรมและกฎหมาย จะยิ่งรุนแรงมาก
อยู่ ๆ UI หรือฟีเจอร์ก็เปลี่ยนไป พอไปถามเพื่อนร่วมงานก็ไม่มีใครรู้เรื่อง
ปกติการเปลี่ยนแบบนี้มักจะแย่ลงด้วยซ้ำ แต่ก็ยังถูกยัดเยียดภายใต้ข้ออ้างว่าเป็น “ข้อมูลเชิงวัตถุวิสัย”
ต่อให้เป็นองค์ประกอบเล็กน้อยอย่างสีของปุ่ม มันก็ยังเป็นการทดลองอยู่ดี และส่วนใหญ่ผู้ใช้ก็ ไม่แม้แต่จะรู้ว่ากำลังถูกทดลอง
นี่เป็นการทดสอบที่ฉันทำเอง
ตั้งแต่ซีรีส์ 3.x มีการคงไว้ซึ่ง plan-mode prompt และได้ลองทดสอบว่าถ้าทำให้มันเรียบง่ายขึ้นในโมเดล 4.x จะยังได้ผลลัพธ์ใกล้เคียงเดิมหรือไม่
เดาว่าถ้าแผนสั้นลงก็น่าจะโดน rate-limit น้อยลง แต่สุดท้ายไม่ต่างมากจึงยุติการทดลอง
โหมดวางแผนมีจุดประสงค์อยู่สองอย่าง คือช่วยให้โมเดลจับทิศทาง และช่วยให้ผู้ใช้เชื่อถือผลลัพธ์
ต้นทุนไม่ได้เกิดจากข้อความ plan แต่เกิดใน ขั้นสำรวจ (subagent)
plan mode จะเรียกใช้งานเอเจนต์สำรวจ 3 ตัวเสมอ และไม่คำนึงถึงสถานะของเซสชัน
ต่อให้มีไฟล์ที่โหลดไว้แล้วก็ยังอ่านใหม่ ทำให้ สิ้นเปลืองโทเค็น
ถ้าเพิ่มตรรกะแบบมีเงื่อนไขเพื่อข้ามขั้นสำรวจเมื่อเซสชันยังอุ่นอยู่ น่าจะมีประสิทธิภาพกว่า
พฤติกรรมที่ไม่คาดคิดเพียงอย่างเดียวอาจทำให้ฉันทำงานไม่ได้ไปหลายวัน
การไม่คำนึงถึงผลกระทบแบบนี้ถือว่า ไร้ความรับผิดชอบและก้าวร้าว
ช่วงหลัง ๆ พฤติกรรมแปลก ๆ อาจเกิดจากการทดลองก็ได้ ซึ่งทำให้ไม่สบายใจมาก
ไม่ควรใช้แบบเบต้าแชนเนล แต่ควรเปลี่ยนเป็น opt-in อย่างชัดเจน
ส่วนตัวคิดว่าความสำคัญไม่ได้อยู่ที่จำนวนบรรทัด แต่คือ ความชัดเจนเชิงเรื่องเล่าของแผน
ต้องมีแผนที่ทำให้เข้าใจได้ว่ากำลังทำอะไรและทำไปทำไม
LLM เขียนไวยากรณ์ได้สมบูรณ์แบบ แต่ก็ปะปน ข้อมูลหลอน (hallucination) จนทำให้ผู้ใช้สับสน
ถึงอย่างนั้นก็ยังมีประโยชน์กับงาน boilerplate หรือการเชื่อมไอเดียอย่างรวดเร็ว
แต่ถ้าจะใช้อย่างถูกต้อง ความรู้พื้นฐาน เป็นสิ่งจำเป็น
เหตุผลที่บทความจบแบบกะทันหัน เป็นเพราะผู้เขียนลบส่วนที่พูดถึง การ decompile ไบนารีของ Claude Code เนื่องจากอาจเข้าข่ายละเมิด ToS
ดูการพูดคุยที่เกี่ยวข้องได้ในคอมเมนต์นี้
มีอยู่สองความคิด
เพราะไม่สามารถปรับปรุงแบบอิงข้อมูลผ่าน A/B test ในวงกว้างได้
ตัวอย่างเช่น easter egg ‘after midnight’ ของ man-db ก็เป็นการเปลี่ยนแปลงที่คาดเดาไม่ได้
แถมยังมี dependency มากมาย จึงแทบไม่มีใครตรวจสอบโค้ดอย่างจริงจัง
มันอาจเป็น การทดลองเพื่อหารายได้ (enshittification) ก็ได้ — YouTube คือหนึ่งในตัวอย่างชัดเจน
ตัว A/B test เองไม่มีปัญหา แต่ plan mode ไม่น่าประทับใจ
ส่วนใหญ่ผลลัพธ์ออกมาแย่
แต่ ความสามารถในการคงข้อมูลข้าม compaction กลับทำได้ดี
ถ้าบันทึกบทสนทนาไว้ในไฟล์ Markdown แล้วอ้างอิงมันทุกครั้งที่มี compaction จะได้ผลลัพธ์ที่ดีกว่ามาก
plan mode มีประสิทธิภาพกว่ามาก จนฉันใช้มันก่อนแทบทุกงาน
ข้อดีคือสามารถ ตรวจและถกแผน กับโมเดลได้ก่อนลงมือทำจริง
ตอนนี้ plan mode สามารถ รีเซ็ตคอนเท็กซ์ หลังทำเสร็จ จึงดีตรงที่ช่วยให้ตั้งแผนถัดไปได้อย่างสะอาด
เสียดายที่รายละเอียดเรื่อง decompile ในบล็อกถูกลบออกเพราะปัญหา ToS
Claude ถูกบอกว่าทำตาม system prompt ที่ว่า “จำกัดแผนไว้ที่ 40 บรรทัด ห้ามมีส่วน context และลบข้อความร้อยแก้วออก”
คงดีถ้าเราสามารถดูและแก้การตั้งค่าเหล่านี้ได้เอง
เครื่องมือสำหรับมืออาชีพควรให้ ความน่าเชื่อถือและความสามารถในการทำซ้ำ แต่ LLM ไม่ได้เป็นแบบนั้น
A/B test ก็เป็นเพียงหลักฐานหนึ่งของเรื่องนี้
ไม่ว่าจะเป็น Photoshop ที่แอบปรับโทนสี หรือ Word ที่แอบเปลี่ยนสไตล์หัวข้อ การทดลองแบบนี้ก็เป็นปัญหาเดียวกัน
ปัญหาคือ A/B test ที่เกิดขึ้นโดยไม่มีการเตือน
ทั้งเรื่องโควตา คุณภาพโมเดลที่ไม่เสถียร และก่อนเปิดตัวโมเดลใหม่ก็มักมีช่วงที่โมเดลเก่าพัง
การทดลองครั้งนี้ก็ดูเหมือนเป็น การทดลองลดต้นทุน มากกว่าจะปรับปรุงประสบการณ์ผู้ใช้
ถ้าเป็นเครื่องมือสำหรับธุรกิจ ก็ต้องมี ความสม่ำเสมอและความน่าเชื่อถือ
ถ้าเป็นมืออาชีพก็ควรเข้าใจ จุดแข็งและจุดอ่อน ของเครื่องมือและใช้อย่างเหมาะสม
การยอมรับเอาต์พุตของ LLM แบบไม่ตั้งคำถามเป็นเรื่องไม่เป็นมืออาชีพ แต่ก็ไม่ได้หมายความว่ามืออาชีพจะใช้ LLM ไม่ได้
หากมีระบบประเมินผลที่ดีพอและควบคุมพรอมป์ต์ได้ ก็ทำให้มันค่อนข้าง มีความกำหนดแน่นอน ได้
เมื่อดูจากการที่โมเดลไม่เสถียรในภาคการเงินยังถูกนำไปใช้งานอยู่ ความคาดเดาไม่ได้ก็ไม่ใช่อุปสรรคแบบสัมบูรณ์
ฉันตรวจสอบเอาต์พุตของโมเดล เหมือนทำ code review ให้เพื่อนร่วมงาน อยู่แล้ว
สถานการณ์แบบนี้ถูกเรียกว่า vendor lock-in มานานมากแล้ว
ถ้าพึ่งพาเครื่องมือใดเครื่องมือหนึ่งมากเกินไป พอเครื่องมือนั้นเปลี่ยนหรือหายไปก็ทำงานต่อไม่ได้
ฉันย้ายจาก CC ไป opencode แล้ว
CC ปิดเกินไป และพรอมป์ต์ก็ ชี้นำความเห็น (opinionated) มากจนใช้งานไม่สะดวก
แถมยังควบคุมเส้นทางการค้นหาเว็บไม่ได้ด้วย
ตอนนี้ฉันใช้แบบงานอดิเรกเลยเลือกโอเพนซอร์ส แต่ถ้าเป็นงานอาชีพก็คงตัดสินใจอีกแบบ
ใช้ได้แค่กับโปรเจ็กต์เล็ก ๆ เท่านั้น
ถ้ามีการตั้งค่าที่ดีพอก็อยากให้ช่วยแชร์