ผลกระทบเชิงลบของ Chain-of-thought ในงานที่การคิดทำให้ประสิทธิภาพของมนุษย์ลดลง

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-11-01 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Chain-of-thought (CoT) มักถูกใช้ราวกับเป็นกลยุทธ์พื้นฐานในการเพิ่มประสิทธิภาพของ LLM·LMM แต่เมื่อนำโจทย์ทางจิตวิทยา 6 ประเภทที่มนุษย์ทำผิดพลาดเพราะ การครุ่นคิดเชิงภาษา มาปรับเป็นการประเมินโมเดล พบว่าประสิทธิภาพลดลงอย่างมากในบางงาน
การลดลงเด่นชัดใน การเรียนรู้สถิติโดยนัย, การจดจำใบหน้าที่อธิบายเป็นภาษาได้ยาก และการเรียนรู้กฎที่มีข้อยกเว้น โดย OpenAI o1-preview มีความแม่นยำแบบสัมบูรณ์ในงานเรียนรู้ไวยากรณ์เทียมต่ำกว่า GPT-4o แบบ zero-shot สูงสุด 36.3%
ในงานจดจำใบหน้า LMM ทั้ง 6 ตัวที่ทดสอบมีประสิทธิภาพลดลงทั้งหมดภายใต้เงื่อนไข CoT และในการจำแนกประเภทยานพาหนะที่มีข้อยกเว้น GPT-4o ต้องใช้จำนวนรอบในการเรียนรู้ป้ายกำกับคำตอบที่ถูกต้องเพิ่มขึ้น 331% เมื่อเทียบกับ direct prompting
ในการตัดสินความไม่สอดคล้องทางตรรกะ, สัญชาตญาณเชิงพื้นที่ และการรวมความชอบหลายมิติ CoT ไม่ได้ให้ผลเสียอย่างสม่ำเสมอ และ ความรู้พื้นฐานด้านตรรกะ, คอนเท็กซ์ที่ยาว รวมถึงประสบการณ์ด้านประสาทสัมผัส·การเคลื่อนไหวที่ต่างจากมนุษย์ ทำให้ผลลัพธ์แตกต่างกัน
กรณีที่มนุษย์คิดมากเกินไปเป็นเบาะแสที่ช่วยค้นหางานที่ CoT ล้มเหลวได้มีประสิทธิภาพกว่าการสุ่ม แต่การจะใช้ CoT หรือไม่ควรตัดสินโดยพิจารณาทั้งความสามารถของโมเดลและโครงสร้างของงานร่วมกัน

ความเสี่ยงเมื่อ CoT กลายเป็นค่าเริ่มต้น

Chain-of-thought (CoT) คือเทคนิค prompting ที่สั่งให้โมเดล “คิดทีละขั้นตอน” หรือให้รวมโครงสร้างการให้เหตุผลขั้นกลางไว้ในคำตอบ
งาน meta-study ขนาดใหญ่พบว่า CoT เพิ่มประสิทธิภาพโดยเฉพาะในงาน คณิตศาสตร์·การให้เหตุผลเชิงสัญลักษณ์ แต่ก็พบการลดลงของประสิทธิภาพในบางด้าน เช่น การจำแนกข้อความ
ใน LLM·LMM รุ่นล่าสุด เช่น โมเดล OpenAI o-series, อินเทอร์เฟซเว็บของ Claude และ thinking models นั้น การให้เหตุผลขณะอนุมาน กำลังกลายเป็นองค์ประกอบพื้นฐาน
สิ่งที่ยังขาดอยู่คือแพตเทิร์นที่ละเอียดว่า CoT ทำให้ประสิทธิภาพลดลงอย่างเป็นระบบในสถานการณ์ใด
งานวิจัยนี้ใช้โจทย์ทางจิตวิทยาที่การ “คิด” กลับเป็นโทษต่อมนุษย์เป็นเบาะแส เพื่อค้นหางานที่ CoT เป็นโทษต่อโมเดลเช่นกัน

การประเมิน 6 ประเภทที่นำมาจากจิตวิทยามนุษย์

สรุปงานตัวอย่าง 6 แบบที่การคิดเชิงภาษาของมนุษย์ทำให้ประสิทธิภาพลดลง แล้วขยายแต่ละแบบเป็นการประเมิน LLM·LMM
3 ประเภทที่พบการลดลงของประสิทธิภาพจาก CoT อย่างชัดเจน:
- การเรียนรู้สถิติโดยนัย: จำแนกว่าสตริงที่สร้างด้วยไวยากรณ์เทียมอยู่ในแพตเทิร์นเดียวกันหรือไม่
- สิ่งเร้าที่แสดงเป็นภาษาได้ยาก: ดูใบหน้าแล้วค้นหาคนเดียวกันจากภาพผู้สมัครในงานจดจำใบหน้า
- การเรียนรู้กฎที่มีข้อยกเว้น: เรียนรู้ป้ายกำกับที่ผสมระหว่างกฎทั่วไปที่เกือบถูกต้องกับข้อยกเว้น ผ่านฟีดแบ็กซ้ำ ๆ
3 ประเภทที่การลดลงของประสิทธิภาพจาก CoT ไม่สม่ำเสมอ:
- งาน natural language inference ที่ตัดสินประโยคที่ไม่สอดคล้องกันทางตรรกะ
- งานสัญชาตญาณเชิงพื้นที่ที่ประเมินระดับน้ำเมื่อเอียงแก้ว
- งานรวมความชอบที่เลือกตัวเลือกดีที่สุดจากอพาร์ตเมนต์หลายตัวที่มีคุณลักษณะจำนวนมาก
ชุดข้อมูลที่ขยายทั้ง 6 ชุดเปิดเผยเป็น human overthinking benchmark

สามงานที่ CoT สั่นคลอนอย่างมาก

การเรียนรู้สถิติโดยนัย: การจำแนกไวยากรณ์เทียม
- “คำ” เทียมถูกสร้างด้วย finite-state grammar (FSG) และโมเดลต้องดูตัวอย่างฝึก 15 รายการก่อนจำแนกว่าสตริงใหม่มาจากไวยากรณ์เดียวกันหรือไม่
- สร้างโจทย์จำแนกทั้งหมด 4,400 ข้อจาก FSG 100 แบบ โดยในแต่ละ FSG มีคำ 44 คำ แบ่งเป็น 22 คำที่อยู่ในไวยากรณ์ และ 22 คำที่สร้างโดยเปลี่ยนตัวอักษรหนึ่งตัวจากคำเดิม
- โมเดลที่ทดสอบคือ OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro และ Llama 3·3.1 70B/8B Instruct
- CoT ลดความแม่นยำในโมเดลส่วนใหญ่
  - o1-preview มีความแม่นยำแบบสัมบูรณ์ต่ำกว่า GPT-4o zero-shot 36.3% ในชุดย่อย 440 ข้อ
  - GPT-4o ลดลง 23.10 จุดเปอร์เซ็นต์ จาก zero-shot 87.50% เป็น CoT 64.40%
  - Claude 3 Opus ลดลง 8.00 จุดเปอร์เซ็นต์ จาก 70.70% เป็น 62.70%
  - Gemini 1.5 Pro ลดลง 6.05 จุดเปอร์เซ็นต์ จาก 68.00% เป็น 61.95%
  - Llama 3.1 70B Instruct ลดลง 8.80 จุดเปอร์เซ็นต์ จาก 65.90% เป็น 57.10%
  - tree-of-thought และ in-context reasoning steering ช่วยเพิ่มประสิทธิภาพได้บางส่วน แต่ไม่สามารถลดช่องว่างเมื่อเทียบกับประสิทธิภาพของ GPT-4o zero-shot ได้อย่างมีนัยสำคัญ
การจดจำใบหน้า: สิ่งเร้าทางภาพที่อธิบายเป็นภาษาได้ยาก
- ปรับงาน verbal overshadowing แบบคลาสสิกสำหรับ LMM โดยให้เลือกคนเดียวกับภาพใบหน้าเริ่มต้นจากภาพผู้สมัคร 5 ภาพ
- ชุดข้อมูลประกอบด้วยโจทย์ 500 ข้อและใบหน้าที่ไม่ซ้ำ 2,500 ใบหน้า โดยใบหน้าผู้สมัครในแต่ละข้อมีคำอธิบายร่วมกันด้านเชื้อชาติ เพศ ช่วงอายุ สีตา ความยาวผม สีผม และประเภทผม
- ภาพถูกสร้างด้วย stable-image-ultra และใช้ภาพคนเดียวกัน 1 คู่กับภาพคนอื่นอีก 4 ภาพที่มีคำอธิบายเดียวกันเป็นตัวเลือก
- LMM ทั้ง 6 ตัวที่ทดสอบมีประสิทธิภาพลดลงทั้งหมดเมื่อใช้ CoT
- GPT-4o: 64.00% → 51.20%
- Claude 3 Opus: 44.00% → 29.60%
- Claude 3.5 Sonnet: 97.80% → 94.80%
- Gemini 1.5 Pro: 66.00% → 54.60%
- InternVL2 26B: 9.20% → 6.00%
- InternVL2 Llama3 76B: 15.77% → 13.77%
- แม้ในการตั้งค่าที่ลดความยากและการจำแนกแบบไบนารีก็พบการลดลงคล้ายกัน จึงดูเหมือนว่า CoT ไม่ได้แค่รบกวนลำดับภาพ แต่ส่งผลต่อ กระบวนการให้เหตุผล เอง
การเรียนรู้กฎที่มีข้อยกเว้น: การจำแนกป้ายกำกับยานพาหนะ
- ในงานจำแนกยานพาหนะ โมเดลต้องใส่ป้ายกำกับแบบไบนารีให้รายการยานพาหนะ รับฟีดแบ็กหลังการทำนายแต่ละครั้ง และทำซ้ำจนกว่าจะระบุป้ายกำกับทั้งหมดถูกต้องในครั้งเดียว
- ยานพาหนะแต่ละคันมีคุณลักษณะ 1 รายการที่สัมพันธ์กับป้ายกำกับ 80%, คุณลักษณะ 3 รายการที่ไม่เกี่ยวกับป้ายกำกับ และคุณลักษณะ 1 รายการที่ใช้ระบุตัวรถเป็นรายคัน
- หากโมเดลเรียนรู้กฎทั่วไปที่เกือบถูกต้อง จะล้มเหลวกับข้อยกเว้น แต่หากเรียนรู้การจับคู่ระหว่างคุณลักษณะระบุตัวรายคันกับป้ายกำกับ ก็จะตอบถูกทั้งหมดได้
- แบ่งยานพาหนะ 2,400 คันเป็น 240 รายการ รายการละ 10 คัน และประเมินสูงสุด 15 รอบ
- CoT ทำให้จำนวนรอบในการเรียนรู้ป้ายกำกับเพิ่มขึ้นมากในทุกโมเดลที่ประเมิน
- GPT-4o: direct 2.9 รอบ → CoT 12.5 รอบ เพิ่มขึ้น 331%
- Claude 3.5 Sonnet: 2.3 รอบ → 6.4 รอบ เพิ่มขึ้น 178%
- Claude 3 Opus: 2.4 รอบ → 5.5 รอบ เพิ่มขึ้น 129%
- GPT-4o แบบ direct prompting จำแนกได้สมบูรณ์ในรอบที่ 2–3 แต่ CoT โดยเฉลี่ยยังอยู่ที่ระดับตอบถูก 8 จาก 10 คัน แม้หลังผ่านไป 15 รอบ
- เมื่อใช้ steering prompt ที่แรงและระบุให้จับคู่ป้ายทะเบียนอย่างชัดเจน CoT ก็ไปถึงระดับ zero-shot ได้ แต่ CoT พื้นฐานเลือกพื้นที่การให้เหตุผลที่เหมาะที่สุดไม่ได้

สามงานที่เผยให้เห็นความแตกต่างระหว่างมนุษย์กับโมเดล

การตัดสินความไม่สอดคล้องทางตรรกะ
- ในการทดลองกับมนุษย์ หากให้ผู้เข้าร่วมอธิบายก่อนว่าคู่ประโยคที่ไม่สอดคล้องกันสามารถอยู่ร่วมกันได้เพราะอะไร ประสิทธิภาพการตัดสินว่าจริง ๆ แล้วไม่สอดคล้องกันหรือไม่จะลดลง
- การประเมินโมเดลถูกขยายเป็น 3,216 ข้อ โดยใช้คู่ entailment จาก SNLI, MNLI และชุดข้อมูลสังเคราะห์
- GPT-4o และ Llama 3.1 70B Instruct มีประสิทธิภาพดีขึ้นมากเมื่อใช้ CoT
- GPT-4o: MNLI 53.2% → 93.9%, SNLI 51.4% → 94.3%
- Llama 3.1 70B Instruct: MNLI 55.6% → 81.6%, SNLI 50.4% → 82.3%
- เดิมทีผู้เข้าร่วมที่เป็นมนุษย์ถูกคัดเลือกโดยไม่มีความเชี่ยวชาญด้านตรรกะเชิงรูปแบบ แต่ LLM ได้พบความรู้เกี่ยวกับปริศนาตรรกะและการจัดการตรรกะจากคลังข้อมูลฝึก จึงเป็นไปได้ว่า CoT เมื่อรวมกับโทเค็นเพิ่มเติมช่วยเพิ่มประสิทธิภาพได้
- ในโมเดลที่มีประสิทธิภาพ zero-shot สูงอยู่แล้ว เช่น Gemini 1.5 Pro และ Claude 3 Opus พบว่าประสิทธิภาพจาก CoT ลดลงในบางส่วน
สัญชาตญาณเชิงพื้นที่
- งานเอียงแก้วคือปัญหาที่ให้เลือกความสูงของน้ำในแก้วเปล่า เพื่อให้เมื่อเอียงแก้วสองใบด้วยมุมเท่ากัน น้ำแตะขอบแก้วทั้งสองด้าน
- งานมนุษย์ดั้งเดิมให้วาดระดับน้ำโดยตรง แต่การประเมิน LMM เปลี่ยนเป็นโจทย์ภาพแบบปรนัยที่มีตัวเลือก A–D
- สร้างโจทย์ทั้งหมด 100 ข้อพร้อมภาพที่วาดด้วยโค้ด และประเมิน GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro และ InternVL2 Llama3 76B
- ไม่พบความแตกต่างอย่างมีนัยสำคัญระหว่าง zero-shot กับ CoT
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- ข้อได้เปรียบของเงื่อนไขแบบไม่ใช้ภาษาในมนุษย์มาจากการจำลองทางภาพ·การเคลื่อนไหว แต่ในบริบทนี้ยากจะมองว่า LMM มี การแทนความรู้จากประสบการณ์การเคลื่อนไหว แบบเดียวกับมนุษย์
การรวมความชอบหลายมิติ
- งานเลือกอพาร์ตเมนต์คือปัญหาที่ให้ดูคุณลักษณะจำนวนมากของอพาร์ตเมนต์ 4 แห่ง แล้วเลือกอพาร์ตเมนต์ที่ดีที่สุด
- ในการทดลองกับมนุษย์ หลังได้รับข้อมูลจำนวนมากในเวลาสั้น ๆ เงื่อนไขที่ทำ distractor task ให้ผลการเลือกดีกว่าเงื่อนไขที่ให้ครุ่นคิด
- การประเมินโมเดลสร้างคุณลักษณะอพาร์ตเมนต์ 80 รายการและประโยคเชิงบวก·ลบ·เป็นกลางสำหรับแต่ละคุณลักษณะ จากนั้นให้ GPT-4o ประเมินผลกระทบของแต่ละประโยคในช่วง -5 ถึง 5 แล้วสร้างโจทย์เลือก 300 ข้อ
- ใน GPT-4o, Claude 3.5 Sonnet และ Claude 3 Opus โดยรวม CoT เพิ่มประสิทธิภาพ ส่วน Llama 3.1 70B Instruct มักไม่สามารถส่งคำตอบได้ถูกต้องภายใต้เงื่อนไข CoT จึงมีประสิทธิภาพต่ำ
- ต่างจาก working memory ของมนุษย์ โมเดลสามารถอ้างอิงประโยคจำนวนมากในคอนเท็กซ์ได้ ทำให้ CoT สามารถทำงานในลักษณะรวมคะแนนความสำคัญของคุณลักษณะต่าง ๆ

การตรวจสอบ heuristic และข้อจำกัด

เพื่อยืนยันว่างานที่เลือกจากกรณีมนุษย์คิดมากเกินไปช่วยค้นหาความล้มเหลวของ CoT ได้ดีกว่าจริงหรือไม่ งานนี้ใช้การเปรียบเทียบ zero-shot กับ CoT จำนวน 378 รายการจาก Sprague et al. 2025 เป็นเกณฑ์ bootstrap
เมื่อดึงค่าความแตกต่างเชิงตัวเลขรายโมเดลของ 6 งานจำนวน 50 ค่าออกมาเปรียบเทียบ ไม่พบตัวอย่างใดใน 100,000 ครั้งของการสุ่มตัวอย่างซ้ำที่มีค่าเฉลี่ยประสิทธิภาพลดลงมากกว่าผลของงานวิจัยนี้
แม้นับเฉพาะความถี่ที่เกิดประสิทธิภาพลดลง ก็มีเพียง 11 ครั้งจาก 100,000 ครั้งที่ลดลงถึงระดับเดียวกันหรือมากกว่า ทำให้ค่า p โดยประมาณต่ำกว่า 0.00011
heuristic ที่อิงจิตวิทยามนุษย์ช่วยค้นหากรณี CoT ล้มเหลวได้ดีขึ้นทั้งในด้านขนาดผลและความถี่การเกิด
อย่างไรก็ตาม heuristic นี้ไม่ได้ครอบคลุมทุกกรณีที่ CoT ให้ผลเสีย และอาจพลาดกรณีความล้มเหลวที่ไม่น่าสนใจสำหรับมนุษย์แต่สำคัญต่อโมเดล

นัยต่อการใช้งานและการประเมิน CoT

CoT เป็นวิธีที่มีประสิทธิภาพในการขยายความสามารถของโมเดล แต่ในบางบริบทอาจลดประสิทธิภาพลงอย่างมาก จึงควรพิจารณาการใช้เป็นค่าเริ่มต้นแยกตามงาน
ในงานที่ภาษาไม่สามารถแสดงความต่างด้านการรับรู้ที่ละเอียดได้ดี, งานที่ต้องจับแพตเทิร์นสถิติที่ซับซ้อนโดยนัย และงานเรียนรู้กฎที่มีข้อยกเว้นจำนวนมาก การให้เหตุผลขั้นกลางเชิงภาษา อาจเป็นอุปสรรค
ไม่สามารถเทียบผลลัพธ์ของมนุษย์กับโมเดลแบบตรง ๆ ได้ และข้อสรุปที่ทำให้โมเดลดูเหมือนมนุษย์ไม่อยู่ในขอบเขตของงานวิจัยนี้
ควรสะท้อนความแตกต่างระหว่างมนุษย์กับโมเดลในการประเมินด้วย
- โมเดลสามารถใช้คอนเท็กซ์ที่ยาวกว่ามนุษย์
- โมเดลอาจเคยพบแพตเทิร์นตรรกะและการแก้โจทย์จากคลังข้อมูลฝึก
- โมเดลอาจไม่ได้แชร์การจำลองที่อิงประสบการณ์การเคลื่อนไหวของมนุษย์
ในอนาคต วิธีชักนำการให้เหตุผลแบบอื่น เช่น comparison·analogy prompting ก็สามารถประเมินได้โดยพิจารณาทั้งผลจากจิตวิทยามนุษย์และข้อจำกัดของโมเดลร่วมกัน

ผลกระทบเชิงลบของ Chain-of-thought ในงานที่การคิดทำให้ประสิทธิภาพของมนุษย์ลดลง

ความเสี่ยงเมื่อ CoT กลายเป็นค่าเริ่มต้น

การประเมิน 6 ประเภทที่นำมาจากจิตวิทยามนุษย์

สามงานที่ CoT สั่นคลอนอย่างมาก

การเรียนรู้สถิติโดยนัย: การจำแนกไวยากรณ์เทียม

CoT ลดความแม่นยำในโมเดลส่วนใหญ่

การจดจำใบหน้า: สิ่งเร้าทางภาพที่อธิบายเป็นภาษาได้ยาก

การเรียนรู้กฎที่มีข้อยกเว้น: การจำแนกป้ายกำกับยานพาหนะ

สามงานที่เผยให้เห็นความแตกต่างระหว่างมนุษย์กับโมเดล

การตัดสินความไม่สอดคล้องทางตรรกะ

สัญชาตญาณเชิงพื้นที่

การรวมความชอบหลายมิติ

การตรวจสอบ heuristic และข้อจำกัด

นัยต่อการใช้งานและการประเมิน CoT

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น