Coconut ของ Meta AI – ยกระดับการให้เหตุผลของ LLM ด้วยสายโซ่ความคิดแบบต่อเนื่อง

(aipapersacademy.com)

6 คะแนน โดย GN⁺ 2025-01-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาขนาดใหญ่ (LLM) ผ่านการพรีเทรนด้วยภาษามนุษย์จำนวนมหาศาล จึงแสดงความสามารถด้านการให้เหตุผลได้อย่างทรงพลัง
วิธีแบบ "Chain-of-Thought (CoT)" ช่วยให้โมเดลสร้างกระบวนการคิดทีละขั้นเพื่อไปสู่คำตอบ
อย่างไรก็ตาม การให้เหตุผลของ LLM ต้องถูกสร้างออกมาเป็นคำ ซึ่งเป็นข้อจำกัดพื้นฐานของโมเดล
มนุษย์ไม่ได้แสดงความคิดออกมาเป็นภาษาเสมอไป แล้ว AI จำเป็นต้องทำเช่นนั้นหรือไม่?
งานวิจัยของ Meta เรื่อง "Training Large Language Models to Reason in a Continuous Latent Space" เสนอแนวทางใหม่ชื่อ COCONUT (Chain of Continuous Thought) เพื่อแก้ข้อจำกัดนี้

วิธีแบบ Chain-of-Thought (CoT)

CoT รับคำถามเป็นอินพุต แล้วสร้างคำตอบสุดท้ายผ่านการให้เหตุผลทีละขั้น
โมเดลประมวลผลโทเค็นอินพุตเพื่อสร้างโทเค็นตอบกลับตัวแรก (จุดเริ่มต้นของกระบวนการให้เหตุผล)
จากนั้นจะป้อนคำถามและโทเค็นการให้เหตุผลก่อนหน้ากลับเข้าโมเดลซ้ำ ๆ เพื่อทำให้กระบวนการให้เหตุผลสมบูรณ์ และสุดท้ายจึงสร้างคำตอบ

วิธีแบบ Chain of Continuous Thought (COCONUT)

COCONUT สลับใช้ระหว่าง โหมดภาษา และ โหมดความคิดแฝง (latent thought)
- โหมดภาษา: ทำงานเหมือน language model มาตรฐาน โดยสร้างโทเค็นถัดไป
- โหมดความคิดแฝง: ใช้ hidden state สุดท้ายเพื่อคำนวณขั้นถัดไป
ในโหมดความคิดแฝง สามารถใช้ hidden state สุดท้ายเป็นอินพุตถัดไปได้ ทำให้ให้เหตุผลได้อย่างมีประสิทธิภาพมากขึ้น
เริ่มโหมดความคิดแฝงด้วยโทเค็น <bot> และจบด้วยโทเค็น <eot> ก่อนสลับกลับสู่โหมดภาษา

ขั้นตอนการฝึก

ฝึกโมเดลโดยอิงจากข้อมูล CoT เดิม (คำถาม, ขั้นตอนการให้เหตุผล, คำตอบสุดท้าย)
ใช้การฝึกแบบเป็นลำดับขั้น:
- ในระยะแรก โมเดลถูกฝึกให้สร้างขั้นตอนการให้เหตุผลแบบภาษาและคำตอบ
- ในระยะถัดมา จะลบขั้นตอนการให้เหตุผลออก และแทนที่ด้วยโทเค็นความคิดแฝงเพื่อฝึกต่อ
ในแต่ละขั้น ค่า loss จะถูกคำนวณจากขั้นตอนการให้เหตุผลแบบภาษาที่ยังเหลืออยู่และคำตอบ
ความคิดแฝงสามารถหาอนุพันธ์ได้ครบถ้วน จึงทำ back-propagation ได้

การเปลี่ยนจากการสร้างความคิดไปสู่การสร้างโทเค็นคำ

มีสองกลยุทธ์สำหรับให้โมเดลสลับจากโหมดความคิดแฝงกลับสู่โหมดภาษา
กลยุทธ์แรกคือ "ให้โมเดลตัดสินใจด้วยตัวจำแนกแบบไบนารี" และกลยุทธ์ที่สองคือ "ใช้จำนวนโทเค็นความคิดแฝงที่กำหนดตายตัว"
ทั้งสองกลยุทธ์ให้ผลลัพธ์ใกล้เคียงกัน จึงเลือกใช้วิธีจำนวนคงที่ที่ง่ายกว่า

ผลการทดลอง

วิธี Coconut ให้ประสิทธิภาพเหนือกว่า No-CoT ในทุกชุดข้อมูล
เมื่อเทียบกับ CoT นั้น CoT ทำได้ดีกว่าในโจทย์คณิตศาสตร์ แต่ใน ProsQA ซึ่งต้องการความสามารถด้านการวางแผน Coconut ทำได้ดีกว่า
เมื่อเทียบกับ i-CoT นั้น Coconut แสดงความแม่นยำที่ดีกว่าในโจทย์คณิตศาสตร์
ประสิทธิภาพของ Coconut:
- GSM8K (คณิตศาสตร์): ต่ำกว่า CoT
- ProsQA (ต้องการการวางแผน): สูงกว่า CoT
- No-CoT (สร้างคำตอบโดยตรงโดยไม่ให้เหตุผล): ทำได้ดีกว่าในทุกชุดข้อมูล
- ด้านประสิทธิภาพ: สร้างโทเค็นน้อยกว่า CoT
การเปรียบเทียบกับ i-CoT:
- ความแม่นยำสูงกว่าในคณิตศาสตร์
- ประสิทธิภาพใกล้เคียงกันในงานวางแผนและการให้เหตุผลเชิงตรรกะ
ผลของการเรียนรู้แบบ curriculum:
- โมเดล "w/o curriculum" มีประสิทธิภาพลดลงอย่างมาก

ความสามารถในการให้เหตุผลคล้าย BFS

COCONUT แสดงผลงานโดดเด่นในการแก้ปัญหาเชิงการวางแผนบนชุดข้อมูล ProsQA
กรณีตัวอย่างการสำรวจกราฟ:
- CoT: "หลอน" ความสัมพันธ์ที่ไม่มีอยู่จริงจนได้คำตอบผิด
- Coconut: ใช้โทเค็นความคิดแฝงหลายตัวเพื่อค้นหาเส้นทางที่ถูกต้องได้
Coconut สามารถสำรวจเส้นทางที่เป็นไปได้หลายทาง จึงให้ผลลัพธ์ดีกว่าในงานที่เน้นการวางแผนอย่างเข้มข้น

บทสรุปและทิศทางการวิจัยต่อไป

บทสรุป:
- แนวทาง COCONUT ช่วยยกระดับความสามารถในการให้เหตุผลของ LLM ได้อย่างมาก
- การให้เหตุผลใน latent space มอบประสิทธิภาพที่ยอดเยี่ยมในงานที่เน้นการวางแผน ผ่านรูปแบบที่คล้ายกับ BFS
ทิศทางการวิจัยต่อไป:
- ผสานความคิดแบบต่อเนื่องตั้งแต่ขั้นตอนพรีเทรน
- เพิ่มประสิทธิภาพเพื่อรองรับการให้เหตุผลหลายลำดับต่อเนื่อง
- สำรวจความเป็นไปได้ในการผสาน CoT กับความคิดแฝง

1 ความคิดเห็น

GN⁺ 2025-01-01

ความคิดเห็นจาก Hacker News

การเน้นไปที่ BFS นั้นตรงข้ามกับสิ่งที่ฉันพยายามทำ มนุษย์แบ่งงานตามสัญชาตญาณและความหยั่งรู้ ออกเป็นขั้นสั้น ๆ และขั้นยาวที่สรุป/เก็บขั้นถัดไปไว้ เมื่อทำไม่สำเร็จ ก็จะสรุปต้นไม้ของความล้มเหลวเพื่อกันออกจากตัวเลือกในอนาคต
- ผลของสัญชาตญาณจะลดลงอย่างรวดเร็วเมื่อระยะห่างมากขึ้น หากใช้ BFS ก็จะลดคุณค่าของสัญชาตญาณและเอนเอียงไปทางการคำนวณแทน วิธีเข้าหาจะต่างกันไปตามประเภทของปัญหา
- ถ้าอยากทำต้นแบบร่วมกัน โปรดติดต่อมา
ขั้นต่อไปคือการสร้างการแทนความที่ไม่มีภาษามนุษย์ หาก LLMs สามารถสื่อสารกันด้วย embeddings เพียงอย่างเดียวโดยไม่มีข้อความมนุษย์เป็นอินพุต ก็จะเปิดยุคใหม่ของ AI
Meta เริ่มจากโมเดลภาษาที่ผ่านการ pre-train แล้ว และทำ fine-tune ด้วยตัวอย่างการให้เหตุผลทีละขั้น จากนั้นเพิ่มโทเค็นใหม่เพื่อให้โมเดลสลับไปสู่โหมดการคิดใน latent space
- คัดลอก hidden layer สุดท้ายกลับไปยัง input layer ซ้ำ ๆ เพื่อให้ได้มุมมองเชิงลึกมากขึ้น
- การฝึกจะค่อย ๆ แทนที่ขั้นการให้เหตุผลด้วยภาษา ด้วยขั้น autoregressive ใน latent space โมเดลเรียนรู้ที่จะเปิดและปิดโหมดการคิดใน latent space ด้วยตัวเอง
ฉันสงสัยว่าการข้ามขั้น embeddings/unembeddings สำหรับการคิดภายในนั้นเป็นการปรับปรุงครั้งใหญ่จริงหรือไม่ หรือว่าวิธีการฝึกที่สอนให้สลับระหว่าง CoT กับ "การคิดแบบ latent" และผลลัพธ์ข้อความคือประเด็นหลัก
- น่าสนใจที่ "การคิดแบบ latent" จำนวนคงที่ให้ประสิทธิภาพเทียบเท่ากับตัวจำแนกแบบไบนารี
นี่อาจเป็นช่วงเวลา "นั้นแหละ" ของ AI/LLMs ก็ได้ มนุษย์ไม่ได้คิดเป็น "โทเค็น" หากอยู่ใน latent space โมเดลอาจอธิบายแนวคิดได้ด้วยความละเอียดสูงกว่าภาษา
- latent space มีต้นทุนการประมวลผลต่ำ สามารถคิดได้โดยไม่ต้องมีขั้นตอนเข้ารหัส/ถอดรหัสภาษา และให้เหตุผลได้จากการป้อนข้อมูลที่หลากหลาย
คู่แข่งกำลังตามมาอย่างรวดเร็ว คาดว่าจะได้เห็น SkyNet หลายตัวแข่งขันกัน
สงสัยว่าฐานผู้ใช้ของตัวละครที่สร้างด้วย AI ของ Facebook จะมีปฏิสัมพันธ์ที่ดีขึ้นหรือไม่
เว็บไซต์อ้างว่าทำให้บทความวิชาการเข้าใจง่าย แต่มีโฆษณาเยอะ และหา "Coconut" ไม่เจอในหน้าอย่างเป็นทางการของ Meta FAIR เลย จึงสงสัยว่าเว็บไซต์นี้เป็นลิงก์ที่ดีที่สุดจริงหรือไม่
เป็นโพสต์ซ้ำจากเมื่อ 20 วันก่อน

Coconut ของ Meta AI – ยกระดับการให้เหตุผลของ LLM ด้วยสายโซ่ความคิดแบบต่อเนื่อง

วิธีแบบ Chain-of-Thought (CoT)

วิธีแบบ Chain of Continuous Thought (COCONUT)

ขั้นตอนการฝึก

การเปลี่ยนจากการสร้างความคิดไปสู่การสร้างโทเค็นคำ

ผลการทดลอง

ความสามารถในการให้เหตุผลคล้าย BFS

บทสรุปและทิศทางการวิจัยต่อไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News