- โมเดลภาษาขนาดใหญ่ (LLM) ผ่านการพรีเทรนด้วยภาษามนุษย์จำนวนมหาศาล จึงแสดงความสามารถด้านการให้เหตุผลได้อย่างทรงพลัง
- วิธีแบบ "Chain-of-Thought (CoT)" ช่วยให้โมเดลสร้างกระบวนการคิดทีละขั้นเพื่อไปสู่คำตอบ
- อย่างไรก็ตาม การให้เหตุผลของ LLM ต้องถูกสร้างออกมาเป็นคำ ซึ่งเป็นข้อจำกัดพื้นฐานของโมเดล
- มนุษย์ไม่ได้แสดงความคิดออกมาเป็นภาษาเสมอไป แล้ว AI จำเป็นต้องทำเช่นนั้นหรือไม่?
- งานวิจัยของ Meta เรื่อง "Training Large Language Models to Reason in a Continuous Latent Space" เสนอแนวทางใหม่ชื่อ COCONUT (Chain of Continuous Thought) เพื่อแก้ข้อจำกัดนี้
วิธีแบบ Chain-of-Thought (CoT)
- CoT รับคำถามเป็นอินพุต แล้วสร้างคำตอบสุดท้ายผ่านการให้เหตุผลทีละขั้น
- โมเดลประมวลผลโทเค็นอินพุตเพื่อสร้างโทเค็นตอบกลับตัวแรก (จุดเริ่มต้นของกระบวนการให้เหตุผล)
- จากนั้นจะป้อนคำถามและโทเค็นการให้เหตุผลก่อนหน้ากลับเข้าโมเดลซ้ำ ๆ เพื่อทำให้กระบวนการให้เหตุผลสมบูรณ์ และสุดท้ายจึงสร้างคำตอบ
วิธีแบบ Chain of Continuous Thought (COCONUT)
- COCONUT สลับใช้ระหว่าง โหมดภาษา และ โหมดความคิดแฝง (latent thought)
- โหมดภาษา: ทำงานเหมือน language model มาตรฐาน โดยสร้างโทเค็นถัดไป
- โหมดความคิดแฝง: ใช้ hidden state สุดท้ายเพื่อคำนวณขั้นถัดไป
- ในโหมดความคิดแฝง สามารถใช้ hidden state สุดท้ายเป็นอินพุตถัดไปได้ ทำให้ให้เหตุผลได้อย่างมีประสิทธิภาพมากขึ้น
- เริ่มโหมดความคิดแฝงด้วยโทเค็น
<bot> และจบด้วยโทเค็น <eot> ก่อนสลับกลับสู่โหมดภาษา
ขั้นตอนการฝึก
- ฝึกโมเดลโดยอิงจากข้อมูล CoT เดิม (คำถาม, ขั้นตอนการให้เหตุผล, คำตอบสุดท้าย)
- ใช้การฝึกแบบเป็นลำดับขั้น:
- ในระยะแรก โมเดลถูกฝึกให้สร้างขั้นตอนการให้เหตุผลแบบภาษาและคำตอบ
- ในระยะถัดมา จะลบขั้นตอนการให้เหตุผลออก และแทนที่ด้วยโทเค็นความคิดแฝงเพื่อฝึกต่อ
- ในแต่ละขั้น ค่า loss จะถูกคำนวณจากขั้นตอนการให้เหตุผลแบบภาษาที่ยังเหลืออยู่และคำตอบ
- ความคิดแฝงสามารถหาอนุพันธ์ได้ครบถ้วน จึงทำ back-propagation ได้
การเปลี่ยนจากการสร้างความคิดไปสู่การสร้างโทเค็นคำ
- มีสองกลยุทธ์สำหรับให้โมเดลสลับจากโหมดความคิดแฝงกลับสู่โหมดภาษา
- กลยุทธ์แรกคือ "ให้โมเดลตัดสินใจด้วยตัวจำแนกแบบไบนารี" และกลยุทธ์ที่สองคือ "ใช้จำนวนโทเค็นความคิดแฝงที่กำหนดตายตัว"
- ทั้งสองกลยุทธ์ให้ผลลัพธ์ใกล้เคียงกัน จึงเลือกใช้วิธีจำนวนคงที่ที่ง่ายกว่า
ผลการทดลอง
- วิธี Coconut ให้ประสิทธิภาพเหนือกว่า No-CoT ในทุกชุดข้อมูล
- เมื่อเทียบกับ CoT นั้น CoT ทำได้ดีกว่าในโจทย์คณิตศาสตร์ แต่ใน ProsQA ซึ่งต้องการความสามารถด้านการวางแผน Coconut ทำได้ดีกว่า
- เมื่อเทียบกับ i-CoT นั้น Coconut แสดงความแม่นยำที่ดีกว่าในโจทย์คณิตศาสตร์
- ประสิทธิภาพของ Coconut:
- GSM8K (คณิตศาสตร์): ต่ำกว่า CoT
- ProsQA (ต้องการการวางแผน): สูงกว่า CoT
- No-CoT (สร้างคำตอบโดยตรงโดยไม่ให้เหตุผล): ทำได้ดีกว่าในทุกชุดข้อมูล
- ด้านประสิทธิภาพ: สร้างโทเค็นน้อยกว่า CoT
- การเปรียบเทียบกับ i-CoT:
- ความแม่นยำสูงกว่าในคณิตศาสตร์
- ประสิทธิภาพใกล้เคียงกันในงานวางแผนและการให้เหตุผลเชิงตรรกะ
- ผลของการเรียนรู้แบบ curriculum:
- โมเดล "w/o curriculum" มีประสิทธิภาพลดลงอย่างมาก
ความสามารถในการให้เหตุผลคล้าย BFS
- COCONUT แสดงผลงานโดดเด่นในการแก้ปัญหาเชิงการวางแผนบนชุดข้อมูล ProsQA
- กรณีตัวอย่างการสำรวจกราฟ:
- CoT: "หลอน" ความสัมพันธ์ที่ไม่มีอยู่จริงจนได้คำตอบผิด
- Coconut: ใช้โทเค็นความคิดแฝงหลายตัวเพื่อค้นหาเส้นทางที่ถูกต้องได้
- Coconut สามารถสำรวจเส้นทางที่เป็นไปได้หลายทาง จึงให้ผลลัพธ์ดีกว่าในงานที่เน้นการวางแผนอย่างเข้มข้น
บทสรุปและทิศทางการวิจัยต่อไป
- บทสรุป:
- แนวทาง COCONUT ช่วยยกระดับความสามารถในการให้เหตุผลของ LLM ได้อย่างมาก
- การให้เหตุผลใน latent space มอบประสิทธิภาพที่ยอดเยี่ยมในงานที่เน้นการวางแผน ผ่านรูปแบบที่คล้ายกับ BFS
- ทิศทางการวิจัยต่อไป:
- ผสานความคิดแบบต่อเนื่องตั้งแต่ขั้นตอนพรีเทรน
- เพิ่มประสิทธิภาพเพื่อรองรับการให้เหตุผลหลายลำดับต่อเนื่อง
- สำรวจความเป็นไปได้ในการผสาน CoT กับความคิดแฝง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
การเน้นไปที่ BFS นั้นตรงข้ามกับสิ่งที่ฉันพยายามทำ มนุษย์แบ่งงานตามสัญชาตญาณและความหยั่งรู้ ออกเป็นขั้นสั้น ๆ และขั้นยาวที่สรุป/เก็บขั้นถัดไปไว้ เมื่อทำไม่สำเร็จ ก็จะสรุปต้นไม้ของความล้มเหลวเพื่อกันออกจากตัวเลือกในอนาคต
ขั้นต่อไปคือการสร้างการแทนความที่ไม่มีภาษามนุษย์ หาก LLMs สามารถสื่อสารกันด้วย embeddings เพียงอย่างเดียวโดยไม่มีข้อความมนุษย์เป็นอินพุต ก็จะเปิดยุคใหม่ของ AI
Meta เริ่มจากโมเดลภาษาที่ผ่านการ pre-train แล้ว และทำ fine-tune ด้วยตัวอย่างการให้เหตุผลทีละขั้น จากนั้นเพิ่มโทเค็นใหม่เพื่อให้โมเดลสลับไปสู่โหมดการคิดใน latent space
ฉันสงสัยว่าการข้ามขั้น embeddings/unembeddings สำหรับการคิดภายในนั้นเป็นการปรับปรุงครั้งใหญ่จริงหรือไม่ หรือว่าวิธีการฝึกที่สอนให้สลับระหว่าง CoT กับ "การคิดแบบ latent" และผลลัพธ์ข้อความคือประเด็นหลัก
นี่อาจเป็นช่วงเวลา "นั้นแหละ" ของ AI/LLMs ก็ได้ มนุษย์ไม่ได้คิดเป็น "โทเค็น" หากอยู่ใน latent space โมเดลอาจอธิบายแนวคิดได้ด้วยความละเอียดสูงกว่าภาษา
คู่แข่งกำลังตามมาอย่างรวดเร็ว คาดว่าจะได้เห็น SkyNet หลายตัวแข่งขันกัน
สงสัยว่าฐานผู้ใช้ของตัวละครที่สร้างด้วย AI ของ Facebook จะมีปฏิสัมพันธ์ที่ดีขึ้นหรือไม่
เว็บไซต์อ้างว่าทำให้บทความวิชาการเข้าใจง่าย แต่มีโฆษณาเยอะ และหา "Coconut" ไม่เจอในหน้าอย่างเป็นทางการของ Meta FAIR เลย จึงสงสัยว่าเว็บไซต์นี้เป็นลิงก์ที่ดีที่สุดจริงหรือไม่
เป็นโพสต์ซ้ำจากเมื่อ 20 วันก่อน