6 คะแนน โดย GN⁺ 2025-01-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลภาษาขนาดใหญ่ (LLM) ผ่านการพรีเทรนด้วยภาษามนุษย์จำนวนมหาศาล จึงแสดงความสามารถด้านการให้เหตุผลได้อย่างทรงพลัง
  • วิธีแบบ "Chain-of-Thought (CoT)" ช่วยให้โมเดลสร้างกระบวนการคิดทีละขั้นเพื่อไปสู่คำตอบ
  • อย่างไรก็ตาม การให้เหตุผลของ LLM ต้องถูกสร้างออกมาเป็นคำ ซึ่งเป็นข้อจำกัดพื้นฐานของโมเดล
  • มนุษย์ไม่ได้แสดงความคิดออกมาเป็นภาษาเสมอไป แล้ว AI จำเป็นต้องทำเช่นนั้นหรือไม่?
  • งานวิจัยของ Meta เรื่อง "Training Large Language Models to Reason in a Continuous Latent Space" เสนอแนวทางใหม่ชื่อ COCONUT (Chain of Continuous Thought) เพื่อแก้ข้อจำกัดนี้

วิธีแบบ Chain-of-Thought (CoT)

  • CoT รับคำถามเป็นอินพุต แล้วสร้างคำตอบสุดท้ายผ่านการให้เหตุผลทีละขั้น
  • โมเดลประมวลผลโทเค็นอินพุตเพื่อสร้างโทเค็นตอบกลับตัวแรก (จุดเริ่มต้นของกระบวนการให้เหตุผล)
  • จากนั้นจะป้อนคำถามและโทเค็นการให้เหตุผลก่อนหน้ากลับเข้าโมเดลซ้ำ ๆ เพื่อทำให้กระบวนการให้เหตุผลสมบูรณ์ และสุดท้ายจึงสร้างคำตอบ

วิธีแบบ Chain of Continuous Thought (COCONUT)

  • COCONUT สลับใช้ระหว่าง โหมดภาษา และ โหมดความคิดแฝง (latent thought)
    • โหมดภาษา: ทำงานเหมือน language model มาตรฐาน โดยสร้างโทเค็นถัดไป
    • โหมดความคิดแฝง: ใช้ hidden state สุดท้ายเพื่อคำนวณขั้นถัดไป
  • ในโหมดความคิดแฝง สามารถใช้ hidden state สุดท้ายเป็นอินพุตถัดไปได้ ทำให้ให้เหตุผลได้อย่างมีประสิทธิภาพมากขึ้น
  • เริ่มโหมดความคิดแฝงด้วยโทเค็น <bot> และจบด้วยโทเค็น <eot> ก่อนสลับกลับสู่โหมดภาษา

ขั้นตอนการฝึก

  • ฝึกโมเดลโดยอิงจากข้อมูล CoT เดิม (คำถาม, ขั้นตอนการให้เหตุผล, คำตอบสุดท้าย)
  • ใช้การฝึกแบบเป็นลำดับขั้น:
    • ในระยะแรก โมเดลถูกฝึกให้สร้างขั้นตอนการให้เหตุผลแบบภาษาและคำตอบ
    • ในระยะถัดมา จะลบขั้นตอนการให้เหตุผลออก และแทนที่ด้วยโทเค็นความคิดแฝงเพื่อฝึกต่อ
  • ในแต่ละขั้น ค่า loss จะถูกคำนวณจากขั้นตอนการให้เหตุผลแบบภาษาที่ยังเหลืออยู่และคำตอบ
  • ความคิดแฝงสามารถหาอนุพันธ์ได้ครบถ้วน จึงทำ back-propagation ได้

การเปลี่ยนจากการสร้างความคิดไปสู่การสร้างโทเค็นคำ

  • มีสองกลยุทธ์สำหรับให้โมเดลสลับจากโหมดความคิดแฝงกลับสู่โหมดภาษา
  • กลยุทธ์แรกคือ "ให้โมเดลตัดสินใจด้วยตัวจำแนกแบบไบนารี" และกลยุทธ์ที่สองคือ "ใช้จำนวนโทเค็นความคิดแฝงที่กำหนดตายตัว"
  • ทั้งสองกลยุทธ์ให้ผลลัพธ์ใกล้เคียงกัน จึงเลือกใช้วิธีจำนวนคงที่ที่ง่ายกว่า

ผลการทดลอง

  • วิธี Coconut ให้ประสิทธิภาพเหนือกว่า No-CoT ในทุกชุดข้อมูล
  • เมื่อเทียบกับ CoT นั้น CoT ทำได้ดีกว่าในโจทย์คณิตศาสตร์ แต่ใน ProsQA ซึ่งต้องการความสามารถด้านการวางแผน Coconut ทำได้ดีกว่า
  • เมื่อเทียบกับ i-CoT นั้น Coconut แสดงความแม่นยำที่ดีกว่าในโจทย์คณิตศาสตร์
  • ประสิทธิภาพของ Coconut:
    • GSM8K (คณิตศาสตร์): ต่ำกว่า CoT
    • ProsQA (ต้องการการวางแผน): สูงกว่า CoT
    • No-CoT (สร้างคำตอบโดยตรงโดยไม่ให้เหตุผล): ทำได้ดีกว่าในทุกชุดข้อมูล
    • ด้านประสิทธิภาพ: สร้างโทเค็นน้อยกว่า CoT
  • การเปรียบเทียบกับ i-CoT:
    • ความแม่นยำสูงกว่าในคณิตศาสตร์
    • ประสิทธิภาพใกล้เคียงกันในงานวางแผนและการให้เหตุผลเชิงตรรกะ
  • ผลของการเรียนรู้แบบ curriculum:
    • โมเดล "w/o curriculum" มีประสิทธิภาพลดลงอย่างมาก

ความสามารถในการให้เหตุผลคล้าย BFS

  • COCONUT แสดงผลงานโดดเด่นในการแก้ปัญหาเชิงการวางแผนบนชุดข้อมูล ProsQA
  • กรณีตัวอย่างการสำรวจกราฟ:
    • CoT: "หลอน" ความสัมพันธ์ที่ไม่มีอยู่จริงจนได้คำตอบผิด
    • Coconut: ใช้โทเค็นความคิดแฝงหลายตัวเพื่อค้นหาเส้นทางที่ถูกต้องได้
  • Coconut สามารถสำรวจเส้นทางที่เป็นไปได้หลายทาง จึงให้ผลลัพธ์ดีกว่าในงานที่เน้นการวางแผนอย่างเข้มข้น

บทสรุปและทิศทางการวิจัยต่อไป

  • บทสรุป:
    • แนวทาง COCONUT ช่วยยกระดับความสามารถในการให้เหตุผลของ LLM ได้อย่างมาก
    • การให้เหตุผลใน latent space มอบประสิทธิภาพที่ยอดเยี่ยมในงานที่เน้นการวางแผน ผ่านรูปแบบที่คล้ายกับ BFS
  • ทิศทางการวิจัยต่อไป:
    • ผสานความคิดแบบต่อเนื่องตั้งแต่ขั้นตอนพรีเทรน
    • เพิ่มประสิทธิภาพเพื่อรองรับการให้เหตุผลหลายลำดับต่อเนื่อง
    • สำรวจความเป็นไปได้ในการผสาน CoT กับความคิดแฝง

1 ความคิดเห็น

 
GN⁺ 2025-01-01
ความคิดเห็นจาก Hacker News
  • การเน้นไปที่ BFS นั้นตรงข้ามกับสิ่งที่ฉันพยายามทำ มนุษย์แบ่งงานตามสัญชาตญาณและความหยั่งรู้ ออกเป็นขั้นสั้น ๆ และขั้นยาวที่สรุป/เก็บขั้นถัดไปไว้ เมื่อทำไม่สำเร็จ ก็จะสรุปต้นไม้ของความล้มเหลวเพื่อกันออกจากตัวเลือกในอนาคต

    • ผลของสัญชาตญาณจะลดลงอย่างรวดเร็วเมื่อระยะห่างมากขึ้น หากใช้ BFS ก็จะลดคุณค่าของสัญชาตญาณและเอนเอียงไปทางการคำนวณแทน วิธีเข้าหาจะต่างกันไปตามประเภทของปัญหา
    • ถ้าอยากทำต้นแบบร่วมกัน โปรดติดต่อมา
  • ขั้นต่อไปคือการสร้างการแทนความที่ไม่มีภาษามนุษย์ หาก LLMs สามารถสื่อสารกันด้วย embeddings เพียงอย่างเดียวโดยไม่มีข้อความมนุษย์เป็นอินพุต ก็จะเปิดยุคใหม่ของ AI

  • Meta เริ่มจากโมเดลภาษาที่ผ่านการ pre-train แล้ว และทำ fine-tune ด้วยตัวอย่างการให้เหตุผลทีละขั้น จากนั้นเพิ่มโทเค็นใหม่เพื่อให้โมเดลสลับไปสู่โหมดการคิดใน latent space

    • คัดลอก hidden layer สุดท้ายกลับไปยัง input layer ซ้ำ ๆ เพื่อให้ได้มุมมองเชิงลึกมากขึ้น
    • การฝึกจะค่อย ๆ แทนที่ขั้นการให้เหตุผลด้วยภาษา ด้วยขั้น autoregressive ใน latent space โมเดลเรียนรู้ที่จะเปิดและปิดโหมดการคิดใน latent space ด้วยตัวเอง
  • ฉันสงสัยว่าการข้ามขั้น embeddings/unembeddings สำหรับการคิดภายในนั้นเป็นการปรับปรุงครั้งใหญ่จริงหรือไม่ หรือว่าวิธีการฝึกที่สอนให้สลับระหว่าง CoT กับ "การคิดแบบ latent" และผลลัพธ์ข้อความคือประเด็นหลัก

    • น่าสนใจที่ "การคิดแบบ latent" จำนวนคงที่ให้ประสิทธิภาพเทียบเท่ากับตัวจำแนกแบบไบนารี
  • นี่อาจเป็นช่วงเวลา "นั้นแหละ" ของ AI/LLMs ก็ได้ มนุษย์ไม่ได้คิดเป็น "โทเค็น" หากอยู่ใน latent space โมเดลอาจอธิบายแนวคิดได้ด้วยความละเอียดสูงกว่าภาษา

    • latent space มีต้นทุนการประมวลผลต่ำ สามารถคิดได้โดยไม่ต้องมีขั้นตอนเข้ารหัส/ถอดรหัสภาษา และให้เหตุผลได้จากการป้อนข้อมูลที่หลากหลาย
  • คู่แข่งกำลังตามมาอย่างรวดเร็ว คาดว่าจะได้เห็น SkyNet หลายตัวแข่งขันกัน

  • สงสัยว่าฐานผู้ใช้ของตัวละครที่สร้างด้วย AI ของ Facebook จะมีปฏิสัมพันธ์ที่ดีขึ้นหรือไม่

  • เว็บไซต์อ้างว่าทำให้บทความวิชาการเข้าใจง่าย แต่มีโฆษณาเยอะ และหา "Coconut" ไม่เจอในหน้าอย่างเป็นทางการของ Meta FAIR เลย จึงสงสัยว่าเว็บไซต์นี้เป็นลิงก์ที่ดีที่สุดจริงหรือไม่

  • เป็นโพสต์ซ้ำจากเมื่อ 20 วันก่อน