LADDER: LLMs ที่พัฒนาตัวเองผ่านการแยกปัญหาแบบเรียกซ้ำ

(arxiv.org)

1 คะแนน โดย GN⁺ 2025-03-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LADDER: การยกระดับความสามารถในการแก้ปัญหาของ LLM ผ่านการพัฒนาตัวเอง

แนะนำ LADDER: LADDER เป็นเฟรมเวิร์กที่ค่อย ๆ แปลงปัญหาที่ซับซ้อนให้เป็นรูปแบบที่ง่ายขึ้นทีละขั้น เพื่อให้โมเดลภาษาขนาดใหญ่ (LLM) สามารถยกระดับความสามารถในการแก้ปัญหาของตนเองได้ โดยไม่ต้องอาศัยชุดข้อมูลที่มีอยู่เดิมหรือฟีดแบ็กจากมนุษย์ แต่ใช้ความสามารถของตัวโมเดลเองในการสร้างโจทย์ที่ถูกแปลงให้ง่ายขึ้น
ประสิทธิภาพ: LADDER ช่วยเพิ่มความแม่นยำของ Llama 3.2 3B ในงานอินทิเกรตทางคณิตศาสตร์จาก 1% เป็น 82% และทำให้ Qwen2.5 7B Deepseek-R1 Distilled ทำคะแนนรอบคัดเลือก MIT Integration Bee ได้ 73%
แนะนำ TTRL: TTRL (Test-Time Reinforcement Learning) เป็นวิธีที่ทำ reinforcement learning ระหว่างการอนุมานผ่านการแปลงโจทย์ทดสอบ ส่งผลให้ Qwen2.5 7B Deepseek-R1 Distilled ทำคะแนนล้ำสมัยที่ 90% ในรอบคัดเลือก MIT Integration Bee และมีประสิทธิภาพเหนือกว่า OpenAI o1
ความสำคัญของผลลัพธ์: ผลลัพธ์เหล่านี้แสดงให้เห็นว่าการเรียนรู้แบบอัตโนมัติและเชิงกลยุทธ์สามารถเพิ่มขีดความสามารถได้อย่างมีนัยสำคัญ แม้ไม่มีการขยายสถาปัตยกรรมหรือการกำกับดูแลจากมนุษย์

1 ความคิดเห็น

GN⁺ 2025-03-08

ความเห็นจาก Hacker News

สงสัยว่าสัปดาห์นี้กำลังเกิดอะไรขึ้นบ้าง ในช่วงสองวันที่ผ่านมาได้เห็นความก้าวหน้าที่น่าสนใจหลายครั้งในวงการแมชชีนเลิร์นนิง
- ทีมวิจัยของ Google ค้นพบว่าสามารถผสาน NNs และ CLAs ผ่าน digital logic gates ได้ ซึ่งทำให้สามารถลดปัญหาไม่เชิงเส้นจำนวนมากให้กลายเป็นวงจรดิจิทัลที่เรียบง่ายและมีประสิทธิภาพได้
- ยังมีการค้นพบใหม่ ๆ เกี่ยวกับ neural networks และ logic/intelligence ออกมาอย่างต่อเนื่อง ทำให้ยิ่งจินตนาการว่าเราเข้าใกล้ความเข้าใจหลักการของสติปัญญามากแค่ไหน
ทำให้นึกถึงคำพูดของ Hendrik Lenstra นักคณิตศาสตร์ทฤษฎีจำนวนชื่อดัง
- มีคำกล่าวว่า "สำหรับทุกปัญหาที่แก้ไม่ได้ จะมีปัญหาที่ง่ายกว่าและยังแก้ไม่ได้อยู่เสมอ"
แนวทาง reinforcement learning ช่วงเวลา test ของพวกเขาดูน่าสงสัยเล็กน้อย
- TTRL ทำงานโดยขอให้ language model สร้างเวอร์ชันที่ง่ายกว่าของ test case เมื่อได้ปัญหาที่ง่ายลงแล้ว ก็จะทำ reinforcement learning กับปัญหานั้นเพื่อพยายามเพิ่มประสิทธิภาพของโมเดลต่อปัญหาต้นฉบับ
- ปัญหาคือพวกเขาใช้ตัวอินทิเกรตเชิงตัวเลขเพื่อตรวจสอบปัญหาที่ง่ายลง จึงนึกภาพได้ว่าอาจมีการสร้างปัญหาที่แทบไม่ง่ายลงเลย และทำให้โมเดลได้ฝึกกับ test case จริง ซึ่งก็ไม่ต่างจากการเทรนบน test set
- ส่วนที่เหลือของงานวิจัยก็โอเค
พิสูจน์ให้เห็นถึงประสิทธิผลของ LADDER ในหัวข้อการอินทิเกรตทางคณิตศาสตร์ โดยเพิ่มความแม่นยำของ Llama 3.2 3B จาก 1% เป็น 82%
- แค่การที่วิธีนี้ใช้ได้ก็ถือว่าน่าสนใจแล้ว และยิ่งน่าสนใจเป็นพิเศษที่มันใช้ได้ดีกับคณิตศาสตร์
- งานวิจัยชิ้นนี้เป็นส่วนหนึ่งของกระแสที่กำลังทำให้เส้นแบ่งระหว่างการฝึกกับการอนุมานพร่าเลือนลง วิธีของพวกเขาบางส่วนคือการแยกคำถามที่ไม่รู้คำตอบออกเป็นคำถามที่ง่ายกว่า แล้วใช้ 'checker' เชิงตัวเลขเพื่อทำ GRPO จากนั้นโมเดลที่ถูกเสริมนี้ก็สามารถตอบคำถามได้มากขึ้น
- คิดว่ามนุษย์เองก็คิดแบบนี้บ่อยมาก เช่น การครุ่นคิดกับบางสิ่ง หมุนมันไปมาในหัว เปรียบเทียบเป็นอุปมา เป็นต้น การเพิ่มการฝึกในช่วง test time เป็นวิธีที่ทำให้คิดได้มากขึ้น มากกว่าการเพิ่มโทเค็นในคอนเท็กซ์สำหรับการอนุมานแบบคงที่
- เช่นเดียวกับที่ DeepSeek และ o1/o3 แสดงให้เห็นว่าสามารถเพิ่มความสามารถได้ผ่านการสร้างและประเมินโทเค็นในช่วงเวลาอนุมาน ดูเหมือนว่าการทำ fine-tuning แบบอัตโนมัติในช่วงเวลาอนุมานก็น่าจะเพิ่มความสามารถได้เช่นกัน
- หากเทคนิคเหล่านี้มั่นคงมากขึ้น ก็หวังว่าเราจะสามารถพูดถึงและคิดเกี่ยวกับมันในรูปแบบใหม่ได้ ทั้งหมดนี้ในระดับหนึ่งล้วนเป็นส่วนของกระบวนการพื้นฐานเดียวกัน
- ยังไงก็ตาม เจ๋งมาก
Frank Herbert รู้เรื่องนี้อยู่แล้ว นี่คือการนำการตรวจสอบตนเองแบบเวียนกลับของ mentats ที่บรรยายไว้ใน Dune มาทำให้เป็นจริง
การฝึก/ reinforcement learning ในช่วงเวลา test เป็นแนวทางที่เหมาะกับ AI ด้านคณิตศาสตร์ในอนาคต นี่น่าจะเป็นหนึ่งในไม่กี่วิธีที่จะใช้พลังประมวลผลมหาศาลกับปัญหาที่กำหนดได้ Alphaproof ทำสิ่งนี้ไปแล้ว แต่ก็ดีที่มีการทำซ้ำอีกครั้งและได้ผลลัพธ์ที่ดี
นอกเรื่องนิดหน่อย แต่เว็บไซต์ของพวกเขาสวยมาก รู้สึกเหมือนเจอเหมืองทอง
บางชื่อก็ดึงดูดเกินไปจริง ๆ
ช่วงท้ายของงานวิจัยพวกเขากล่าวถึงสองข้อจากข้อสอบคัดเลือกรอบแรกของ MIT Integration Bee 2025 และบอกว่าระบบยังคงตอบผิดอยู่เรื่อย ๆ
- พวกเขาบอกว่าคำถามเหล่านี้เป็นหนึ่งในคำถามที่ซับซ้อนที่สุดในข้อสอบ แต่คำถามแรกก็แค่
- ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
- ซึ่งก็คือการคำนวณ 1/3 + 1/(34) + 1/(34*5) + ... ไม่ใช่คณิตศาสตร์ระดับสูงอะไรมาก

LADDER: LLMs ที่พัฒนาตัวเองผ่านการแยกปัญหาแบบเรียกซ้ำ

LADDER: การยกระดับความสามารถในการแก้ปัญหาของ LLM ผ่านการพัฒนาตัวเอง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News