1 คะแนน โดย GN⁺ 2025-03-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LADDER: การยกระดับความสามารถในการแก้ปัญหาของ LLM ผ่านการพัฒนาตัวเอง

  • แนะนำ LADDER: LADDER เป็นเฟรมเวิร์กที่ค่อย ๆ แปลงปัญหาที่ซับซ้อนให้เป็นรูปแบบที่ง่ายขึ้นทีละขั้น เพื่อให้โมเดลภาษาขนาดใหญ่ (LLM) สามารถยกระดับความสามารถในการแก้ปัญหาของตนเองได้ โดยไม่ต้องอาศัยชุดข้อมูลที่มีอยู่เดิมหรือฟีดแบ็กจากมนุษย์ แต่ใช้ความสามารถของตัวโมเดลเองในการสร้างโจทย์ที่ถูกแปลงให้ง่ายขึ้น

  • ประสิทธิภาพ: LADDER ช่วยเพิ่มความแม่นยำของ Llama 3.2 3B ในงานอินทิเกรตทางคณิตศาสตร์จาก 1% เป็น 82% และทำให้ Qwen2.5 7B Deepseek-R1 Distilled ทำคะแนนรอบคัดเลือก MIT Integration Bee ได้ 73%

  • แนะนำ TTRL: TTRL (Test-Time Reinforcement Learning) เป็นวิธีที่ทำ reinforcement learning ระหว่างการอนุมานผ่านการแปลงโจทย์ทดสอบ ส่งผลให้ Qwen2.5 7B Deepseek-R1 Distilled ทำคะแนนล้ำสมัยที่ 90% ในรอบคัดเลือก MIT Integration Bee และมีประสิทธิภาพเหนือกว่า OpenAI o1

  • ความสำคัญของผลลัพธ์: ผลลัพธ์เหล่านี้แสดงให้เห็นว่าการเรียนรู้แบบอัตโนมัติและเชิงกลยุทธ์สามารถเพิ่มขีดความสามารถได้อย่างมีนัยสำคัญ แม้ไม่มีการขยายสถาปัตยกรรมหรือการกำกับดูแลจากมนุษย์

1 ความคิดเห็น

 
GN⁺ 2025-03-08
ความเห็นจาก Hacker News
  • สงสัยว่าสัปดาห์นี้กำลังเกิดอะไรขึ้นบ้าง ในช่วงสองวันที่ผ่านมาได้เห็นความก้าวหน้าที่น่าสนใจหลายครั้งในวงการแมชชีนเลิร์นนิง

    • ทีมวิจัยของ Google ค้นพบว่าสามารถผสาน NNs และ CLAs ผ่าน digital logic gates ได้ ซึ่งทำให้สามารถลดปัญหาไม่เชิงเส้นจำนวนมากให้กลายเป็นวงจรดิจิทัลที่เรียบง่ายและมีประสิทธิภาพได้
    • ยังมีการค้นพบใหม่ ๆ เกี่ยวกับ neural networks และ logic/intelligence ออกมาอย่างต่อเนื่อง ทำให้ยิ่งจินตนาการว่าเราเข้าใกล้ความเข้าใจหลักการของสติปัญญามากแค่ไหน
  • ทำให้นึกถึงคำพูดของ Hendrik Lenstra นักคณิตศาสตร์ทฤษฎีจำนวนชื่อดัง

    • มีคำกล่าวว่า "สำหรับทุกปัญหาที่แก้ไม่ได้ จะมีปัญหาที่ง่ายกว่าและยังแก้ไม่ได้อยู่เสมอ"
  • แนวทาง reinforcement learning ช่วงเวลา test ของพวกเขาดูน่าสงสัยเล็กน้อย

    • TTRL ทำงานโดยขอให้ language model สร้างเวอร์ชันที่ง่ายกว่าของ test case เมื่อได้ปัญหาที่ง่ายลงแล้ว ก็จะทำ reinforcement learning กับปัญหานั้นเพื่อพยายามเพิ่มประสิทธิภาพของโมเดลต่อปัญหาต้นฉบับ
    • ปัญหาคือพวกเขาใช้ตัวอินทิเกรตเชิงตัวเลขเพื่อตรวจสอบปัญหาที่ง่ายลง จึงนึกภาพได้ว่าอาจมีการสร้างปัญหาที่แทบไม่ง่ายลงเลย และทำให้โมเดลได้ฝึกกับ test case จริง ซึ่งก็ไม่ต่างจากการเทรนบน test set
    • ส่วนที่เหลือของงานวิจัยก็โอเค
  • พิสูจน์ให้เห็นถึงประสิทธิผลของ LADDER ในหัวข้อการอินทิเกรตทางคณิตศาสตร์ โดยเพิ่มความแม่นยำของ Llama 3.2 3B จาก 1% เป็น 82%

    • แค่การที่วิธีนี้ใช้ได้ก็ถือว่าน่าสนใจแล้ว และยิ่งน่าสนใจเป็นพิเศษที่มันใช้ได้ดีกับคณิตศาสตร์
    • งานวิจัยชิ้นนี้เป็นส่วนหนึ่งของกระแสที่กำลังทำให้เส้นแบ่งระหว่างการฝึกกับการอนุมานพร่าเลือนลง วิธีของพวกเขาบางส่วนคือการแยกคำถามที่ไม่รู้คำตอบออกเป็นคำถามที่ง่ายกว่า แล้วใช้ 'checker' เชิงตัวเลขเพื่อทำ GRPO จากนั้นโมเดลที่ถูกเสริมนี้ก็สามารถตอบคำถามได้มากขึ้น
    • คิดว่ามนุษย์เองก็คิดแบบนี้บ่อยมาก เช่น การครุ่นคิดกับบางสิ่ง หมุนมันไปมาในหัว เปรียบเทียบเป็นอุปมา เป็นต้น การเพิ่มการฝึกในช่วง test time เป็นวิธีที่ทำให้คิดได้มากขึ้น มากกว่าการเพิ่มโทเค็นในคอนเท็กซ์สำหรับการอนุมานแบบคงที่
    • เช่นเดียวกับที่ DeepSeek และ o1/o3 แสดงให้เห็นว่าสามารถเพิ่มความสามารถได้ผ่านการสร้างและประเมินโทเค็นในช่วงเวลาอนุมาน ดูเหมือนว่าการทำ fine-tuning แบบอัตโนมัติในช่วงเวลาอนุมานก็น่าจะเพิ่มความสามารถได้เช่นกัน
    • หากเทคนิคเหล่านี้มั่นคงมากขึ้น ก็หวังว่าเราจะสามารถพูดถึงและคิดเกี่ยวกับมันในรูปแบบใหม่ได้ ทั้งหมดนี้ในระดับหนึ่งล้วนเป็นส่วนของกระบวนการพื้นฐานเดียวกัน
    • ยังไงก็ตาม เจ๋งมาก
  • Frank Herbert รู้เรื่องนี้อยู่แล้ว นี่คือการนำการตรวจสอบตนเองแบบเวียนกลับของ mentats ที่บรรยายไว้ใน Dune มาทำให้เป็นจริง

  • การฝึก/ reinforcement learning ในช่วงเวลา test เป็นแนวทางที่เหมาะกับ AI ด้านคณิตศาสตร์ในอนาคต นี่น่าจะเป็นหนึ่งในไม่กี่วิธีที่จะใช้พลังประมวลผลมหาศาลกับปัญหาที่กำหนดได้ Alphaproof ทำสิ่งนี้ไปแล้ว แต่ก็ดีที่มีการทำซ้ำอีกครั้งและได้ผลลัพธ์ที่ดี

  • นอกเรื่องนิดหน่อย แต่เว็บไซต์ของพวกเขาสวยมาก รู้สึกเหมือนเจอเหมืองทอง

  • บางชื่อก็ดึงดูดเกินไปจริง ๆ

  • ช่วงท้ายของงานวิจัยพวกเขากล่าวถึงสองข้อจากข้อสอบคัดเลือกรอบแรกของ MIT Integration Bee 2025 และบอกว่าระบบยังคงตอบผิดอยู่เรื่อย ๆ

    • พวกเขาบอกว่าคำถามเหล่านี้เป็นหนึ่งในคำถามที่ซับซ้อนที่สุดในข้อสอบ แต่คำถามแรกก็แค่
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • ซึ่งก็คือการคำนวณ 1/3 + 1/(34) + 1/(34*5) + ... ไม่ใช่คณิตศาสตร์ระดับสูงอะไรมาก