LADDER: การยกระดับความสามารถในการแก้ปัญหาของ LLM ผ่านการพัฒนาตัวเอง
-
แนะนำ LADDER: LADDER เป็นเฟรมเวิร์กที่ค่อย ๆ แปลงปัญหาที่ซับซ้อนให้เป็นรูปแบบที่ง่ายขึ้นทีละขั้น เพื่อให้โมเดลภาษาขนาดใหญ่ (LLM) สามารถยกระดับความสามารถในการแก้ปัญหาของตนเองได้ โดยไม่ต้องอาศัยชุดข้อมูลที่มีอยู่เดิมหรือฟีดแบ็กจากมนุษย์ แต่ใช้ความสามารถของตัวโมเดลเองในการสร้างโจทย์ที่ถูกแปลงให้ง่ายขึ้น
-
ประสิทธิภาพ: LADDER ช่วยเพิ่มความแม่นยำของ Llama 3.2 3B ในงานอินทิเกรตทางคณิตศาสตร์จาก 1% เป็น 82% และทำให้ Qwen2.5 7B Deepseek-R1 Distilled ทำคะแนนรอบคัดเลือก MIT Integration Bee ได้ 73%
-
แนะนำ TTRL: TTRL (Test-Time Reinforcement Learning) เป็นวิธีที่ทำ reinforcement learning ระหว่างการอนุมานผ่านการแปลงโจทย์ทดสอบ ส่งผลให้ Qwen2.5 7B Deepseek-R1 Distilled ทำคะแนนล้ำสมัยที่ 90% ในรอบคัดเลือก MIT Integration Bee และมีประสิทธิภาพเหนือกว่า OpenAI o1
-
ความสำคัญของผลลัพธ์: ผลลัพธ์เหล่านี้แสดงให้เห็นว่าการเรียนรู้แบบอัตโนมัติและเชิงกลยุทธ์สามารถเพิ่มขีดความสามารถได้อย่างมีนัยสำคัญ แม้ไม่มีการขยายสถาปัตยกรรมหรือการกำกับดูแลจากมนุษย์
1 ความคิดเห็น
ความเห็นจาก Hacker News
สงสัยว่าสัปดาห์นี้กำลังเกิดอะไรขึ้นบ้าง ในช่วงสองวันที่ผ่านมาได้เห็นความก้าวหน้าที่น่าสนใจหลายครั้งในวงการแมชชีนเลิร์นนิง
ทำให้นึกถึงคำพูดของ Hendrik Lenstra นักคณิตศาสตร์ทฤษฎีจำนวนชื่อดัง
แนวทาง reinforcement learning ช่วงเวลา test ของพวกเขาดูน่าสงสัยเล็กน้อย
พิสูจน์ให้เห็นถึงประสิทธิผลของ LADDER ในหัวข้อการอินทิเกรตทางคณิตศาสตร์ โดยเพิ่มความแม่นยำของ Llama 3.2 3B จาก 1% เป็น 82%
Frank Herbert รู้เรื่องนี้อยู่แล้ว นี่คือการนำการตรวจสอบตนเองแบบเวียนกลับของ mentats ที่บรรยายไว้ใน Dune มาทำให้เป็นจริง
การฝึก/ reinforcement learning ในช่วงเวลา test เป็นแนวทางที่เหมาะกับ AI ด้านคณิตศาสตร์ในอนาคต นี่น่าจะเป็นหนึ่งในไม่กี่วิธีที่จะใช้พลังประมวลผลมหาศาลกับปัญหาที่กำหนดได้ Alphaproof ทำสิ่งนี้ไปแล้ว แต่ก็ดีที่มีการทำซ้ำอีกครั้งและได้ผลลัพธ์ที่ดี
นอกเรื่องนิดหน่อย แต่เว็บไซต์ของพวกเขาสวยมาก รู้สึกเหมือนเจอเหมืองทอง
บางชื่อก็ดึงดูดเกินไปจริง ๆ
ช่วงท้ายของงานวิจัยพวกเขากล่าวถึงสองข้อจากข้อสอบคัดเลือกรอบแรกของ MIT Integration Bee 2025 และบอกว่าระบบยังคงตอบผิดอยู่เรื่อย ๆ