DeepScaleR: เอาชนะ O1-Preview ด้วยโมเดล 1.5B โดยใช้ RL
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: โมเดลที่ปรับจูนละเอียดด้วยการเรียนรู้แบบเสริมกำลัง (RL) บนโมเดล Deepseek-R1-Distilled-Qwen-1.5B
- ทำความแม่นยำ AIME2024 Pass@1 ได้ 43.1% (เพิ่มขึ้น +14.3% เมื่อเทียบกับโมเดลฐาน)
→ เหนือกว่าประสิทธิภาพของ OpenAIo1-preview! - ฝึกด้วยเวลา 3,800 A100 GPU ชั่วโมง ($4500) → มีประสิทธิภาพด้านการสเกล RL มากกว่า 18.42 เท่าเมื่อเทียบกับ 70,000 A100 GPU ชั่วโมง
- เปิดซอร์สทั้งชุดข้อมูล โค้ด และบันทึกการฝึก → ทุกคนสามารถทดลองขยายความสามารถเชิงสติปัญญาด้วย RL ได้
เสริมความสามารถให้โมเดลขนาดเล็กด้วย RL
- Deepseek-R1 เป็นโมเดลโอเพนซอร์สที่แข่งขันกับ OpenAI
o1ได้ แต่กระบวนการฝึกที่แน่นอนยังไม่เปิดเผย - ศึกษาวิธีพัฒนาโมเดลให้เหตุผลที่ทรงพลังด้วย RL โดยใช้ทรัพยากรคำนวณน้อย
- ข้อจำกัดใหญ่ที่สุดของ RL แบบเดิมคือมีต้นทุนสูง:
→ หากต้องการทำซ้ำการทดลองของDeepseek-R1จำเป็นต้องใช้เวลาอย่างน้อย 70,000 A100 GPU ชั่วโมง - แนวทางแก้ไข:
- ใช้โมเดล distillation ที่มีคุณภาพสูง
- นำเทคนิค "Iterative Lengthening" มาใช้เพื่อขยาย RL แบบค่อยเป็นค่อยไป → ลดต้นทุนคำนวณเหลือ 3,800 A100 GPU ชั่วโมง
การสร้างชุดข้อมูล
-
ใช้ชุดข้อมูล AIME(1984-2023) + AMC(ก่อนปี 2023) + Omni-MATH + Still
-
กระบวนการทำความสะอาดข้อมูล:
- ดึงคำตอบ: ใช้
gemini-1.5-pro-002เพื่อดึงคำตอบจากเฉลยอย่างเป็นทางการ - ลบข้อมูลซ้ำ: ใช้ embedding ของ
sentence-transformers/all-MiniLM-L6-v2เพื่อตัดโจทย์ที่คล้ายกันออก - กรองโจทย์ที่ให้คะแนนอัตโนมัติไม่ได้: ตัดโจทย์ที่ประเมินอัตโนมัติด้วย
sympyได้ยากออก
- ดึงคำตอบ: ใช้
-
สุดท้ายได้คู่โจทย์-คำตอบจำนวน 40,000 คู่ และมีแผนจะขยายข้อมูลเพิ่มเติมในอนาคต
ฟังก์ชันรางวัล (Reward Function)
-
ใช้ "Outcome Reward Model (ORM)" เช่นเดียวกับ Deepseek-R1:
1 คะแนน: คำตอบถูกต้องในรูปแบบที่ถูกต้อง (ผ่านการตรวจด้วยsympy)0 คะแนน: คำตอบผิด หรือรูปแบบผิด (<think>...</think>หายไป เป็นต้น)
-
เหตุผลที่ไม่ใช้ "กระบวนการให้รางวัลตามขั้นตอน (Process Reward Model, PRM)":
- เพื่อป้องกัน reward hacking → ลดผลข้างเคียงที่โมเดลพยายามทำตามแค่รูปแบบเท่านั้น
"Iterative Lengthening": เทคนิคขยายการเรียนรู้ RL แบบเป็นขั้นตอน
Step 1: เริ่มการเรียนรู้ RL ด้วยคอนเท็กซ์ 8K
- เหตุผล:
- คำตอบที่ผิดมีความยาวเฉลี่ย 20,346 โทเคน ส่วนคำตอบที่ถูกมี 6,395 โทเคน → คำตอบที่ยาวมีโอกาสผิดมากขึ้น
- หากฝึกด้วยคอนเท็กซ์ยาวตั้งแต่ต้นจะไม่มีประสิทธิภาพ → จึงเริ่มปรับให้เหมาะสมด้วย 8K ก่อน
- ผลลัพธ์:
- AIME Pass@1 เพิ่มจาก 28.9% → 33.9% (+5%)
- จำนวนโทเคนที่ไม่จำเป็นลดลง → ความยาวคำตอบเฉลี่ยลดลง 10,484 โทเคน
Step 2: ขยายเป็นคอนเท็กซ์ 16K
- หลังฝึก 1,000 สเต็ป โมเดลเริ่มมีแนวโน้มคิด (ให้เหตุผล) ยาวขึ้น
- แต่ข้อจำกัดที่ 8K ทำให้ผลการเรียนรู้ถูกจำกัด → จึงขยายเป็น 16K
- ข้อดี:
- เร็วกว่าการฝึกด้วย 16K ตั้งแต่แรกมากกว่า 2 เท่า (หลีกเลี่ยงไม่ให้ความยาวคำตอบเฉลี่ยพุ่งจาก 3,000 → 9,000 โทเคน)
- ความแม่นยำ AIME2024 แตะ 38%
Step 3: "24K Magic" - เพิ่มประสิทธิภาพขั้นสุดท้าย
- ที่ 16K ประสิทธิภาพเริ่มนิ่ง → ขยายครั้งสุดท้ายเป็นคอนเท็กซ์ 24K
- ผลคือทำความแม่นยำ AIME2024 Pass@1 ได้ 43.1% และเหนือกว่า OpenAI
o1-preview!
ผลการประเมินสุดท้าย
- โมเดล DeepScaleR ถูกประเมินบนเบนช์มาร์กคณิตศาสตร์หลายตัว เช่น AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench
- เมื่ออิง AIME2024 DeepScaleR-1.5B-Preview ทำความแม่นยำได้ 43.1% สูงกว่าโมเดล OpenAI
o1-preview - บน MATH 500, AMC 2023 และชุดอื่น ๆ แม้จะเป็นโมเดล 1.5B ก็ยังทำผลงานเทียบเท่าหรือดีกว่าโมเดล 7B
- เมื่อเทียบกับงานวิจัยก่อนหน้า (RL-based rStar, PRIME, SimpleRL) ก็แสดงให้เห็นถึงประสิทธิภาพสูงสุดเช่นกัน
สรุปประเด็นสำคัญ (Key Takeaways)
-
RL สามารถสเกลกับโมเดลขนาดเล็กได้
- เดิมมีความเชื่อว่า RL มีประสิทธิภาพเฉพาะกับโมเดลขนาดใหญ่
- แต่โมเดลขนาดเล็กที่ผ่านการปรับจูนด้วยข้อมูลคุณภาพสูงก็สามารถเรียนรู้ความสามารถในการให้เหตุผลที่ทรงพลังผ่าน RL ได้
- DeepScaleR ปรับปรุงความแม่นยำ AIME จาก 28.9% → 43.1%
-
เทคนิค "Iterative Lengthening" ช่วยขยายความยาวได้อย่างมีประสิทธิภาพ
- งานวิจัยก่อนหน้ารายงานว่าการเพิ่มประสิทธิภาพเมื่อใช้คอนเท็กซ์เกิน 16K มีไม่มาก
- แต่การขยายแบบค่อยเป็นค่อยไปจาก 8K → 16K → 24K ช่วยดันประสิทธิภาพได้สูงสุด
บทสรุป: ทำให้การสเกล RL เข้าถึงได้มากขึ้น
- DeepScaleR-1.5B-Preview คือโมเดล RL แบบโอเพนซอร์สตัวแรกที่เหนือกว่า O1-preview
- ใช้เพียง 3,800 A100 GPU ชั่วโมง ($4500) ก็สร้างโมเดลประสิทธิภาพสูงได้ → พิสูจน์ความเป็นไปได้ของงานวิจัย RL ต้นทุนต่ำ
- มีแผนจะเดินหน้าพัฒนาโมเดลให้เหตุผลด้วย RL ร่วมกับชุมชนโอเพนซอร์สต่อไป
🔗 แหล่งข้อมูลโอเพนซอร์ส:
1 ความคิดเห็น
ความเห็นบน Hacker News