DeepScaleR: เอาชนะ O1-Preview ด้วยโมเดล 1.5B โดยใช้ RL

(pretty-radio-b75.notion.site)

5 คะแนน โดย GN⁺ 2025-02-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

DeepScaleR-1.5B-Preview: โมเดลที่ปรับจูนละเอียดด้วยการเรียนรู้แบบเสริมกำลัง (RL) บนโมเดล Deepseek-R1-Distilled-Qwen-1.5B
ทำความแม่นยำ AIME2024 Pass@1 ได้ 43.1% (เพิ่มขึ้น +14.3% เมื่อเทียบกับโมเดลฐาน)
→ เหนือกว่าประสิทธิภาพของ OpenAI o1-preview!
ฝึกด้วยเวลา 3,800 A100 GPU ชั่วโมง ($4500) → มีประสิทธิภาพด้านการสเกล RL มากกว่า 18.42 เท่าเมื่อเทียบกับ 70,000 A100 GPU ชั่วโมง
เปิดซอร์สทั้งชุดข้อมูล โค้ด และบันทึกการฝึก → ทุกคนสามารถทดลองขยายความสามารถเชิงสติปัญญาด้วย RL ได้

เสริมความสามารถให้โมเดลขนาดเล็กด้วย RL

Deepseek-R1 เป็นโมเดลโอเพนซอร์สที่แข่งขันกับ OpenAI o1 ได้ แต่กระบวนการฝึกที่แน่นอนยังไม่เปิดเผย
ศึกษาวิธีพัฒนาโมเดลให้เหตุผลที่ทรงพลังด้วย RL โดยใช้ทรัพยากรคำนวณน้อย
ข้อจำกัดใหญ่ที่สุดของ RL แบบเดิมคือมีต้นทุนสูง:
→ หากต้องการทำซ้ำการทดลองของ Deepseek-R1 จำเป็นต้องใช้เวลาอย่างน้อย 70,000 A100 GPU ชั่วโมง
แนวทางแก้ไข:
- ใช้โมเดล distillation ที่มีคุณภาพสูง
- นำเทคนิค "Iterative Lengthening" มาใช้เพื่อขยาย RL แบบค่อยเป็นค่อยไป → ลดต้นทุนคำนวณเหลือ 3,800 A100 GPU ชั่วโมง

การสร้างชุดข้อมูล

ใช้ชุดข้อมูล AIME(1984-2023) + AMC(ก่อนปี 2023) + Omni-MATH + Still
กระบวนการทำความสะอาดข้อมูล:
1. ดึงคำตอบ: ใช้ gemini-1.5-pro-002 เพื่อดึงคำตอบจากเฉลยอย่างเป็นทางการ
2. ลบข้อมูลซ้ำ: ใช้ embedding ของ sentence-transformers/all-MiniLM-L6-v2 เพื่อตัดโจทย์ที่คล้ายกันออก
3. กรองโจทย์ที่ให้คะแนนอัตโนมัติไม่ได้: ตัดโจทย์ที่ประเมินอัตโนมัติด้วย sympy ได้ยากออก
สุดท้ายได้คู่โจทย์-คำตอบจำนวน 40,000 คู่ และมีแผนจะขยายข้อมูลเพิ่มเติมในอนาคต

ฟังก์ชันรางวัล (Reward Function)

ใช้ "Outcome Reward Model (ORM)" เช่นเดียวกับ Deepseek-R1:
- 1 คะแนน: คำตอบถูกต้องในรูปแบบที่ถูกต้อง (ผ่านการตรวจด้วย sympy)
- 0 คะแนน: คำตอบผิด หรือรูปแบบผิด (<think>...</think> หายไป เป็นต้น)
เหตุผลที่ไม่ใช้ "กระบวนการให้รางวัลตามขั้นตอน (Process Reward Model, PRM)":
- เพื่อป้องกัน reward hacking → ลดผลข้างเคียงที่โมเดลพยายามทำตามแค่รูปแบบเท่านั้น

"Iterative Lengthening": เทคนิคขยายการเรียนรู้ RL แบบเป็นขั้นตอน

Step 1: เริ่มการเรียนรู้ RL ด้วยคอนเท็กซ์ 8K

เหตุผล:
- คำตอบที่ผิดมีความยาวเฉลี่ย 20,346 โทเคน ส่วนคำตอบที่ถูกมี 6,395 โทเคน → คำตอบที่ยาวมีโอกาสผิดมากขึ้น
- หากฝึกด้วยคอนเท็กซ์ยาวตั้งแต่ต้นจะไม่มีประสิทธิภาพ → จึงเริ่มปรับให้เหมาะสมด้วย 8K ก่อน
ผลลัพธ์:
- AIME Pass@1 เพิ่มจาก 28.9% → 33.9% (+5%)
- จำนวนโทเคนที่ไม่จำเป็นลดลง → ความยาวคำตอบเฉลี่ยลดลง 10,484 โทเคน

Step 2: ขยายเป็นคอนเท็กซ์ 16K

หลังฝึก 1,000 สเต็ป โมเดลเริ่มมีแนวโน้มคิด (ให้เหตุผล) ยาวขึ้น
แต่ข้อจำกัดที่ 8K ทำให้ผลการเรียนรู้ถูกจำกัด → จึงขยายเป็น 16K
ข้อดี:
- เร็วกว่าการฝึกด้วย 16K ตั้งแต่แรกมากกว่า 2 เท่า (หลีกเลี่ยงไม่ให้ความยาวคำตอบเฉลี่ยพุ่งจาก 3,000 → 9,000 โทเคน)
- ความแม่นยำ AIME2024 แตะ 38%

Step 3: "24K Magic" - เพิ่มประสิทธิภาพขั้นสุดท้าย

ที่ 16K ประสิทธิภาพเริ่มนิ่ง → ขยายครั้งสุดท้ายเป็นคอนเท็กซ์ 24K
ผลคือทำความแม่นยำ AIME2024 Pass@1 ได้ 43.1% และเหนือกว่า OpenAI o1-preview!

ผลการประเมินสุดท้าย

โมเดล DeepScaleR ถูกประเมินบนเบนช์มาร์กคณิตศาสตร์หลายตัว เช่น AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench
เมื่ออิง AIME2024 DeepScaleR-1.5B-Preview ทำความแม่นยำได้ 43.1% สูงกว่าโมเดล OpenAI o1-preview
บน MATH 500, AMC 2023 และชุดอื่น ๆ แม้จะเป็นโมเดล 1.5B ก็ยังทำผลงานเทียบเท่าหรือดีกว่าโมเดล 7B
เมื่อเทียบกับงานวิจัยก่อนหน้า (RL-based rStar, PRIME, SimpleRL) ก็แสดงให้เห็นถึงประสิทธิภาพสูงสุดเช่นกัน

สรุปประเด็นสำคัญ (Key Takeaways)

RL สามารถสเกลกับโมเดลขนาดเล็กได้
- เดิมมีความเชื่อว่า RL มีประสิทธิภาพเฉพาะกับโมเดลขนาดใหญ่
- แต่โมเดลขนาดเล็กที่ผ่านการปรับจูนด้วยข้อมูลคุณภาพสูงก็สามารถเรียนรู้ความสามารถในการให้เหตุผลที่ทรงพลังผ่าน RL ได้
- DeepScaleR ปรับปรุงความแม่นยำ AIME จาก 28.9% → 43.1%
เทคนิค "Iterative Lengthening" ช่วยขยายความยาวได้อย่างมีประสิทธิภาพ
- งานวิจัยก่อนหน้ารายงานว่าการเพิ่มประสิทธิภาพเมื่อใช้คอนเท็กซ์เกิน 16K มีไม่มาก
- แต่การขยายแบบค่อยเป็นค่อยไปจาก 8K → 16K → 24K ช่วยดันประสิทธิภาพได้สูงสุด

บทสรุป: ทำให้การสเกล RL เข้าถึงได้มากขึ้น

DeepScaleR-1.5B-Preview คือโมเดล RL แบบโอเพนซอร์สตัวแรกที่เหนือกว่า O1-preview
ใช้เพียง 3,800 A100 GPU ชั่วโมง ($4500) ก็สร้างโมเดลประสิทธิภาพสูงได้ → พิสูจน์ความเป็นไปได้ของงานวิจัย RL ต้นทุนต่ำ
มีแผนจะเดินหน้าพัฒนาโมเดลให้เหตุผลด้วย RL ร่วมกับชุมชนโอเพนซอร์สต่อไป

🔗 แหล่งข้อมูลโอเพนซอร์ส:

1 ความคิดเห็น

GN⁺ 2025-02-12

ความเห็นบน Hacker News

โมเดลนี้ถูกปรับแต่งให้เข้ากับเบนช์มาร์กเพื่อแก้ปัญหาเฉพาะอย่าง และทำผลงานได้แย่กว่า O1-Preview ในงานอื่น ๆ ถ้าคุณไม่ได้อยากแก้ปัญหานี้เป็นพิเศษ ก็ไม่ค่อยมีอะไรน่าสนใจมากนัก แต่ก็ยังน่าประทับใจอยู่ดี
โมเดลเสริมกำลังขนาดเล็กจะเป็นฝ่ายชนะ ดูที่อารยธรรม บริษัท และทีมของเรา: มีผู้เชี่ยวชาญจำนวนมาก ไม่ใช่อัจฉริยะตัวมหึมาเพียงคนเดียว
ตอนนี้ปัญหาคือการให้ความสำคัญกับเบนช์มาร์กมากเกินไป ตามหลักแล้วควรเทียบกับ KPI ของผู้ใช้
สิ่งสำคัญคือมีสูตรที่เรียบง่ายและเชื่อถือได้สำหรับฝึกโมเดล 1B ให้ทำผลงานได้แข็งแกร่งในงานเฉพาะ ก่อนหน้านี้ยังไม่มีอะไรแบบนี้ อุปกรณ์ edge จะฉลาดขึ้นมาก
ฉันอาจจะไร้เดียงสามาก แต่มีใครเชื่อถือเบนช์มาร์กนี้จริง ๆ ไหม? มันมีความหมายจริงหรือ? ดูเหมือนจะปั่นแต่งได้ง่ายเกินไป และไม่ได้ให้ความรู้สึกว่าเป็นวิธีที่แม่นยำในการรู้ว่าโมเดลต่าง ๆ เทียบกันอย่างไร พอเอาโจทย์ที่คล้ายเบนช์มาร์กแต่โมเดลไม่เคยเห็นมาก่อนเข้ามา ประสิทธิภาพก็ดูจะตกลงอย่างมาก
มีพรอมป์ตสั้น ๆ ดี ๆ สำหรับทดสอบโมเดล "reasoning" ใหม่บ้างไหม? แบบ "นับตัวอักษร R ในคำว่า strawberry" เริ่มน่าเบื่อแล้ว
ฉันกำลังลองรันมันบนเครื่องตัวเองด้วย Ollama และ GGUF เวอร์ชัน quantized ที่เล็กที่สุด (769MB)
ได้คำตอบที่ถูกต้องหลังจากดูคำตอบที่นี่: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 แต่ตอนเริ่มต้นมันทำพลาดสำคัญไป
โมเดล CoT เรียกใช้ฟังก์ชันภายนอกได้ไหม? ถ้ามันเข้าถึงเครื่องคิดเลขได้จะเป็นอย่างไร?
คงจะดีมากถ้าสามารถได้โมเดลที่ไม่ถูกเซ็นเซอร์ด้วยวิธีนี้
จริง ๆ แล้วค่อนข้างงี่เง่า ฉันให้มันถอดรหัสลำดับ ASCII แล้วมันตอบมั่ว พอลอง phi-4 Q4 กลับตอบถูก 9GB เทียบกับ 2GB (reasoning) ดูเหมือนว่า 2GB จะอัดข้อมูลได้ไม่พอ จึงน่าจะไม่ค่อยมีประโยชน์นอกจากแก้โจทย์คณิตทั่วไปหรือรู้ว่ามีอะไรอยู่ในข้อมูลฝึก
ตอนเรียนมหาวิทยาลัย เราเรียกสิ่งนี้ว่า overfitting แบบตรงไปตรงมา ดูเหมือนมันจะทำงานได้ไม่ดีนอกชุดประเมิน

DeepScaleR: เอาชนะ O1-Preview ด้วยโมเดล 1.5B โดยใช้ RL

เสริมความสามารถให้โมเดลขนาดเล็กด้วย RL

การสร้างชุดข้อมูล

ฟังก์ชันรางวัล (Reward Function)

"Iterative Lengthening": เทคนิคขยายการเรียนรู้ RL แบบเป็นขั้นตอน

Step 1: เริ่มการเรียนรู้ RL ด้วยคอนเท็กซ์ 8K

Step 2: ขยายเป็นคอนเท็กซ์ 16K

Step 3: "24K Magic" - เพิ่มประสิทธิภาพขั้นสุดท้าย

ผลการประเมินสุดท้าย

สรุปประเด็นสำคัญ (Key Takeaways)

บทสรุป: ทำให้การสเกล RL เข้าถึงได้มากขึ้น

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News