5 คะแนน โดย GN⁺ 2025-02-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepScaleR-1.5B-Preview: โมเดลที่ปรับจูนละเอียดด้วยการเรียนรู้แบบเสริมกำลัง (RL) บนโมเดล Deepseek-R1-Distilled-Qwen-1.5B
  • ทำความแม่นยำ AIME2024 Pass@1 ได้ 43.1% (เพิ่มขึ้น +14.3% เมื่อเทียบกับโมเดลฐาน)
    → เหนือกว่าประสิทธิภาพของ OpenAI o1-preview!
  • ฝึกด้วยเวลา 3,800 A100 GPU ชั่วโมง ($4500) → มีประสิทธิภาพด้านการสเกล RL มากกว่า 18.42 เท่าเมื่อเทียบกับ 70,000 A100 GPU ชั่วโมง
  • เปิดซอร์สทั้งชุดข้อมูล โค้ด และบันทึกการฝึก → ทุกคนสามารถทดลองขยายความสามารถเชิงสติปัญญาด้วย RL ได้

เสริมความสามารถให้โมเดลขนาดเล็กด้วย RL

  • Deepseek-R1 เป็นโมเดลโอเพนซอร์สที่แข่งขันกับ OpenAI o1 ได้ แต่กระบวนการฝึกที่แน่นอนยังไม่เปิดเผย
  • ศึกษาวิธีพัฒนาโมเดลให้เหตุผลที่ทรงพลังด้วย RL โดยใช้ทรัพยากรคำนวณน้อย
  • ข้อจำกัดใหญ่ที่สุดของ RL แบบเดิมคือมีต้นทุนสูง:
    → หากต้องการทำซ้ำการทดลองของ Deepseek-R1 จำเป็นต้องใช้เวลาอย่างน้อย 70,000 A100 GPU ชั่วโมง
  • แนวทางแก้ไข:
    • ใช้โมเดล distillation ที่มีคุณภาพสูง
    • นำเทคนิค "Iterative Lengthening" มาใช้เพื่อขยาย RL แบบค่อยเป็นค่อยไป → ลดต้นทุนคำนวณเหลือ 3,800 A100 GPU ชั่วโมง

การสร้างชุดข้อมูล

  • ใช้ชุดข้อมูล AIME(1984-2023) + AMC(ก่อนปี 2023) + Omni-MATH + Still

  • กระบวนการทำความสะอาดข้อมูล:

    1. ดึงคำตอบ: ใช้ gemini-1.5-pro-002 เพื่อดึงคำตอบจากเฉลยอย่างเป็นทางการ
    2. ลบข้อมูลซ้ำ: ใช้ embedding ของ sentence-transformers/all-MiniLM-L6-v2 เพื่อตัดโจทย์ที่คล้ายกันออก
    3. กรองโจทย์ที่ให้คะแนนอัตโนมัติไม่ได้: ตัดโจทย์ที่ประเมินอัตโนมัติด้วย sympy ได้ยากออก
  • สุดท้ายได้คู่โจทย์-คำตอบจำนวน 40,000 คู่ และมีแผนจะขยายข้อมูลเพิ่มเติมในอนาคต

ฟังก์ชันรางวัล (Reward Function)

  • ใช้ "Outcome Reward Model (ORM)" เช่นเดียวกับ Deepseek-R1:

    • 1 คะแนน: คำตอบถูกต้องในรูปแบบที่ถูกต้อง (ผ่านการตรวจด้วย sympy)
    • 0 คะแนน: คำตอบผิด หรือรูปแบบผิด (<think>...</think> หายไป เป็นต้น)
  • เหตุผลที่ไม่ใช้ "กระบวนการให้รางวัลตามขั้นตอน (Process Reward Model, PRM)":

    • เพื่อป้องกัน reward hacking → ลดผลข้างเคียงที่โมเดลพยายามทำตามแค่รูปแบบเท่านั้น

"Iterative Lengthening": เทคนิคขยายการเรียนรู้ RL แบบเป็นขั้นตอน

Step 1: เริ่มการเรียนรู้ RL ด้วยคอนเท็กซ์ 8K

  • เหตุผล:
    • คำตอบที่ผิดมีความยาวเฉลี่ย 20,346 โทเคน ส่วนคำตอบที่ถูกมี 6,395 โทเคน → คำตอบที่ยาวมีโอกาสผิดมากขึ้น
    • หากฝึกด้วยคอนเท็กซ์ยาวตั้งแต่ต้นจะไม่มีประสิทธิภาพ → จึงเริ่มปรับให้เหมาะสมด้วย 8K ก่อน
  • ผลลัพธ์:
    • AIME Pass@1 เพิ่มจาก 28.9% → 33.9% (+5%)
    • จำนวนโทเคนที่ไม่จำเป็นลดลง → ความยาวคำตอบเฉลี่ยลดลง 10,484 โทเคน

Step 2: ขยายเป็นคอนเท็กซ์ 16K

  • หลังฝึก 1,000 สเต็ป โมเดลเริ่มมีแนวโน้มคิด (ให้เหตุผล) ยาวขึ้น
  • แต่ข้อจำกัดที่ 8K ทำให้ผลการเรียนรู้ถูกจำกัด → จึงขยายเป็น 16K
  • ข้อดี:
    • เร็วกว่าการฝึกด้วย 16K ตั้งแต่แรกมากกว่า 2 เท่า (หลีกเลี่ยงไม่ให้ความยาวคำตอบเฉลี่ยพุ่งจาก 3,000 → 9,000 โทเคน)
    • ความแม่นยำ AIME2024 แตะ 38%

Step 3: "24K Magic" - เพิ่มประสิทธิภาพขั้นสุดท้าย

  • ที่ 16K ประสิทธิภาพเริ่มนิ่ง → ขยายครั้งสุดท้ายเป็นคอนเท็กซ์ 24K
  • ผลคือทำความแม่นยำ AIME2024 Pass@1 ได้ 43.1% และเหนือกว่า OpenAI o1-preview!

ผลการประเมินสุดท้าย

  • โมเดล DeepScaleR ถูกประเมินบนเบนช์มาร์กคณิตศาสตร์หลายตัว เช่น AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench
  • เมื่ออิง AIME2024 DeepScaleR-1.5B-Preview ทำความแม่นยำได้ 43.1% สูงกว่าโมเดล OpenAI o1-preview
  • บน MATH 500, AMC 2023 และชุดอื่น ๆ แม้จะเป็นโมเดล 1.5B ก็ยังทำผลงานเทียบเท่าหรือดีกว่าโมเดล 7B
  • เมื่อเทียบกับงานวิจัยก่อนหน้า (RL-based rStar, PRIME, SimpleRL) ก็แสดงให้เห็นถึงประสิทธิภาพสูงสุดเช่นกัน

สรุปประเด็นสำคัญ (Key Takeaways)

  1. RL สามารถสเกลกับโมเดลขนาดเล็กได้

    • เดิมมีความเชื่อว่า RL มีประสิทธิภาพเฉพาะกับโมเดลขนาดใหญ่
    • แต่โมเดลขนาดเล็กที่ผ่านการปรับจูนด้วยข้อมูลคุณภาพสูงก็สามารถเรียนรู้ความสามารถในการให้เหตุผลที่ทรงพลังผ่าน RL ได้
    • DeepScaleR ปรับปรุงความแม่นยำ AIME จาก 28.9% → 43.1%
  2. เทคนิค "Iterative Lengthening" ช่วยขยายความยาวได้อย่างมีประสิทธิภาพ

    • งานวิจัยก่อนหน้ารายงานว่าการเพิ่มประสิทธิภาพเมื่อใช้คอนเท็กซ์เกิน 16K มีไม่มาก
    • แต่การขยายแบบค่อยเป็นค่อยไปจาก 8K → 16K → 24K ช่วยดันประสิทธิภาพได้สูงสุด

บทสรุป: ทำให้การสเกล RL เข้าถึงได้มากขึ้น

  • DeepScaleR-1.5B-Preview คือโมเดล RL แบบโอเพนซอร์สตัวแรกที่เหนือกว่า O1-preview
  • ใช้เพียง 3,800 A100 GPU ชั่วโมง ($4500) ก็สร้างโมเดลประสิทธิภาพสูงได้ → พิสูจน์ความเป็นไปได้ของงานวิจัย RL ต้นทุนต่ำ
  • มีแผนจะเดินหน้าพัฒนาโมเดลให้เหตุผลด้วย RL ร่วมกับชุมชนโอเพนซอร์สต่อไป

🔗 แหล่งข้อมูลโอเพนซอร์ส:

1 ความคิดเห็น

 
GN⁺ 2025-02-12
ความเห็นบน Hacker News
  • โมเดลนี้ถูกปรับแต่งให้เข้ากับเบนช์มาร์กเพื่อแก้ปัญหาเฉพาะอย่าง และทำผลงานได้แย่กว่า O1-Preview ในงานอื่น ๆ ถ้าคุณไม่ได้อยากแก้ปัญหานี้เป็นพิเศษ ก็ไม่ค่อยมีอะไรน่าสนใจมากนัก แต่ก็ยังน่าประทับใจอยู่ดี
  • โมเดลเสริมกำลังขนาดเล็กจะเป็นฝ่ายชนะ ดูที่อารยธรรม บริษัท และทีมของเรา: มีผู้เชี่ยวชาญจำนวนมาก ไม่ใช่อัจฉริยะตัวมหึมาเพียงคนเดียว
  • ตอนนี้ปัญหาคือการให้ความสำคัญกับเบนช์มาร์กมากเกินไป ตามหลักแล้วควรเทียบกับ KPI ของผู้ใช้
  • สิ่งสำคัญคือมีสูตรที่เรียบง่ายและเชื่อถือได้สำหรับฝึกโมเดล 1B ให้ทำผลงานได้แข็งแกร่งในงานเฉพาะ ก่อนหน้านี้ยังไม่มีอะไรแบบนี้ อุปกรณ์ edge จะฉลาดขึ้นมาก
  • ฉันอาจจะไร้เดียงสามาก แต่มีใครเชื่อถือเบนช์มาร์กนี้จริง ๆ ไหม? มันมีความหมายจริงหรือ? ดูเหมือนจะปั่นแต่งได้ง่ายเกินไป และไม่ได้ให้ความรู้สึกว่าเป็นวิธีที่แม่นยำในการรู้ว่าโมเดลต่าง ๆ เทียบกันอย่างไร พอเอาโจทย์ที่คล้ายเบนช์มาร์กแต่โมเดลไม่เคยเห็นมาก่อนเข้ามา ประสิทธิภาพก็ดูจะตกลงอย่างมาก
  • มีพรอมป์ตสั้น ๆ ดี ๆ สำหรับทดสอบโมเดล "reasoning" ใหม่บ้างไหม? แบบ "นับตัวอักษร R ในคำว่า strawberry" เริ่มน่าเบื่อแล้ว
  • ฉันกำลังลองรันมันบนเครื่องตัวเองด้วย Ollama และ GGUF เวอร์ชัน quantized ที่เล็กที่สุด (769MB)
  • ได้คำตอบที่ถูกต้องหลังจากดูคำตอบที่นี่: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 แต่ตอนเริ่มต้นมันทำพลาดสำคัญไป
  • โมเดล CoT เรียกใช้ฟังก์ชันภายนอกได้ไหม? ถ้ามันเข้าถึงเครื่องคิดเลขได้จะเป็นอย่างไร?
  • คงจะดีมากถ้าสามารถได้โมเดลที่ไม่ถูกเซ็นเซอร์ด้วยวิธีนี้
  • จริง ๆ แล้วค่อนข้างงี่เง่า ฉันให้มันถอดรหัสลำดับ ASCII แล้วมันตอบมั่ว พอลอง phi-4 Q4 กลับตอบถูก 9GB เทียบกับ 2GB (reasoning) ดูเหมือนว่า 2GB จะอัดข้อมูลได้ไม่พอ จึงน่าจะไม่ค่อยมีประโยชน์นอกจากแก้โจทย์คณิตทั่วไปหรือรู้ว่ามีอะไรอยู่ในข้อมูลฝึก
  • ตอนเรียนมหาวิทยาลัย เราเรียกสิ่งนี้ว่า overfitting แบบตรงไปตรงมา ดูเหมือนมันจะทำงานได้ไม่ดีนอกชุดประเมิน