The Illustrated DeepSeek-R1

  • แนะนำ DeepSeek-R1

    • DeepSeek-R1 เป็นหมุดหมายสำคัญของความก้าวหน้าใน AI และส่งผลกระทบอย่างมากต่อชุมชนวิจัยและพัฒนา ML
    • โมเดลนี้เป็นโมเดลแบบ open weights และยังมีเวอร์ชัน distilled ขนาดเล็กให้ใช้งานด้วย
    • มีการแบ่งปันและนำวิธีการฝึกที่ใช้สร้างโมเดลให้เหตุผลแบบ OpenAI O1 มาประยุกต์ใช้
  • สรุปการฝึก LLM

    • DeepSeek-R1 สร้างโทเค็นทีละหนึ่งตัวเช่นเดียวกับ LLM ทั่วไป และโดดเด่นในการแก้ปัญหาคณิตศาสตร์และการให้เหตุผล
    • กระบวนการทั่วไปในการสร้าง LLM คุณภาพสูงมีดังนี้:
      1. ขั้น language modeling ที่ใช้ข้อมูลจากเว็บจำนวนมหาศาลเพื่อทำนายคำถัดไป
      2. ขั้น supervised fine-tuning ที่ทำให้โมเดลทำตามคำสั่งและตอบคำถามได้
      3. ขั้น preference tuning ที่ปรับพฤติกรรมของโมเดลให้สอดคล้องกับความชอบของมนุษย์
  • กระบวนการฝึก DeepSeek-R1

    • DeepSeek-R1 ใช้เบสโมเดลของ DeepSeek-V3 และผ่านขั้น SFT กับ preference tuning
    • มี 3 จุดพิเศษที่น่าสนใจในกระบวนการสร้าง R1:
      1. ข้อมูล SFT แบบสายโซ่การให้เหตุผลยาว: มีตัวอย่างการให้เหตุผลแบบยาว 600,000 รายการ
      2. LLM ให้เหตุผลคุณภาพสูงชั่วคราว: เป็นโมเดลที่เชี่ยวชาญด้านการให้เหตุผล สร้างขึ้นด้วยข้อมูลติดป้ายกำกับจำนวนน้อยและ reinforcement learning ขนาดใหญ่
      3. การสร้างโมเดลให้เหตุผลผ่าน reinforcement learning ขนาดใหญ่: ใช้โมเดลชื่อ R1-Zero เพื่อสร้างตัวอย่างการให้เหตุผล แล้วนำมาใช้ฝึกโมเดลทั่วไป
  • คุณลักษณะของ R1-Zero

    • R1-Zero ทำงานด้านการให้เหตุผลได้ยอดเยี่ยมแม้ไม่มีชุดฝึก SFT ที่ติดป้ายกำกับไว้ล่วงหน้า
    • สิ่งนี้ชี้ให้เห็นว่าเบสโมเดลยุคใหม่กำลังก้าวข้ามระดับคุณภาพและความสามารถขั้นต่ำบางจุดไปแล้ว
    • ปัญหาด้านการให้เหตุผลสามารถตรวจสอบหรือทำป้ายกำกับได้โดยอัตโนมัติ
  • การสร้างข้อมูลการให้เหตุผลสำหรับ SFT

    • โมเดลให้เหตุผลชั่วคราวผ่านขั้นฝึก SFT โดยใช้ตัวอย่างโจทย์การให้เหตุผลเพียงไม่กี่พันรายการ
    • ข้อมูลนี้สร้างขึ้นโดยนำผลลัพธ์ของ R1-Zero มาปรับให้อ่านง่ายขึ้น
  • ขั้นการฝึก RL ทั่วไป

    • R1 ทำได้ดีทั้งงานที่ต้องให้เหตุผลและงานที่ไม่ต้องให้เหตุผล
    • มีการใช้ reward model ด้าน usefulness และ safety เพื่อให้นำไปใช้กับแอปพลิเคชันที่หลากหลายได้
  • สถาปัตยกรรม

    • DeepSeek-R1 ประกอบด้วยบล็อก Transformer decoder จำนวน 61 บล็อก
    • 3 บล็อกแรกเป็นเลเยอร์แบบ dense ส่วนที่เหลือเป็นเลเยอร์แบบ mixture of experts
  • บทสรุป

    • เนื้อหานี้ช่วยให้เข้าใจแนวคิดสำคัญของโมเดล DeepSeek-R1 ได้ดีขึ้น
    • สามารถดูข้อมูลเพิ่มเติมได้จากหนังสือ Hands-On Large Language Models หรือบน GitHub

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น