DeepSeek-R1 ฉบับภาพประกอบ

(newsletter.languagemodels.co)

2 คะแนน โดย GN⁺ 2025-01-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

The Illustrated DeepSeek-R1

แนะนำ DeepSeek-R1
- DeepSeek-R1 เป็นหมุดหมายสำคัญของความก้าวหน้าใน AI และส่งผลกระทบอย่างมากต่อชุมชนวิจัยและพัฒนา ML
- โมเดลนี้เป็นโมเดลแบบ open weights และยังมีเวอร์ชัน distilled ขนาดเล็กให้ใช้งานด้วย
- มีการแบ่งปันและนำวิธีการฝึกที่ใช้สร้างโมเดลให้เหตุผลแบบ OpenAI O1 มาประยุกต์ใช้
สรุปการฝึก LLM
- DeepSeek-R1 สร้างโทเค็นทีละหนึ่งตัวเช่นเดียวกับ LLM ทั่วไป และโดดเด่นในการแก้ปัญหาคณิตศาสตร์และการให้เหตุผล
- กระบวนการทั่วไปในการสร้าง LLM คุณภาพสูงมีดังนี้:
  1. ขั้น language modeling ที่ใช้ข้อมูลจากเว็บจำนวนมหาศาลเพื่อทำนายคำถัดไป
  2. ขั้น supervised fine-tuning ที่ทำให้โมเดลทำตามคำสั่งและตอบคำถามได้
  3. ขั้น preference tuning ที่ปรับพฤติกรรมของโมเดลให้สอดคล้องกับความชอบของมนุษย์
กระบวนการฝึก DeepSeek-R1
- DeepSeek-R1 ใช้เบสโมเดลของ DeepSeek-V3 และผ่านขั้น SFT กับ preference tuning
- มี 3 จุดพิเศษที่น่าสนใจในกระบวนการสร้าง R1:
  1. ข้อมูล SFT แบบสายโซ่การให้เหตุผลยาว: มีตัวอย่างการให้เหตุผลแบบยาว 600,000 รายการ
  2. LLM ให้เหตุผลคุณภาพสูงชั่วคราว: เป็นโมเดลที่เชี่ยวชาญด้านการให้เหตุผล สร้างขึ้นด้วยข้อมูลติดป้ายกำกับจำนวนน้อยและ reinforcement learning ขนาดใหญ่
  3. การสร้างโมเดลให้เหตุผลผ่าน reinforcement learning ขนาดใหญ่: ใช้โมเดลชื่อ R1-Zero เพื่อสร้างตัวอย่างการให้เหตุผล แล้วนำมาใช้ฝึกโมเดลทั่วไป
คุณลักษณะของ R1-Zero
- R1-Zero ทำงานด้านการให้เหตุผลได้ยอดเยี่ยมแม้ไม่มีชุดฝึก SFT ที่ติดป้ายกำกับไว้ล่วงหน้า
- สิ่งนี้ชี้ให้เห็นว่าเบสโมเดลยุคใหม่กำลังก้าวข้ามระดับคุณภาพและความสามารถขั้นต่ำบางจุดไปแล้ว
- ปัญหาด้านการให้เหตุผลสามารถตรวจสอบหรือทำป้ายกำกับได้โดยอัตโนมัติ
การสร้างข้อมูลการให้เหตุผลสำหรับ SFT
- โมเดลให้เหตุผลชั่วคราวผ่านขั้นฝึก SFT โดยใช้ตัวอย่างโจทย์การให้เหตุผลเพียงไม่กี่พันรายการ
- ข้อมูลนี้สร้างขึ้นโดยนำผลลัพธ์ของ R1-Zero มาปรับให้อ่านง่ายขึ้น
ขั้นการฝึก RL ทั่วไป
- R1 ทำได้ดีทั้งงานที่ต้องให้เหตุผลและงานที่ไม่ต้องให้เหตุผล
- มีการใช้ reward model ด้าน usefulness และ safety เพื่อให้นำไปใช้กับแอปพลิเคชันที่หลากหลายได้
สถาปัตยกรรม
- DeepSeek-R1 ประกอบด้วยบล็อก Transformer decoder จำนวน 61 บล็อก
- 3 บล็อกแรกเป็นเลเยอร์แบบ dense ส่วนที่เหลือเป็นเลเยอร์แบบ mixture of experts
บทสรุป
- เนื้อหานี้ช่วยให้เข้าใจแนวคิดสำคัญของโมเดล DeepSeek-R1 ได้ดีขึ้น
- สามารถดูข้อมูลเพิ่มเติมได้จากหนังสือ Hands-On Large Language Models หรือบน GitHub

DeepSeek-R1 ฉบับภาพประกอบ

The Illustrated DeepSeek-R1

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น