DeepSeek-R1 ฉบับภาพประกอบ
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
แนะนำ DeepSeek-R1
- DeepSeek-R1 เป็นหมุดหมายสำคัญของความก้าวหน้าใน AI และส่งผลกระทบอย่างมากต่อชุมชนวิจัยและพัฒนา ML
- โมเดลนี้เป็นโมเดลแบบ open weights และยังมีเวอร์ชัน distilled ขนาดเล็กให้ใช้งานด้วย
- มีการแบ่งปันและนำวิธีการฝึกที่ใช้สร้างโมเดลให้เหตุผลแบบ OpenAI O1 มาประยุกต์ใช้
-
สรุปการฝึก LLM
- DeepSeek-R1 สร้างโทเค็นทีละหนึ่งตัวเช่นเดียวกับ LLM ทั่วไป และโดดเด่นในการแก้ปัญหาคณิตศาสตร์และการให้เหตุผล
- กระบวนการทั่วไปในการสร้าง LLM คุณภาพสูงมีดังนี้:
- ขั้น language modeling ที่ใช้ข้อมูลจากเว็บจำนวนมหาศาลเพื่อทำนายคำถัดไป
- ขั้น supervised fine-tuning ที่ทำให้โมเดลทำตามคำสั่งและตอบคำถามได้
- ขั้น preference tuning ที่ปรับพฤติกรรมของโมเดลให้สอดคล้องกับความชอบของมนุษย์
-
กระบวนการฝึก DeepSeek-R1
- DeepSeek-R1 ใช้เบสโมเดลของ DeepSeek-V3 และผ่านขั้น SFT กับ preference tuning
- มี 3 จุดพิเศษที่น่าสนใจในกระบวนการสร้าง R1:
- ข้อมูล SFT แบบสายโซ่การให้เหตุผลยาว: มีตัวอย่างการให้เหตุผลแบบยาว 600,000 รายการ
- LLM ให้เหตุผลคุณภาพสูงชั่วคราว: เป็นโมเดลที่เชี่ยวชาญด้านการให้เหตุผล สร้างขึ้นด้วยข้อมูลติดป้ายกำกับจำนวนน้อยและ reinforcement learning ขนาดใหญ่
- การสร้างโมเดลให้เหตุผลผ่าน reinforcement learning ขนาดใหญ่: ใช้โมเดลชื่อ R1-Zero เพื่อสร้างตัวอย่างการให้เหตุผล แล้วนำมาใช้ฝึกโมเดลทั่วไป
-
คุณลักษณะของ R1-Zero
- R1-Zero ทำงานด้านการให้เหตุผลได้ยอดเยี่ยมแม้ไม่มีชุดฝึก SFT ที่ติดป้ายกำกับไว้ล่วงหน้า
- สิ่งนี้ชี้ให้เห็นว่าเบสโมเดลยุคใหม่กำลังก้าวข้ามระดับคุณภาพและความสามารถขั้นต่ำบางจุดไปแล้ว
- ปัญหาด้านการให้เหตุผลสามารถตรวจสอบหรือทำป้ายกำกับได้โดยอัตโนมัติ
-
การสร้างข้อมูลการให้เหตุผลสำหรับ SFT
- โมเดลให้เหตุผลชั่วคราวผ่านขั้นฝึก SFT โดยใช้ตัวอย่างโจทย์การให้เหตุผลเพียงไม่กี่พันรายการ
- ข้อมูลนี้สร้างขึ้นโดยนำผลลัพธ์ของ R1-Zero มาปรับให้อ่านง่ายขึ้น
-
ขั้นการฝึก RL ทั่วไป
- R1 ทำได้ดีทั้งงานที่ต้องให้เหตุผลและงานที่ไม่ต้องให้เหตุผล
- มีการใช้ reward model ด้าน usefulness และ safety เพื่อให้นำไปใช้กับแอปพลิเคชันที่หลากหลายได้
-
สถาปัตยกรรม
- DeepSeek-R1 ประกอบด้วยบล็อก Transformer decoder จำนวน 61 บล็อก
- 3 บล็อกแรกเป็นเลเยอร์แบบ dense ส่วนที่เหลือเป็นเลเยอร์แบบ mixture of experts
-
บทสรุป
- เนื้อหานี้ช่วยให้เข้าใจแนวคิดสำคัญของโมเดล DeepSeek-R1 ได้ดีขึ้น
- สามารถดูข้อมูลเพิ่มเติมได้จากหนังสือ Hands-On Large Language Models หรือบน GitHub
ยังไม่มีความคิดเห็น