Open-R1: โปรเจ็กต์สร้างซ้ำแบบโอเพนซอร์สเต็มรูปแบบของ DeepSeek-R1

(huggingface.co)

16 คะแนน โดย GN⁺ 2025-01-29 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek-R1 คืออะไร?

โมเดล o1 ของ OpenAI ถูกฝึกโดยใช้การคำนวณมากขึ้น เพื่อให้ LLMs ทำงานด้านการให้เหตุผลได้ดีขึ้น
DeepSeek-R1 แสดงประสิทธิภาพที่ใกล้เคียงหรือดีกว่าโมเดล o1 ของ OpenAI และเรียนรู้วิธีให้เหตุผลโดยไม่ต้องมีการกำกับจากมนุษย์ผ่านการเรียนรู้เสริมแรง (RL) ล้วนๆ
การเปิดเผย DeepSeek-R1 ทำให้เกิดคำถามหลายประการเกี่ยวกับการเก็บข้อมูล การฝึกโมเดล และ scaling laws

พวกเขาทำได้อย่างไร?

DeepSeek-R1 เป็นโมเดลให้เหตุผลที่สร้างบนพื้นฐานของ DeepSeek-V3 และเป็นโมเดล 671B Mixture of Experts (MoE)
DeepSeek-R1-Zero ถูกฝึกโดยใช้เฉพาะการเรียนรู้เสริมแรง และใช้ Group Relative Policy Optimization (GRPO) เพื่อเพิ่มประสิทธิภาพ
DeepSeek-R1 ใช้ตัวอย่างขนาดเล็กในช่วงเริ่มต้นเพื่อปรับปรุงความชัดเจนและความอ่านง่าย จากนั้นจึงผ่านขั้นตอนการเรียนรู้เสริมแรงและการกลั่นข้อมูลเพื่อสร้างคำตอบที่สม่ำเสมอ

Open-R1: ชิ้นส่วนที่ขาดหายไป

การเปิดเผย DeepSeek-R1 เป็นประโยชน์อย่างมากต่อชุมชน แต่ชุดข้อมูลและโค้ดยังไม่ได้ถูกเปิดเผย
โปรเจ็กต์ Open-R1 มีเป้าหมายเพื่อสร้างข้อมูลและไปป์ไลน์การฝึกของ DeepSeek-R1 ขึ้นใหม่ และมอบความโปร่งใสว่าการเรียนรู้เสริมแรงช่วยยกระดับการให้เหตุผลได้อย่างไร

แผนงานเป็นขั้นตอนของ Open-R1

สร้างโมเดล R1-Distill ซ้ำ: ดึงชุดข้อมูลการให้เหตุผลคุณภาพสูงจาก DeepSeek-R1 และฝึกแบบ distillation
ทำซ้ำไปป์ไลน์การฝึกแบบ RL ล้วนของ R1-Zero: สร้างชุดข้อมูลขนาดใหญ่ด้านคณิตศาสตร์ ตรรกะ และโค้ด
สร้างกระบวนการฝึกแบบเป็นขั้นตอนจากโมเดลฐาน → SFT → RL

วิธีมีส่วนร่วม

มีหลายวิธีในการมีส่วนร่วมกับโปรเจ็กต์ Open-R1 เช่น การร่วมพัฒนาโค้ด หรือเข้าร่วมการสนทนาบน Hugging Face
โปรเจ็กต์นี้ไม่ได้มุ่งแค่ทำซ้ำผลลัพธ์เท่านั้น แต่ยังให้ความสำคัญกับการแบ่งปันข้อมูลเชิงลึกกับชุมชนด้วย

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น