เปิดตัวโมเดล DeepSeek-R1

(github.com/deepseek-ai)

8 คะแนน โดย GN⁺ 2025-01-21 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek เปิดตัวโมเดลการให้เหตุผลรุ่นแรกคือ DeepSeek-R1-Zero และ DeepSeek-R1
DeepSeek-R1-Zero ถูกฝึกด้วยการเสริมกำลัง (RL) ขนาดใหญ่เพียงอย่างเดียว และเรียนรู้ความสามารถด้านการให้เหตุผลที่หลากหลายได้ด้วยตนเอง
อย่างไรก็ตาม พบปัญหาเรื่องการวนซ้ำ/ความอ่านง่าย และการปะปนของภาษา จึงนำเสนอ DeepSeek-R1 ที่เพิ่มขั้นตอน SFT เพื่อแก้ข้อจำกัดเหล่านี้และยกระดับประสิทธิภาพ
DeepSeek-R1 ทำผลงานได้ในระดับ OpenAI-o1 สำหรับงานด้านคณิตศาสตร์ โค้ด และการให้เหตุผล
เพื่อสนับสนุนชุมชนนักวิจัย จึงเปิดเผย DeepSeek-R1-Zero, DeepSeek-R1 และโมเดล distillation ที่ถ่ายทอดรูปแบบการให้เหตุผลจากโมเดลเหล่านี้
โดยเฉพาะโมเดล DeepSeek-R1-Distill-Qwen-32B ทำผลงานได้เหนือกว่า OpenAI-o1-mini

สรุปโมเดล

Post-Training: การเสริมกำลังขนาดใหญ่กับโมเดลฐาน
- DeepSeek-R1-Zero เป็นโมเดลรุ่นแรกที่ใช้ RL เพียงอย่างเดียวโดยไม่มี SFT
- ผ่านกระบวนการ RL ทำให้เรียนรู้รูปแบบการให้เหตุผลหลากหลาย เช่น ความสามารถในการสำรวจ Chain-of-thought, การตรวจสอบตนเอง และการทบทวน (reflection)
- สิ่งนี้แสดงให้เห็นว่า “แม้ไม่มี SFT โมเดลขนาดใหญ่ก็สามารถได้ความสามารถด้านการให้เหตุผลที่ทรงพลังด้วย RL เพียงอย่างเดียว”
- DeepSeek-R1 ต่อยอดจากกระบวนการนี้ โดยเพิ่ม SFT ระหว่างทางเพื่อเสริมทั้งความสามารถในการให้เหตุผลและความสามารถการใช้ภาษาทั่วไปให้แข็งแกร่งยิ่งขึ้น
Distillation: โมเดลขนาดเล็กก็ทรงพลังได้
- สาธิตให้เห็นว่ารูปแบบการให้เหตุผลที่โมเดลขนาดใหญ่เรียนรู้สามารถถ่ายทอดไปยังโมเดลขนาดเล็กได้เช่นกัน
- ใช้ข้อมูลที่ DeepSeek-R1 สร้างขึ้นเพื่อนำไป fine-tune กับซีรีส์ Qwen, Llama เป็นต้น และพบว่าโมเดล dense ขนาดเล็กก็ให้ประสิทธิภาพที่ยอดเยี่ยม
- เปิดเผยโมเดล distill หลายขนาด ได้แก่ 1.5B, 7B, 8B, 14B, 32B และ 70B

ดาวน์โหลดโมเดล

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- พารามิเตอร์: รวม 671B (พารามิเตอร์ที่ใช้งานจริง 37B)
- ความยาวคอนเท็กซ์ 128K
- ดาวน์โหลดได้จาก HuggingFace และฝึกด้วยวิธี RL บนพื้นฐานของโมเดล DeepSeek-V3-Base

DeepSeek-R1-Distill Models

distillation บนพื้นฐานซีรีส์ Qwen2.5 และ Llama3
มีขนาดพารามิเตอร์ให้เลือกหลากหลายตั้งแต่ 1.5B ถึง 70B
ผ่านการ fine-tune โดยใช้ข้อมูลการให้เหตุผลคุณภาพสูงที่ DeepSeek-R1 สร้างขึ้น
มีการปรับบางค่าตั้งต้น (tokenizer, config) จึงควรใช้การตั้งค่าตามที่แนะนำ

ผลการประเมิน

DeepSeek-R1-Evaluation

DeepSeek-R1 ทำคะแนนได้สูงในภาษาอังกฤษ (MMLU, DROP เป็นต้น), โค้ด (Codeforces, LiveCodeBench เป็นต้น), คณิตศาสตร์ (AIME, MATH-500 เป็นต้น) และภาษาจีน (C-Eval เป็นต้น)
โดยเฉพาะในหมวดคณิตศาสตร์อย่าง AIME และ MATH-500 มีสถิติ pass@1 สูง
เมื่อเทียบกับ OpenAI-o1-mini, Claude, GPT-4 เป็นต้น ก็แสดงประสิทธิภาพที่แข่งขันได้ในหลายรายการ

Distilled Model Evaluation

โมเดล distillation ก็ให้ผลลัพธ์โดดเด่นในเบนช์มาร์กด้านคณิตศาสตร์ (AIME, MATH เป็นต้น) และโค้ด (Codeforces เป็นต้น) เช่นกัน
DeepSeek-R1-Distill-Qwen-32B และ DeepSeek-R1-Distill-Llama-70B แสดงค่า pass@1 และความสามารถในการแก้โจทย์โค้ดที่สูง บ่งชี้ถึงศักยภาพในการใช้งานของโมเดลขนาดเล็ก

เว็บไซต์แชต & แพลตฟอร์ม API

สามารถทดลองสนทนากับ DeepSeek-R1 ได้ที่ chat.deepseek.com
และมีแพลตฟอร์ม API ที่เข้ากันได้กับ OpenAI ที่ platform.deepseek.com

วิธีรันแบบโลคัล

DeepSeek-R1 Models

สามารถอ้างอิงรีโพซิทอรี DeepSeek-V3 เพื่อตรวจสอบรายละเอียด เช่น การตั้งค่าความยาวสูงสุด 128K โทเคน ก่อนนำไปรัน

DeepSeek-R1-Distill Models

ใช้งานได้ในลักษณะเดียวกับโมเดล Qwen และ Llama
ตัวอย่างเช่น สามารถเสิร์ฟได้อย่างรวดเร็วด้วย vLLM, SGLang เป็นต้น
แนะนำให้ตั้งค่าอุณหภูมิ (temperature) ประมาณ 0.5~0.7

ไลเซนส์

ซีรีส์ DeepSeek-R1 เผยแพร่ภายใต้ไลเซนส์ MIT
อย่างไรก็ตาม โมเดลที่อิง Qwen ใช้ Apache 2.0 ส่วนโมเดลที่อิง Llama ใช้ไลเซนส์ llama3.x ซึ่งควรพิจารณาให้รอบคอบ
มีนโยบายไลเซนส์ที่ยืดหยุ่น เช่น อนุญาตการใช้งานเชิงพาณิชย์ และสามารถแก้ไขหรือสร้างโมเดลต่อยอดได้

5 ความคิดเห็น

xguru 2025-01-21

Deepseek - ยักษ์เงียบที่กำลังนำการแข่งขัน AI ของจีน
Deepseek V3 แสดงผลลัพธ์ได้ไม่ดีในเบนช์มาร์กที่ใช้ทดสอบว่ามีการโอเวอร์ฟิตหรือไม่
บันทึกเกี่ยวกับ DeepSeek v3 - "มันดีกว่า GPT-4o หรือ 3.5 Sonnet จริงหรือ?"

crawler 2025-01-21

เห็นมีบางคนใส่ลิงก์ในคอมเมนต์ให้อ่านง่าย หรืออ้างอิงข้อความจากเนื้อหาหลักได้สวยดี ไม่ทราบว่ามีที่ไหนสรุปรูปแบบที่ใช้เขียนในคอมเมนต์ไว้บ้างไหมครับ?
พอดูมาสองสามวันแล้วรู้สึกว่าตัวเว็บยิ่งใช้ยิ่งชอบ เลยอยากลองคอมเมนต์ดูเหมือนกันครับ

savvykang 2025-01-21

https://news.hada.io/guidelines

> รองรับ Markdown
> รองรับทั้งในเนื้อหาและความคิดเห็น
> โดยพื้นฐานเป็นไปตามข้อกำหนด CommonMark
> ไม่รองรับรูปภาพ

crawler 2025-01-21

ขอบคุณครับ ผมตั้งใจจะลองใส่การอ้างอิงในคอมเมนต์อื่น แต่แก้ไขไม่ได้ ก็เลยไม่ใส่เพื่อความปลอดภัย แต่สรุปว่า Markdown ถูกต้องนี่เอง
เดี๋ยวจะลองเอาไปใช้ให้เป็นประโยชน์ครับ 555

GN⁺ 2025-01-21

ความคิดเห็นจาก Hacker News

กำลังทำการทดลองโดยใช้ Llama 3 เวอร์ชันที่ถูก quantize รันโมเดลด้วย Ollama และปลั๊กอิน llm-ollama พร้อมบันทึกล็อก หลังจากโหลดโมเดลแล้วสามารถใช้ uvx ทดสอบพรอมป์หลากหลายแบบได้ และได้เขียนผลการทดลองไว้ในบล็อก
DeepSeek-R1-Zero ประสบปัญหาเรื่องการวนซ้ำ ความอ่านง่าย และการปะปนของภาษา จึงได้นำ DeepSeek-R1 มาใช้แทน ในการทดลองกับ OpenAI o1 และ QwQ-32B-Preview พบว่า QwQ มีแนวโน้มจะติดอยู่ในลูปการวนซ้ำ ส่วน DeepSeek-R1 แก้ปัญหาเหล่านี้ได้ และเปิดให้ใช้งานภายใต้สัญญาอนุญาต MIT ทำให้ผู้คนจำนวนมากขึ้นสามารถประเมินได้
ในคำถามที่ถามจำนวนตัว 'r' ในคำว่า "strawberry" โมเดลได้แสดงกระบวนการถกเถียงกับตัวเองเพื่อหาคำตอบที่ถูกต้อง และมีการกล่าวว่ากระบวนการนี้น่าสนุก
จากการเปรียบเทียบ ChatGPT o1, DeepSeek DeepThink และ Gemini 2.0 Flash Thinking Experimental พบว่า ChatGPT o1 ทำได้ดีที่สุด และ DeepSeek อ่อนที่สุด เมื่อลองทดสอบ DeepSeek-R1 ก็พบว่าประสิทธิภาพดีขึ้นกว่าก่อนหน้า และในกรณีการใช้งานส่วนตัวรู้สึกว่า LLM มีประโยชน์มากกว่า
มีผลเบนช์มาร์กออกมาว่าโมเดล Llama 8B ทรงพลังกว่า Claude 3.5 Sonnet และแสดงความประหลาดใจกับการที่โมเดลขนาดเล็กสามารถให้ประสิทธิภาพที่แข็งแกร่งได้
มีการกล่าวว่าน่าทึ่งที่บริษัทเล็ก ๆ ซึ่งก่อตั้งเมื่อ 1 ปีก่อนสามารถแข่งขันกับ OpenAI ได้ จีนกำลังก้าวนำสหรัฐฯ ในด้าน AI และยังถูกประเมินว่าเป็นบริษัท "Open AI" ที่แท้จริง เพราะเปิดโมเดลเป็นโอเพนซอร์ส
เดิมทีมีความคาดหวังต่อ DS3 อยู่มาก แต่พบปัญหาเรื่อง function calling คุณภาพคำตอบที่ลดลง และการสนับสนุนที่ไม่เพียงพอ อย่างไรก็ตาม สิ่งนี้กลับทำให้ทราฟฟิกของ API อื่นลดลงจน latency ดีขึ้น
มีการแสดงความสับสนเกี่ยวกับความแตกต่างระหว่างเวอร์ชัน 7b และ 8b พร้อมแจ้งว่าได้อัปโหลด Qwen 7B เวอร์ชันสำหรับ Ollama แล้ว

เปิดตัวโมเดล DeepSeek-R1

สรุปโมเดล

ดาวน์โหลดโมเดล

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

ผลการประเมิน

DeepSeek-R1-Evaluation

Distilled Model Evaluation

เว็บไซต์แชต & แพลตฟอร์ม API

วิธีรันแบบโลคัล

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

ไลเซนส์

บทความที่เกี่ยวข้อง

5 ความคิดเห็น

ความคิดเห็นจาก Hacker News