8 คะแนน โดย GN⁺ 2025-01-21 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepSeek เปิดตัวโมเดลการให้เหตุผลรุ่นแรกคือ DeepSeek-R1-Zero และ DeepSeek-R1
  • DeepSeek-R1-Zero ถูกฝึกด้วยการเสริมกำลัง (RL) ขนาดใหญ่เพียงอย่างเดียว และเรียนรู้ความสามารถด้านการให้เหตุผลที่หลากหลายได้ด้วยตนเอง
  • อย่างไรก็ตาม พบปัญหาเรื่องการวนซ้ำ/ความอ่านง่าย และการปะปนของภาษา จึงนำเสนอ DeepSeek-R1 ที่เพิ่มขั้นตอน SFT เพื่อแก้ข้อจำกัดเหล่านี้และยกระดับประสิทธิภาพ
  • DeepSeek-R1 ทำผลงานได้ในระดับ OpenAI-o1 สำหรับงานด้านคณิตศาสตร์ โค้ด และการให้เหตุผล
  • เพื่อสนับสนุนชุมชนนักวิจัย จึงเปิดเผย DeepSeek-R1-Zero, DeepSeek-R1 และโมเดล distillation ที่ถ่ายทอดรูปแบบการให้เหตุผลจากโมเดลเหล่านี้
  • โดยเฉพาะโมเดล DeepSeek-R1-Distill-Qwen-32B ทำผลงานได้เหนือกว่า OpenAI-o1-mini

สรุปโมเดล

  • Post-Training: การเสริมกำลังขนาดใหญ่กับโมเดลฐาน

    • DeepSeek-R1-Zero เป็นโมเดลรุ่นแรกที่ใช้ RL เพียงอย่างเดียวโดยไม่มี SFT
    • ผ่านกระบวนการ RL ทำให้เรียนรู้รูปแบบการให้เหตุผลหลากหลาย เช่น ความสามารถในการสำรวจ Chain-of-thought, การตรวจสอบตนเอง และการทบทวน (reflection)
    • สิ่งนี้แสดงให้เห็นว่า “แม้ไม่มี SFT โมเดลขนาดใหญ่ก็สามารถได้ความสามารถด้านการให้เหตุผลที่ทรงพลังด้วย RL เพียงอย่างเดียว”
    • DeepSeek-R1 ต่อยอดจากกระบวนการนี้ โดยเพิ่ม SFT ระหว่างทางเพื่อเสริมทั้งความสามารถในการให้เหตุผลและความสามารถการใช้ภาษาทั่วไปให้แข็งแกร่งยิ่งขึ้น
  • Distillation: โมเดลขนาดเล็กก็ทรงพลังได้

    • สาธิตให้เห็นว่ารูปแบบการให้เหตุผลที่โมเดลขนาดใหญ่เรียนรู้สามารถถ่ายทอดไปยังโมเดลขนาดเล็กได้เช่นกัน
    • ใช้ข้อมูลที่ DeepSeek-R1 สร้างขึ้นเพื่อนำไป fine-tune กับซีรีส์ Qwen, Llama เป็นต้น และพบว่าโมเดล dense ขนาดเล็กก็ให้ประสิทธิภาพที่ยอดเยี่ยม
    • เปิดเผยโมเดล distill หลายขนาด ได้แก่ 1.5B, 7B, 8B, 14B, 32B และ 70B

ดาวน์โหลดโมเดล

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • พารามิเตอร์: รวม 671B (พารามิเตอร์ที่ใช้งานจริง 37B)
    • ความยาวคอนเท็กซ์ 128K
    • ดาวน์โหลดได้จาก HuggingFace และฝึกด้วยวิธี RL บนพื้นฐานของโมเดล DeepSeek-V3-Base

DeepSeek-R1-Distill Models

  • distillation บนพื้นฐานซีรีส์ Qwen2.5 และ Llama3
  • มีขนาดพารามิเตอร์ให้เลือกหลากหลายตั้งแต่ 1.5B ถึง 70B
  • ผ่านการ fine-tune โดยใช้ข้อมูลการให้เหตุผลคุณภาพสูงที่ DeepSeek-R1 สร้างขึ้น
  • มีการปรับบางค่าตั้งต้น (tokenizer, config) จึงควรใช้การตั้งค่าตามที่แนะนำ

ผลการประเมิน

DeepSeek-R1-Evaluation

  • DeepSeek-R1 ทำคะแนนได้สูงในภาษาอังกฤษ (MMLU, DROP เป็นต้น), โค้ด (Codeforces, LiveCodeBench เป็นต้น), คณิตศาสตร์ (AIME, MATH-500 เป็นต้น) และภาษาจีน (C-Eval เป็นต้น)
  • โดยเฉพาะในหมวดคณิตศาสตร์อย่าง AIME และ MATH-500 มีสถิติ pass@1 สูง
  • เมื่อเทียบกับ OpenAI-o1-mini, Claude, GPT-4 เป็นต้น ก็แสดงประสิทธิภาพที่แข่งขันได้ในหลายรายการ

Distilled Model Evaluation

  • โมเดล distillation ก็ให้ผลลัพธ์โดดเด่นในเบนช์มาร์กด้านคณิตศาสตร์ (AIME, MATH เป็นต้น) และโค้ด (Codeforces เป็นต้น) เช่นกัน
  • DeepSeek-R1-Distill-Qwen-32B และ DeepSeek-R1-Distill-Llama-70B แสดงค่า pass@1 และความสามารถในการแก้โจทย์โค้ดที่สูง บ่งชี้ถึงศักยภาพในการใช้งานของโมเดลขนาดเล็ก

เว็บไซต์แชต & แพลตฟอร์ม API

  • สามารถทดลองสนทนากับ DeepSeek-R1 ได้ที่ chat.deepseek.com
  • และมีแพลตฟอร์ม API ที่เข้ากันได้กับ OpenAI ที่ platform.deepseek.com

วิธีรันแบบโลคัล

DeepSeek-R1 Models

  • สามารถอ้างอิงรีโพซิทอรี DeepSeek-V3 เพื่อตรวจสอบรายละเอียด เช่น การตั้งค่าความยาวสูงสุด 128K โทเคน ก่อนนำไปรัน

DeepSeek-R1-Distill Models

  • ใช้งานได้ในลักษณะเดียวกับโมเดล Qwen และ Llama
  • ตัวอย่างเช่น สามารถเสิร์ฟได้อย่างรวดเร็วด้วย vLLM, SGLang เป็นต้น
  • แนะนำให้ตั้งค่าอุณหภูมิ (temperature) ประมาณ 0.5~0.7

ไลเซนส์

  • ซีรีส์ DeepSeek-R1 เผยแพร่ภายใต้ไลเซนส์ MIT
  • อย่างไรก็ตาม โมเดลที่อิง Qwen ใช้ Apache 2.0 ส่วนโมเดลที่อิง Llama ใช้ไลเซนส์ llama3.x ซึ่งควรพิจารณาให้รอบคอบ
  • มีนโยบายไลเซนส์ที่ยืดหยุ่น เช่น อนุญาตการใช้งานเชิงพาณิชย์ และสามารถแก้ไขหรือสร้างโมเดลต่อยอดได้

5 ความคิดเห็น

 
crawler 2025-01-21

เห็นมีบางคนใส่ลิงก์ในคอมเมนต์ให้อ่านง่าย หรืออ้างอิงข้อความจากเนื้อหาหลักได้สวยดี ไม่ทราบว่ามีที่ไหนสรุปรูปแบบที่ใช้เขียนในคอมเมนต์ไว้บ้างไหมครับ?
พอดูมาสองสามวันแล้วรู้สึกว่าตัวเว็บยิ่งใช้ยิ่งชอบ เลยอยากลองคอมเมนต์ดูเหมือนกันครับ

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> รองรับ Markdown
> รองรับทั้งในเนื้อหาและความคิดเห็น
> โดยพื้นฐานเป็นไปตามข้อกำหนด CommonMark
> ไม่รองรับรูปภาพ

 
crawler 2025-01-21

ขอบคุณครับ ผมตั้งใจจะลองใส่การอ้างอิงในคอมเมนต์อื่น แต่แก้ไขไม่ได้ ก็เลยไม่ใส่เพื่อความปลอดภัย แต่สรุปว่า Markdown ถูกต้องนี่เอง
เดี๋ยวจะลองเอาไปใช้ให้เป็นประโยชน์ครับ 555

 
GN⁺ 2025-01-21
ความคิดเห็นจาก Hacker News
  • กำลังทำการทดลองโดยใช้ Llama 3 เวอร์ชันที่ถูก quantize รันโมเดลด้วย Ollama และปลั๊กอิน llm-ollama พร้อมบันทึกล็อก หลังจากโหลดโมเดลแล้วสามารถใช้ uvx ทดสอบพรอมป์หลากหลายแบบได้ และได้เขียนผลการทดลองไว้ในบล็อก

  • DeepSeek-R1-Zero ประสบปัญหาเรื่องการวนซ้ำ ความอ่านง่าย และการปะปนของภาษา จึงได้นำ DeepSeek-R1 มาใช้แทน ในการทดลองกับ OpenAI o1 และ QwQ-32B-Preview พบว่า QwQ มีแนวโน้มจะติดอยู่ในลูปการวนซ้ำ ส่วน DeepSeek-R1 แก้ปัญหาเหล่านี้ได้ และเปิดให้ใช้งานภายใต้สัญญาอนุญาต MIT ทำให้ผู้คนจำนวนมากขึ้นสามารถประเมินได้

  • ในคำถามที่ถามจำนวนตัว 'r' ในคำว่า "strawberry" โมเดลได้แสดงกระบวนการถกเถียงกับตัวเองเพื่อหาคำตอบที่ถูกต้อง และมีการกล่าวว่ากระบวนการนี้น่าสนุก

  • จากการเปรียบเทียบ ChatGPT o1, DeepSeek DeepThink และ Gemini 2.0 Flash Thinking Experimental พบว่า ChatGPT o1 ทำได้ดีที่สุด และ DeepSeek อ่อนที่สุด เมื่อลองทดสอบ DeepSeek-R1 ก็พบว่าประสิทธิภาพดีขึ้นกว่าก่อนหน้า และในกรณีการใช้งานส่วนตัวรู้สึกว่า LLM มีประโยชน์มากกว่า

  • มีผลเบนช์มาร์กออกมาว่าโมเดล Llama 8B ทรงพลังกว่า Claude 3.5 Sonnet และแสดงความประหลาดใจกับการที่โมเดลขนาดเล็กสามารถให้ประสิทธิภาพที่แข็งแกร่งได้

  • มีการกล่าวว่าน่าทึ่งที่บริษัทเล็ก ๆ ซึ่งก่อตั้งเมื่อ 1 ปีก่อนสามารถแข่งขันกับ OpenAI ได้ จีนกำลังก้าวนำสหรัฐฯ ในด้าน AI และยังถูกประเมินว่าเป็นบริษัท "Open AI" ที่แท้จริง เพราะเปิดโมเดลเป็นโอเพนซอร์ส

  • เดิมทีมีความคาดหวังต่อ DS3 อยู่มาก แต่พบปัญหาเรื่อง function calling คุณภาพคำตอบที่ลดลง และการสนับสนุนที่ไม่เพียงพอ อย่างไรก็ตาม สิ่งนี้กลับทำให้ทราฟฟิกของ API อื่นลดลงจน latency ดีขึ้น

  • มีการแสดงความสับสนเกี่ยวกับความแตกต่างระหว่างเวอร์ชัน 7b และ 8b พร้อมแจ้งว่าได้อัปโหลด Qwen 7B เวอร์ชันสำหรับ Ollama แล้ว