-
DeepSeek-R1: เสริมความสามารถด้านการให้เหตุผลของ LLM
- แนะนำโมเดลให้เหตุผลรุ่นแรก ได้แก่ DeepSeek-R1-Zero และ DeepSeek-R1
- DeepSeek-R1-Zero ได้รับการฝึกด้วยการเสริมกำลังการเรียนรู้ขนาดใหญ่ และแสดงความสามารถด้านการให้เหตุผลที่โดดเด่นแม้ไม่มีการปรับจูนละเอียดแบบมีผู้สอน
- อย่างไรก็ตาม โมเดลเผชิญกับความท้าทาย เช่น ปัญหาด้านความอ่านง่ายและการผสมภาษา
- เพื่อแก้ปัญหาเหล่านี้และปรับปรุงประสิทธิภาพด้านการให้เหตุผล จึงนำเสนอ DeepSeek-R1 ซึ่งรวมถึงการฝึกหลายขั้นตอนและการใช้ข้อมูลตั้งต้นก่อนการเสริมกำลังการเรียนรู้
- DeepSeek-R1 ทำผลงานได้ใกล้เคียงกับ OpenAI-o1-1217
- เพื่อสนับสนุนชุมชนนักวิจัย ได้เปิดซอร์ส DeepSeek-R1-Zero, DeepSeek-R1 และโมเดล dense ที่กลั่นจาก Qwen และ Llama จำนวน 6 รุ่น (1.5B, 7B, 8B, 14B, 32B, 70B)
-
หัวข้อและการอ้างอิง
- หัวข้อ: การคำนวณและภาษา (cs.CL); ปัญญาประดิษฐ์ (cs.AI); การเรียนรู้ของเครื่อง (cs.LG)
- การอ้างอิง: arXiv:2501.12948 [cs.CL]
-
ประวัติการส่ง
- ผู้ส่ง: Wenfeng Liang
- วันที่ส่ง: 22 มกราคม 2025
-
วิธีเข้าถึง
- สามารถเข้าถึงบทความได้ในหลายรูปแบบ เช่น PDF, HTML, TeX source
-
เอกสารอ้างอิงและเครื่องมืออ้างอิง
- มีเอกสารอ้างอิงและเครื่องมืออ้างอิงหลากหลายให้ใช้งาน
-
โค้ด ข้อมูล และสื่อ
- มีโค้ดและข้อมูลที่เกี่ยวข้องให้บริการ
-
ข้อมูลเกี่ยวกับ arXivLabs
- มีคำอธิบายเกี่ยวกับ arXivLabs และข้อมูลการสนับสนุน
1 ความคิดเห็น
ความเห็นจาก Hacker News
บทความ DeepSeek V3 ถือเป็นเอกสารพื้นฐานที่ควรอ่านก่อน
หลังจากลองใช้โมเดล r1-14b ของ Ollama แล้ว รู้สึกว่าการที่โมเดลลองหลายแนวทางแบบเรียลไทม์และเลือกทางเลือกต่าง ๆ ชวนให้นึกถึงพฤติกรรมของมนุษย์
DeepSeek V3 ปรากฏตัวได้ถูกจังหวะในช่วงที่ Claude Sonnet เริ่มมีปัญหา
ฟีเจอร์แชตของ DeepSeek ใช้งานง่ายกว่า ChatGPT Pro
รู้สึกประหลาดใจที่กระบวนการคิดของโมเดล GPT-O1 เกิดขึ้นภายในตัวโมเดลเอง
นอกจากประสิทธิภาพของ DeepSeek R1 แล้ว โมเดลกลั่นขนาดเล็กก็น่าประทับใจเช่นกัน
Larry Ellison และ Masayoshi Son ตั้งเป้าไปที่ความเป็นอมตะผ่าน ASI
บน Arxiv มีผู้เขียนมากกว่า 100 คนเผยแพร่งานวิจัยโดยใช้ชื่อทีม