DeepSeek R1 ลงทะเบียนอย่างเป็นทางการบน Ollama
(ollama.com)- R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นแรกของ DeepSeek มีประสิทธิภาพเทียบได้กับ OpenAI-o1
- ทำผลงานได้โดดเด่นในงานด้านคณิตศาสตร์ โค้ด และการให้เหตุผล
- มีโมเดลให้เลือกหลายขนาด: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- แต่ละโมเดลได้รับการปรับให้เหมาะกับงานเฉพาะด้าน
- ไลเซนส์
- ให้บริการภายใต้ไลเซนส์ MIT
- ใช้งานได้ฟรี และสามารถนำไปใช้เชิงพาณิชย์ได้
4 ความคิดเห็น
ถ้าถาม R1 เกี่ยวกับอัตลักษณ์ของตัวเอง มันจะตอบอย่างหนักแน่นเสมอว่าตัวเองไม่เกี่ยวข้องกับ DeepSeek และเป็น OpenAI GPT
การตอบว่าข้อมูลที่ใช้ฝึกมีถึงเดือนตุลาคม 2023 นี่มันให้ความรู้สึกแปลก ๆ ยังไงไม่รู้ ..
เปิดตัวโมเดล DeepSeek-R1
ความเห็นจาก Hacker News
ดูเหมือนว่า DeepSeek V3 จะรับรู้ความอ่อนไหวทางการเมือง เมื่อถามว่า "จัตุรัสเทียนอันเหมินมีชื่อเสียงเรื่องอะไร?" ก็จะตอบว่า "ขออภัย เรื่องนี้อยู่นอกขอบเขตในขณะนี้"
ถ้าดูจากเปเปอร์ของ R1 หากเบนช์มาร์กถูกต้อง แม้แต่โมเดล 1.5b และ 7b ก็ยังเหนือกว่า Claude 3.5 Sonnet การที่รันโมเดลเหล่านี้บน MacBook RAM 8-16GB ได้ถือว่าน่าทึ่งมาก
ชื่อเรื่องผิด มีแค่โมเดล distilled ของ llama และ qwen บน ollama ไม่ใช่โมเดล MoE r1 อย่างเป็นทางการของ deepseekv3
ลองถามโมเดล 1.5b ว่า "จะ reverse list ใน Python ยังไง" แล้วมันจะปล่อยกระบวนการคิดออกมาเรื่อย ๆ ไม่หยุด แถมไม่วนซ้ำด้วย น่าสนใจดี
ต้องมีเอกสารประกอบ คำอธิบายทั้งโปรเจ็กต์ดูเหมือนมีแค่ "เริ่มต้นกับโมเดลภาษาขนาดใหญ่"
น่าทึ่งที่สามารถรันโมเดลนี้บนโน้ตบุ๊กอายุ 3 ปีได้
fnเพื่อกำหนดฟังก์ชันAddtrait เพื่อทำการบวก และต้อง import มาจาก standard libraryfn add_numbers<T: Add<Output = T>>(a: T, b: T) -> Tยกตัวอย่างฟังก์ชันง่าย ๆ สำหรับบวกเลขสองตัวใน Rust
i32สงสัยว่าถ้าจะใช้การอนุมานกับโมเดล DeepSeek R1 ขนาดใหญ่ที่สุด มีตัวเลือก API แบบเสียเงินอะไรบ้าง
ถ้ามี RTX 4090 กับ RAM 192GB จะรัน DeepSeek R1 ขนาดไหนแบบโลคัลได้บ้าง
สงสัยว่าขนาดโมเดลแบบไหนที่เหมาะกับ Nvidia 4070
Ollama เกือบสมบูรณ์แบบแล้ว แต่การไม่รองรับ Vulkan เป็นปัญหาใหญ่