DeepSeek R1 ลงทะเบียนอย่างเป็นทางการบน Ollama

(ollama.com)

5 คะแนน โดย GN⁺ 2025-01-22 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นแรกของ DeepSeek มีประสิทธิภาพเทียบได้กับ OpenAI-o1
- ทำผลงานได้โดดเด่นในงานด้านคณิตศาสตร์ โค้ด และการให้เหตุผล
มีโมเดลให้เลือกหลายขนาด: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- แต่ละโมเดลได้รับการปรับให้เหมาะกับงานเฉพาะด้าน
ไลเซนส์
- ให้บริการภายใต้ไลเซนส์ MIT
- ใช้งานได้ฟรี และสามารถนำไปใช้เชิงพาณิชย์ได้

4 ความคิดเห็น

gadget5 2025-01-22

ถ้าถาม R1 เกี่ยวกับอัตลักษณ์ของตัวเอง มันจะตอบอย่างหนักแน่นเสมอว่าตัวเองไม่เกี่ยวข้องกับ DeepSeek และเป็น OpenAI GPT

mse9000 2025-01-31

การตอบว่าข้อมูลที่ใช้ฝึกมีถึงเดือนตุลาคม 2023 นี่มันให้ความรู้สึกแปลก ๆ ยังไงไม่รู้ ..

xguru 2025-01-22

เปิดตัวโมเดล DeepSeek-R1

GN⁺ 2025-01-22

ความเห็นจาก Hacker News

ดูเหมือนว่า DeepSeek V3 จะรับรู้ความอ่อนไหวทางการเมือง เมื่อถามว่า "จัตุรัสเทียนอันเหมินมีชื่อเสียงเรื่องอะไร?" ก็จะตอบว่า "ขออภัย เรื่องนี้อยู่นอกขอบเขตในขณะนี้"
- เข้าใจได้ว่าจำเป็นต้องปรับเปลี่ยนเพื่อจัดการกับความเป็นจริงทางการเมือง แต่ก็รู้สึกไม่สบายใจกับการที่ LLM โกหกในประเด็นแบบนี้
- สงสัยว่ามีแผนจะเปิดซอร์สรายการการเปลี่ยนแปลงที่ใส่เข้าไปในโมเดลด้วยเหตุผลทางการเมืองหรือไม่
- การทำให้โมเดลมีความถูกต้องทางการเมืองกับการกลบฝังเรื่องการสังหารหมู่เป็นคนละเรื่องกัน นี่เป็นเส้นทางที่อันตรายมาก และคงไม่หยุดแค่นี้
ถ้าดูจากเปเปอร์ของ R1 หากเบนช์มาร์กถูกต้อง แม้แต่โมเดล 1.5b และ 7b ก็ยังเหนือกว่า Claude 3.5 Sonnet การที่รันโมเดลเหล่านี้บน MacBook RAM 8-16GB ได้ถือว่าน่าทึ่งมาก
ชื่อเรื่องผิด มีแค่โมเดล distilled ของ llama และ qwen บน ollama ไม่ใช่โมเดล MoE r1 อย่างเป็นทางการของ deepseekv3
ลองถามโมเดล 1.5b ว่า "จะ reverse list ใน Python ยังไง" แล้วมันจะปล่อยกระบวนการคิดออกมาเรื่อย ๆ ไม่หยุด แถมไม่วนซ้ำด้วย น่าสนใจดี
ต้องมีเอกสารประกอบ คำอธิบายทั้งโปรเจ็กต์ดูเหมือนมีแค่ "เริ่มต้นกับโมเดลภาษาขนาดใหญ่"
- มีหลายคำถามก่อนติดตั้ง เช่น มันผูกกับ client interface หรือไม่, system requirements คืออะไร เป็นต้น
น่าทึ่งที่สามารถรันโมเดลนี้บนโน้ตบุ๊กอายุ 3 ปีได้
- ยกตัวอย่างการเขียนฟังก์ชันบวกเลขสองตัวใน Rust
- ใน Rust ใช้คีย์เวิร์ด fn เพื่อกำหนดฟังก์ชัน
- เนื่องจากไม่ได้ระบุชนิดตัวเลข จึงทำให้เป็น generic
- ใช้ Add trait เพื่อทำการบวก และต้อง import มาจาก standard library
- function signature มีรูปแบบเป็น fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
- ใน Rust ไม่สามารถผสมชนิดตัวเลขต่างกันได้ จึงต้องมีการแปลงชนิดอย่างชัดเจน
ยกตัวอย่างฟังก์ชันง่าย ๆ สำหรับบวกเลขสองตัวใน Rust
- เป็นฟังก์ชันที่บวกจำนวนเต็มสองตัวชนิด i32
- สามารถใช้ generic และ trait bound เพื่อรองรับชนิดตัวเลขอื่น ๆ ได้ด้วย
สงสัยว่าถ้าจะใช้การอนุมานกับโมเดล DeepSeek R1 ขนาดใหญ่ที่สุด มีตัวเลือก API แบบเสียเงินอะไรบ้าง
- สงสัยว่าถ้าจะ fine-tune หรือทำ reinforcement learning กับโมเดล DeepSeek R1 ขนาดใหญ่ที่สุดต้องทำอย่างไร
ถ้ามี RTX 4090 กับ RAM 192GB จะรัน DeepSeek R1 ขนาดไหนแบบโลคัลได้บ้าง
สงสัยว่าขนาดโมเดลแบบไหนที่เหมาะกับ Nvidia 4070
Ollama เกือบสมบูรณ์แบบแล้ว แต่การไม่รองรับ Vulkan เป็นปัญหาใหญ่

DeepSeek R1 ลงทะเบียนอย่างเป็นทางการบน Ollama

บทความที่เกี่ยวข้อง

4 ความคิดเห็น

ความเห็นจาก Hacker News