5 คะแนน โดย GN⁺ 2025-01-22 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นแรกของ DeepSeek มีประสิทธิภาพเทียบได้กับ OpenAI-o1
    • ทำผลงานได้โดดเด่นในงานด้านคณิตศาสตร์ โค้ด และการให้เหตุผล
  • มีโมเดลให้เลือกหลายขนาด: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • แต่ละโมเดลได้รับการปรับให้เหมาะกับงานเฉพาะด้าน
  • ไลเซนส์
    • ให้บริการภายใต้ไลเซนส์ MIT
    • ใช้งานได้ฟรี และสามารถนำไปใช้เชิงพาณิชย์ได้

4 ความคิดเห็น

 
gadget5 2025-01-22

ถ้าถาม R1 เกี่ยวกับอัตลักษณ์ของตัวเอง มันจะตอบอย่างหนักแน่นเสมอว่าตัวเองไม่เกี่ยวข้องกับ DeepSeek และเป็น OpenAI GPT

 
mse9000 2025-01-31

การตอบว่าข้อมูลที่ใช้ฝึกมีถึงเดือนตุลาคม 2023 นี่มันให้ความรู้สึกแปลก ๆ ยังไงไม่รู้ ..

 
GN⁺ 2025-01-22
ความเห็นจาก Hacker News
  • ดูเหมือนว่า DeepSeek V3 จะรับรู้ความอ่อนไหวทางการเมือง เมื่อถามว่า "จัตุรัสเทียนอันเหมินมีชื่อเสียงเรื่องอะไร?" ก็จะตอบว่า "ขออภัย เรื่องนี้อยู่นอกขอบเขตในขณะนี้"

    • เข้าใจได้ว่าจำเป็นต้องปรับเปลี่ยนเพื่อจัดการกับความเป็นจริงทางการเมือง แต่ก็รู้สึกไม่สบายใจกับการที่ LLM โกหกในประเด็นแบบนี้
    • สงสัยว่ามีแผนจะเปิดซอร์สรายการการเปลี่ยนแปลงที่ใส่เข้าไปในโมเดลด้วยเหตุผลทางการเมืองหรือไม่
    • การทำให้โมเดลมีความถูกต้องทางการเมืองกับการกลบฝังเรื่องการสังหารหมู่เป็นคนละเรื่องกัน นี่เป็นเส้นทางที่อันตรายมาก และคงไม่หยุดแค่นี้
  • ถ้าดูจากเปเปอร์ของ R1 หากเบนช์มาร์กถูกต้อง แม้แต่โมเดล 1.5b และ 7b ก็ยังเหนือกว่า Claude 3.5 Sonnet การที่รันโมเดลเหล่านี้บน MacBook RAM 8-16GB ได้ถือว่าน่าทึ่งมาก

  • ชื่อเรื่องผิด มีแค่โมเดล distilled ของ llama และ qwen บน ollama ไม่ใช่โมเดล MoE r1 อย่างเป็นทางการของ deepseekv3

  • ลองถามโมเดล 1.5b ว่า "จะ reverse list ใน Python ยังไง" แล้วมันจะปล่อยกระบวนการคิดออกมาเรื่อย ๆ ไม่หยุด แถมไม่วนซ้ำด้วย น่าสนใจดี

  • ต้องมีเอกสารประกอบ คำอธิบายทั้งโปรเจ็กต์ดูเหมือนมีแค่ "เริ่มต้นกับโมเดลภาษาขนาดใหญ่"

    • มีหลายคำถามก่อนติดตั้ง เช่น มันผูกกับ client interface หรือไม่, system requirements คืออะไร เป็นต้น
  • น่าทึ่งที่สามารถรันโมเดลนี้บนโน้ตบุ๊กอายุ 3 ปีได้

    • ยกตัวอย่างการเขียนฟังก์ชันบวกเลขสองตัวใน Rust
    • ใน Rust ใช้คีย์เวิร์ด fn เพื่อกำหนดฟังก์ชัน
    • เนื่องจากไม่ได้ระบุชนิดตัวเลข จึงทำให้เป็น generic
    • ใช้ Add trait เพื่อทำการบวก และต้อง import มาจาก standard library
    • function signature มีรูปแบบเป็น fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • ใน Rust ไม่สามารถผสมชนิดตัวเลขต่างกันได้ จึงต้องมีการแปลงชนิดอย่างชัดเจน
  • ยกตัวอย่างฟังก์ชันง่าย ๆ สำหรับบวกเลขสองตัวใน Rust

    • เป็นฟังก์ชันที่บวกจำนวนเต็มสองตัวชนิด i32
    • สามารถใช้ generic และ trait bound เพื่อรองรับชนิดตัวเลขอื่น ๆ ได้ด้วย
  • สงสัยว่าถ้าจะใช้การอนุมานกับโมเดล DeepSeek R1 ขนาดใหญ่ที่สุด มีตัวเลือก API แบบเสียเงินอะไรบ้าง

    • สงสัยว่าถ้าจะ fine-tune หรือทำ reinforcement learning กับโมเดล DeepSeek R1 ขนาดใหญ่ที่สุดต้องทำอย่างไร
  • ถ้ามี RTX 4090 กับ RAM 192GB จะรัน DeepSeek R1 ขนาดไหนแบบโลคัลได้บ้าง

  • สงสัยว่าขนาดโมเดลแบบไหนที่เหมาะกับ Nvidia 4070

  • Ollama เกือบสมบูรณ์แบบแล้ว แต่การไม่รองรับ Vulkan เป็นปัญหาใหญ่