3 คะแนน โดย GN⁺ 2025-02-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โปรเจ็กต์นี้แชร์ผลลัพธ์เกี่ยวกับวิธีรันโมเดล Deepseek R1 Distill 8B Q40 บนอุปกรณ์ Raspberry Pi 5 8GB
  • ใช้ Raspberry Pi หลายเครื่องเพื่อประเมินและคาดการณ์ประสิทธิภาพของโมเดล
  • ผลการประเมินและการคาดการณ์
    • 2 x Raspberry Pi 5 8GB
      • การประเมิน: 7.70 โทเค็นต่อวินาที
      • การคาดการณ์: 3.54 โทเค็นต่อวินาที
    • 4 x Raspberry Pi 5 8GB
      • การประเมิน: 11.68 โทเค็นต่อวินาที
      • การคาดการณ์: 6.43 โทเค็นต่อวินาที
  • ข้อมูลอื่น ๆ
    • ทดสอบในสภาพแวดล้อมที่ปิดเครือข่ายไว้
    • ตรวจสอบประสิทธิภาพในสภาพแวดล้อมคลัสเตอร์ที่ใช้อุปกรณ์หลายเครื่อง

1 ความคิดเห็น

 
GN⁺ 2025-02-17
ความเห็นจาก Hacker News
  • การสาธิตการรัน 'Deepseek R1' บน Raspberry Pi มักเป็นรูปแบบเดิมเสมอ คือรัน llama หรือ qwen ที่ถูกปรับแต่งด้วยเทคนิค distillation ของ Deepseek
    • เดโมแสดงให้เห็นว่าคำถามถูก "แก้" ได้เมื่อใช้ไม่ถึง 500 โทเค็น
    • ควรสังเกตว่าเมื่อจัดการโมเดลแบบ "คิด" ด้วยความยาวคอนเท็กซ์ที่มีประโยชน์ในโลกจริง (8-16k โทเค็น) จะไม่สามารถไปถึงความเร็วระดับนี้ได้
    • แม้แต่ epyc ที่มีหลายแชนเนลก็ยังลดลงเหลือประมาณ 2-4 t/s หลังความยาวคอนเท็กซ์ราว 4096
  • ซื้อ Pi5 ได้ 4 เครื่องในราคา £320 แต่ถ้าหา 3080 12GB มือสองได้ ก็น่าจะได้ความเร็วโทเค็นมากกว่าราว 10 เท่า
  • สิ่งที่น่าสนใจตรงนี้คือสามารถรัน llama inference แบบกระจายข้ามหลายเครื่องได้
    • นี่คือ Beowulf cluster ยุคใหม่
  • ยังไม่เข้าใจว่า Raspberry Pi หลายเครื่องถูกใช้แบบขนานอย่างไร หวังว่าจะมีใครช่วยชี้ทางในเรื่องนี้ได้
  • ถ้าคุณอยากลองโมเดลนี้บน Mac สามารถใช้ปลั๊กอิน llm-mlx ตัวใหม่แล้วรันแบบนี้ได้
    • brew install llm หรือ pipx install llm หรือ uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • เพิ่งลองรันเมื่อกี้ ได้ประสิทธิภาพ 22 โทเค็น/วินาที
  • สงสัยว่าเมื่อไรเราจะติดตั้งเทคโนโลยี AI ใหม่ทั้งหมดนี้ได้ด้วย "apt-get install"
  • สงสัยว่าการเพิ่มหน่วยความจำจะช่วยได้ไหม เพราะล่าสุดมี Rpi 5 รุ่น RAM 16GB ออกมาแล้ว
  • ผลิตภัณฑ์ที่อิงกับ LLM จำเป็นต้องมี LLM ที่รันแบบโลคัลแทนการเชื่อมต่อคลาวด์เหมือน Alexa หรือ Google Home ไม่เข้าใจว่าทำไมมันยังไม่มีอยู่ หรือทำไมยังไม่มีใครทำสิ่งนี้