• สามารถหาข้อมูลที่เป็นประโยชน์สำหรับการเริ่มรัน LLM แบบโลคัลได้จากซับเรดดิต r/LocalLLaMA และบล็อกของ Ollama

ฮาร์ดแวร์ที่ใช้

  • ใช้แล็ปท็อปที่รันบน Linux พร้อม CPU Core i9 (32 เธรด), GPU 4090 (VRAM 16GB) และ RAM 96GB
  • โมเดลที่พอดีกับ VRAM จะทำงานได้รวดเร็ว ส่วนโมเดลขนาดใหญ่จะถูกออฟโหลดไปยัง RAM ซึ่งอาจทำให้ช้าลง
  • ไม่จำเป็นต้องใช้คอมพิวเตอร์สเปกสูงมาก และโมเดลขนาดเล็กสามารถทำงานได้แม้บน GPU รุ่นเก่าหรือ CPU

เครื่องมือที่ใช้

  • Ollama: มิดเดิลแวร์ที่รวมไลบรารี Python และ JavaScript สำหรับรัน Llama.cpp และใช้งานบน Docker
  • Open WebUI: มีอินเทอร์เฟซที่ใช้งานง่ายสำหรับรับอินพุตทั้งข้อความและรูปภาพ
  • llamafile: สามารถรัน LLM ได้ด้วยไฟล์ปฏิบัติการเพียงไฟล์เดียว
  • AUTOMATIC1111 และ Fooocus: เครื่องมือสร้างภาพ และสำหรับเวิร์กโฟลว์ที่ซับซ้อนใช้ ComfyUI
  • Continue: รองรับการเติมโค้ดอัตโนมัติใน VSCode
  • Obsidian Smart Connections: มีความสามารถในการค้นถามบันทึกโดยใช้ Ollama

การเลือกโมเดล

  • ดาวน์โหลด LLM รุ่นล่าสุดผ่านหน้าโมเดลของ Ollama
  • ติดตามการอัปเดตโมเดลผ่าน RSS
  • ดาวน์โหลดโมเดลสร้างภาพจาก CivitAI (ข้อควรระวัง: บางโมเดลถูกปรับให้เหมาะกับการสร้างภาพสำหรับผู้ใหญ่)
  • โมเดลที่ใช้งานเป็นหลัก:
    • Llama3.2: ใช้กับคำถามทั่วไปและ Smart Connections
    • Deepseek-coder-v2: ใช้เติมโค้ดใน VSCode
    • Qwen2.5-coder: ใช้สำหรับการสนทนาเกี่ยวกับโค้ด
    • Stable Diffusion: ใช้สร้างภาพ
    โฆษณา

การอัปเดต

  • ใช้ WatchTower เพื่ออัปเดตคอนเทนเนอร์ Docker
  • อัปเดตโมเดลผ่าน Open Web UI

การฟাইনจูนและการควอนไทซ์

  • ขณะนี้ยังไม่ได้ทำฟাইনจูนหรือควอนไทซ์ (เพื่อหลีกเลี่ยงงานหนักต่อเนื่องที่อุณหภูมิสูง เนื่องจากอาจมีปัญหาที่ CPU)

สรุป

  • การรัน LLM แบบโลคัลช่วยให้ควบคุมข้อมูลได้อย่างสมบูรณ์และมีความหน่วงในการตอบสนองต่ำ
  • สิ่งนี้เป็นไปได้ด้วยโครงการโอเพนซอร์สและโมเดลฟรี
  • มีแผนจะอัปเดตเนื้อหาเพิ่มเติมเมื่อได้ลองใช้เครื่องมือหรือโมเดลใหม่

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น