การรัน LLM บนเครื่องโลคัล

(abishekmuthian.com)

27 คะแนน โดย GN⁺ 2024-12-30 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

สามารถหาข้อมูลที่เป็นประโยชน์สำหรับการเริ่มรัน LLM แบบโลคัลได้จากซับเรดดิต r/LocalLLaMA และบล็อกของ Ollama

ฮาร์ดแวร์ที่ใช้

ใช้แล็ปท็อปที่รันบน Linux พร้อม CPU Core i9 (32 เธรด), GPU 4090 (VRAM 16GB) และ RAM 96GB
โมเดลที่พอดีกับ VRAM จะทำงานได้รวดเร็ว ส่วนโมเดลขนาดใหญ่จะถูกออฟโหลดไปยัง RAM ซึ่งอาจทำให้ช้าลง
ไม่จำเป็นต้องใช้คอมพิวเตอร์สเปกสูงมาก และโมเดลขนาดเล็กสามารถทำงานได้แม้บน GPU รุ่นเก่าหรือ CPU

Ollama: มิดเดิลแวร์ที่รวมไลบรารี Python และ JavaScript สำหรับรัน Llama.cpp และใช้งานบน Docker
Open WebUI: มีอินเทอร์เฟซที่ใช้งานง่ายสำหรับรับอินพุตทั้งข้อความและรูปภาพ
llamafile: สามารถรัน LLM ได้ด้วยไฟล์ปฏิบัติการเพียงไฟล์เดียว
AUTOMATIC1111 และ Fooocus: เครื่องมือสร้างภาพ และสำหรับเวิร์กโฟลว์ที่ซับซ้อนใช้ ComfyUI
Continue: รองรับการเติมโค้ดอัตโนมัติใน VSCode
Obsidian Smart Connections: มีความสามารถในการค้นถามบันทึกโดยใช้ Ollama

ดาวน์โหลด LLM รุ่นล่าสุดผ่านหน้าโมเดลของ Ollama
ติดตามการอัปเดตโมเดลผ่าน RSS
ดาวน์โหลดโมเดลสร้างภาพจาก CivitAI (ข้อควรระวัง: บางโมเดลถูกปรับให้เหมาะกับการสร้างภาพสำหรับผู้ใหญ่)
โมเดลที่ใช้งานเป็นหลัก:
- Llama3.2: ใช้กับคำถามทั่วไปและ Smart Connections
- Deepseek-coder-v2: ใช้เติมโค้ดใน VSCode
- Qwen2.5-coder: ใช้สำหรับการสนทนาเกี่ยวกับโค้ด
- Stable Diffusion: ใช้สร้างภาพ
โฆษณา

ขณะนี้ยังไม่ได้ทำฟাইনจูนหรือควอนไทซ์ (เพื่อหลีกเลี่ยงงานหนักต่อเนื่องที่อุณหภูมิสูง เนื่องจากอาจมีปัญหาที่ CPU)

การรัน LLM แบบโลคัลช่วยให้ควบคุมข้อมูลได้อย่างสมบูรณ์และมีความหน่วงในการตอบสนองต่ำ
สิ่งนี้เป็นไปได้ด้วยโครงการโอเพนซอร์สและโมเดลฟรี
มีแผนจะอัปเดตเนื้อหาเพิ่มเติมเมื่อได้ลองใช้เครื่องมือหรือโมเดลใหม่