การรัน LLM บนเครื่องโลคัล
(abishekmuthian.com)- สามารถหาข้อมูลที่เป็นประโยชน์สำหรับการเริ่มรัน LLM แบบโลคัลได้จากซับเรดดิต r/LocalLLaMA และบล็อกของ Ollama
ฮาร์ดแวร์ที่ใช้
- ใช้แล็ปท็อปที่รันบน Linux พร้อม CPU Core i9 (32 เธรด), GPU 4090 (VRAM 16GB) และ RAM 96GB
- โมเดลที่พอดีกับ VRAM จะทำงานได้รวดเร็ว ส่วนโมเดลขนาดใหญ่จะถูกออฟโหลดไปยัง RAM ซึ่งอาจทำให้ช้าลง
- ไม่จำเป็นต้องใช้คอมพิวเตอร์สเปกสูงมาก และโมเดลขนาดเล็กสามารถทำงานได้แม้บน GPU รุ่นเก่าหรือ CPU
เครื่องมือที่ใช้
- Ollama: มิดเดิลแวร์ที่รวมไลบรารี Python และ JavaScript สำหรับรัน Llama.cpp และใช้งานบน Docker
- Open WebUI: มีอินเทอร์เฟซที่ใช้งานง่ายสำหรับรับอินพุตทั้งข้อความและรูปภาพ
- llamafile: สามารถรัน LLM ได้ด้วยไฟล์ปฏิบัติการเพียงไฟล์เดียว
- AUTOMATIC1111 และ Fooocus: เครื่องมือสร้างภาพ และสำหรับเวิร์กโฟลว์ที่ซับซ้อนใช้ ComfyUI
- Continue: รองรับการเติมโค้ดอัตโนมัติใน VSCode
- Obsidian Smart Connections: มีความสามารถในการค้นถามบันทึกโดยใช้ Ollama
การเลือกโมเดล
- ดาวน์โหลด LLM รุ่นล่าสุดผ่านหน้าโมเดลของ Ollama
- ติดตามการอัปเดตโมเดลผ่าน RSS
- ดาวน์โหลดโมเดลสร้างภาพจาก CivitAI (ข้อควรระวัง: บางโมเดลถูกปรับให้เหมาะกับการสร้างภาพสำหรับผู้ใหญ่)
- โมเดลที่ใช้งานเป็นหลัก:
- Llama3.2: ใช้กับคำถามทั่วไปและ Smart Connections
- Deepseek-coder-v2: ใช้เติมโค้ดใน VSCode
- Qwen2.5-coder: ใช้สำหรับการสนทนาเกี่ยวกับโค้ด
- Stable Diffusion: ใช้สร้างภาพ
การอัปเดต
- ใช้ WatchTower เพื่ออัปเดตคอนเทนเนอร์ Docker
- อัปเดตโมเดลผ่าน Open Web UI
การฟাইনจูนและการควอนไทซ์
- ขณะนี้ยังไม่ได้ทำฟাইনจูนหรือควอนไทซ์ (เพื่อหลีกเลี่ยงงานหนักต่อเนื่องที่อุณหภูมิสูง เนื่องจากอาจมีปัญหาที่ CPU)
สรุป
- การรัน LLM แบบโลคัลช่วยให้ควบคุมข้อมูลได้อย่างสมบูรณ์และมีความหน่วงในการตอบสนองต่ำ
- สิ่งนี้เป็นไปได้ด้วยโครงการโอเพนซอร์สและโมเดลฟรี
- มีแผนจะอัปเดตเนื้อหาเพิ่มเติมเมื่อได้ลองใช้เครื่องมือหรือโมเดลใหม่
ยังไม่มีความคิดเห็น