- กำลังมองหาโมเดลที่คุยพื้นฐานได้บน 5060ti + VRAM 16GB ถ้าเป็นไปได้อยากให้เร็วและทำงานได้เกือบเรียลไทม์
สรุปคำตอบ
- มีโมเดลพารามิเตอร์ 8B~14B, 30B หลายตัวที่ทำงานได้อย่างมีประสิทธิภาพบน VRAM 16GB โดยรุ่นที่ถูกแนะนำบ่อยคือ Qwen3, DeepSeek-R1, Mistral, Gemma3
- การ รัน LLM แบบโลคัล มีข้อดีด้านประสิทธิภาพ ต้นทุน และความเป็นส่วนตัว แต่ประสิทธิภาพจริงและความเหมาะสมของโมเดลจำเป็นต้อง ทดลองและจูนเอง
- มีการแชร์เคล็ดลับการใช้ฮาร์ดแวร์ให้คุ้มอยู่มาก เช่น ขนาดไฟล์โมเดล, ระดับ quantization (Q4~Q6 เป็นต้น), การกระจายโหลดระหว่าง GPU·RAM
- มีเครื่องมือหลายแบบ เช่น Ollama, LM Studio, llama.cpp, OpenWebUI ซึ่งแต่ละตัวมีข้อดีข้อเสียต่างกันในด้านการเข้าถึง ความยืดหยุ่น และความสะดวกในการจัดการโมเดล
- ข้อมูลจากชุมชน (เช่น Reddit LocalLLaMA) มีประโยชน์สำหรับ ข่าวล่าสุดและทิปใช้งานจริง แต่ก็ควรระวังข้อมูลเกินจริงหรือข้อมูลผิดด้วย
โมเดล LLM ที่แนะนำและทิปการใช้งาน
- Qwen3: มีหลายขนาด เช่น 8B/14B/30B โดยรุ่น 8B~14B ใช้งานบน VRAM 16GB ได้ค่อนข้างลื่น มีความสามารถด้าน reasoning เด่น และด้วยโครงสร้าง MoE (Mixture of Experts) ทำให้บางโมเดลสามารถรันขนาดใหญ่ขึ้นได้ผ่านการ offload ไป RAM
- DeepSeek-R1-0528-Qwen3-8B: ถูกมองว่าเป็นหนึ่งในโมเดล 8B รุ่นใหม่ที่ reasoning ดีมาก เหมาะกับ VRAM 4GB~8GB เมื่อใช้ quantization ระดับ Q4~Q6
- Mistral Small 3.1: รุ่น 14B หรือ 24B มักถูกแนะนำ คุณภาพการสนทนาดี และมี censorship ค่อนข้างน้อย โดยเฉพาะยังรองรับอินพุตภาพ
- Gemma3: โมเดลจาก Google เด่นด้านการสนทนาแบบเป็นธรรมชาติ แต่มีความเห็นว่ามีแนวโน้ม HR สูงจึงมี disclaimer เยอะ และเกิด hallucination ค่อนข้างบ่อยกว่า
- Devstral: โมเดลขนาดใหญ่ที่อิงจาก Mistral ถ้าเกิน 30B บน VRAM 16GB ความเร็วอาจช้าลง
- Dolphin, Abliterated: เป็นเวอร์ชันที่มี censorship น้อยกว่า เหมาะกับสถานการณ์ที่ไม่ใช่งานรูทีน
การปรับแต่งฮาร์ดแวร์และสภาพแวดล้อมรัน
- การตั้งค่า quantization: Q4, Q5, Q6 เป็นต้น ยิ่งตัวเลขต่ำยิ่งใช้ VRAM น้อยลง (Q4 ≒ พารามิเตอร์/2, Q6 ≒ พารามิเตอร์*0.75) แต่ต้องระวังคุณภาพที่ลดลง
- การคำนวณปริมาณ VRAM: ตัวอย่างเช่น 8B Q4 ใช้ 4GB, 14B Q4 ใช้ 7GB, 30B Q4 ใช้ VRAM ราว 15GB
- RAM offloading: หาก VRAM ไม่พอ สามารถ offload บางเลเยอร์ไปยังหน่วยความจำ CPU ได้ แต่ต้องยอมรับว่าความเร็วจะลดลง
- KV cache quantization: เมื่อเพิ่ม context window แนะนำให้ใช้การบีบอัดแคชระดับ q4
เครื่องมือและฟรอนต์เอนด์
- llama.cpp: ทำงานได้เร็วและยืดหยุ่นบนหลายแพลตฟอร์ม รองรับ REST API และ React frontend แบบง่าย ๆ และสามารถกระจายการโหลดโมเดลระหว่าง VRAM กับ RAM ได้
- Ollama: ติดตั้งง่าย สลับโมเดลสะดวก และเชื่อมกับ GUI frontend ได้ง่าย แต่มีข้อจำกัดเรื่องการรองรับโมเดลใหม่และขนาด context
- LM Studio: จัดการโมเดลผ่าน GUI ได้สะดวก และมีฟังก์ชันคาดการณ์ว่าเหมาะกับ VRAM หรือไม่
- OpenWebUI: เป็น frontend อย่างเดียว ต้องมี backend เช่น llama.cpp, vllm รองรับ สามารถจัดการและทดสอบหลายโมเดลพร้อมกันได้
- KoboldCPP, SillyTavern: frontend ที่เน้นงาน role-playing / storytelling / เกม
ชุมชนและข้อมูลภาคปฏิบัติ
- Reddit LocalLLaMA, HuggingFace, Discord: มีการแชร์ข่าวโมเดลใหม่ วิธีใช้ benchmark และเทคนิคการตั้งค่ากันอย่างคึกคัก แต่ต้องระวังข้อมูลผิดหรืออคติแบบ groupthink
- เว็บ benchmark: livebench.ai, aider.chat มีคะแนนและอันดับของโมเดลล่าสุดให้ดู
เป้าหมายการใช้งานและประสบการณ์จริง
- ความเป็นส่วนตัว, การลดต้นทุน: ถ้าเป็นข้อมูลอ่อนไหว มีประเด็นด้านความเป็นส่วนตัว หรือใช้งานซ้ำบ่อย การใช้โมเดลโลคัลมักคุ้มกว่าคลาวด์
- อิสระในการทดลองและจูน: ยืดหยุ่นกว่าโมเดลผ่าน API ในด้านการ fine-tune เฉพาะโดเมน กลยุทธ์การ sampling และ prompt engineering
- ตัวอย่างการประยุกต์ใช้: เช่น RAG (retrieval-augmented generation), การเชื่อมกับฐานข้อมูลโลคัล, agent automation, ผู้ช่วยออฟไลน์
คำถามและทิปที่พบบ่อย
- การประเมินขนาดโมเดล: จำนวนพารามิเตอร์ × บิต (quantization)/8 = ปริมาณ VRAM โดยประมาณ (GB) และควรคำนึงถึง overhead กับ context window ด้วย
- ลักษณะเด่นของแต่ละโมเดล: Qwen3 เด่นด้าน reasoning/โค้ด, Gemma3 เด่นด้านสัญชาตญาณ/บทสนทนา, Mistral มี censorship น้อย, Dolphin/abliterated เป็นเวอร์ชัน uncensor เป็นต้น
- การเปรียบเทียบประสิทธิภาพ: แนะนำให้ benchmark และทดสอบแบบ custom ด้วยตนเองเพื่อหาโมเดลที่เหมาะกับตัวเอง
บทสรุปและคำแนะนำเชิงปฏิบัติ
- ไม่มี "โมเดลที่ดีที่สุด" แบบตายตัว และทางเลือกที่ดีที่สุดคือทดลองโมเดล 8B~14B รุ่นใหม่หลายตัว เช่น Qwen3, Mistral, Gemma3 ตามฮาร์ดแวร์ การใช้งาน และความชอบของตน
- ขนาดไฟล์โมเดล, quantization, ขนาด context และสเปกโดยรวมมีความสำคัญมาก จึงควรทดสอบหลายโมเดลด้วยตนเองและใช้ทิปจากชุมชนเพื่อปรับแต่งให้เหมาะกับงาน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้าอยากรัน LLM แบบโลคัล สามารถขอความช่วยเหลือได้มากจาก ชุมชน localllama บน reddit
ไม่มีโมเดล LLM ตัวไหนที่เรียกว่า "ดีที่สุด" ได้แบบตายตัว เพราะแต่ละโมเดลมีข้อดีข้อเสียต่างกัน จึงต้องลองใช้หลาย ๆ ตัวด้วยตัวเอง
ตัวอย่างเช่น โมเดล DeepSeek-R1-0528-Qwen3-8B เพิ่งปล่อยวันนี้ และแสดงประสิทธิภาพด้านการให้เหตุผลเชิงตรรกะที่ดีที่สุดในขนาด 8B
อีกทั้งซีรีส์ Qwen3 ก็เพิ่งออกมาไม่นาน มีแนวทางแบบไฮบริด ประสิทธิภาพดี และมีหลายขนาดให้เหมาะกับฮาร์ดแวร์ที่หลากหลาย
Qwen3-30B-A3B ยังรันบน CPU ได้ด้วยความเร็วที่ใช้ได้
แม้แต่โมเดลจิ๋วขนาด 0.6B ก็ยังมีความสม่ำเสมอพอสมควร จนน่าทึ่ง
ตอนใช้ llama-cpp เคยเห็นกรณีที่ออฟโหลดเทนเซอร์บางส่วนไป CPU แล้วก็ยังรักษาประสิทธิภาพที่ดีได้
โดยทั่วไปใน llama-cpp จะกำหนดจำนวนเลเยอร์ที่วางบน GPU ด้วย
-nglแต่ถ้าไม่ใช่เทนเซอร์ที่กินการคำนวณหนัก ก็สามารถออฟโหลดไป CPU เพื่อประหยัดพื้นที่ GPU โดยแทบไม่เสียความเร็วเคยอ่านงานวิจัยที่ดึงเฉพาะนิวรอน "hot" จาก CPU (ลิงก์ arxiv) ด้วย และคาดหวังว่าในอนาคตจะใช้ AI ที่บ้านได้อย่างเท่มากขึ้น
มีข้อควรระวังอย่างหนึ่งสำหรับคนที่ไม่คุ้นกับการใช้ Reddit
Reddit รวมถึง LocalLlama มีทั้งข้อมูลผิดและข้อมูลเท็จที่ได้รับความนิยมจำนวนมาก และสัดส่วน upvote/downvote ไม่ได้รับประกันความถูกต้องของข้อมูล
คอมเมนต์ที่ถูกต้องแต่เขียนอธิบายแบบน่าเบื่ออาจไม่เป็นที่นิยม ขณะที่คำอธิบายผิด ๆ แต่สนุก มีอารมณ์ร่วม หรือสอดคล้องกับความเห็นหมู่ มักจะได้รับความนิยม
คนที่เล่นเว็บมานานแบบฉันพอจะแยกแยะคร่าว ๆ ได้ แต่ถ้าเป็นคนที่เพิ่งเข้ามาในพื้นที่แบบนี้ซึ่งมี groupthink สูง ก็แนะนำให้รับข้อมูลอย่างระมัดระวัง
ทุกวันนี้ไม่ว่าโมเดลไหนก็พอมีพื้นฐานดีอยู่แล้ว เลยรู้สึกว่าท้ายที่สุดคือการหา "บุคลิกของโมเดล" ที่ตรงกับรสนิยมตัวเอง
เจ้าของกระทู้แค่ค่อย ๆ ดาวน์โหลดมาลองใช้ทีละตัวก็พอ
ถ้ามีหน่วยความจำ 16GB ก็สามารถใช้ llama.cpp ออฟโหลดบางส่วนไป DDR5 เพื่อรันโมเดล 30B ได้ถึงระดับความเร็วที่ "พอใช้ได้" (แม้กระทั่งโมเดล dense) และถ้าออฟโหลดเทนเซอร์จะยิ่งดี
Qwen ยังมีจุดที่น่าผิดหวังบ้างถ้าใช้เป็นโมเดลสนทนา
Mistral Nemo, Small และซีรีส์ Llama 3.X ก็ยังเป็นตัวเลือกที่ยอดเยี่ยม ณ วันนี้
Gemma 3s นั้นดี แต่มีสไตล์ที่คาดเดายากนิดหน่อย
ถ้าต้องการระดับ GPT-4 ที่บ้าน แนะนำ QwQ
และคงยังมีโมเดลดี ๆ อื่นอีกที่ฉันลืมไป
อยากรู้ว่ามีโมเดลไหนแนะนำสำหรับใช้ร่วมกับเครื่องมือเขียนโค้ดอย่าง aider หรือ roo บ้าง
จากประสบการณ์ การหาโมเดลที่ใช้เครื่องมือได้เก่งจริง ๆ นั้นค่อนข้างยาก
DeepSeek-R1-0528-Qwen3-8B เป็นโมเดลที่สร้างโดย distill chain-of-thought ของ DeepSeek-R1-0528 ลงใน Qwen3-8B Base ทำให้บน AIME 2024 มีประสิทธิภาพสูงกว่า Qwen3-8B มากกว่า 10% และให้ผลระดับเดียวกับ Qwen3-235B-thinking
เป็นจุดที่ทำให้รู้สึกทึ่งอีกครั้งว่าการทำ distillation มีประสิทธิภาพมากแค่ไหน
ดูเหมือนว่านี่จะเป็นเหตุผลที่ช่วงนี้ OpenAI และแล็บวิจัยหลายแห่งเลือกซ่อน chain-of-thought (COT) (โพสต์อ้างอิง)
สงสัยว่าคนส่วนใหญ่ใช้ local LLM กับงานอะไรบ่อยที่สุด
ถ้าฮาร์ดแวร์ไม่ได้แรงมาก ก็คงสู้โมเดลปิดอย่าง Gemini หรือ Claude ได้ยาก แต่โมเดลเล็กเหล่านี้ก็ดูน่าจะมีประโยชน์อยู่ จึงอยากรู้ตัวอย่างการใช้งานที่เป็นรูปธรรม
เป็นความรู้สึกไม่อยากส่งข้อมูลให้บุคคลที่สาม
มีคนจำนวนมากที่ไม่อยากส่งพรอมป์ต์หรือคำถามออกไปภายนอก
สำหรับพรอมป์ต์ส่วนใหญ่ ฉันจะลองใช้โมเดลโลคัลก่อน และก็พบว่าเกินครึ่งให้ผลลัพธ์ที่ดีพออย่างคาดไม่ถึง
ทุกครั้งที่ไม่ต้องใช้บริการคลาวด์ก็รู้สึกภูมิใจ
คิดว่าอนาคตของ local LLM จะเป็นรูปแบบที่ตัดสินใจได้อย่างรวดเร็วว่างานไหนควรจัดการอย่างไร แล้วมอบหมายต่ออย่างรวดเร็ว (delegation)
เช่น เลือกได้เองว่างานไหนจัดการผ่านระบบโลคัลอย่าง MCP ได้ งานไหนต้องเรียก system API อย่างปฏิทินหรืออีเมล หรืองานไหนควรถูกส่งต่อไปยังคลาวด์โมเดลที่เหมาะที่สุด
นึกภาพคล้าย Siri ที่ทำงานได้ดีจริง
ตอนนี้ฉันกำลังทดลองกับเอเจนต์เขียนโค้ดแบบโลคัลที่ทำขึ้นเองโดยอิงจาก Devstral
จุดที่ชอบมากกว่า Codex คือมันเข้าถึงฮาร์ดแวร์ทั้งหมดได้ จึงทำงานอย่างเปิด VM หรือส่งคำขอเครือข่ายที่ Codex ทำไม่ได้
อีกทั้งยังเร็วกว่า Codex มากตั้งแต่ขั้นตั้งค่าไปจนถึงการสร้างแพตช์
แน่นอนว่าผลลัพธ์ยังไม่ถึงระดับ Codex แต่ Devstral ก็ใช้งานได้ดีสำหรับการแก้ไขเล็ก ๆ หรือรีแฟกเตอร์ และคาดว่าถ้าพัฒนาซอฟต์แวร์ต่อไปก็น่าจะรองรับการเปลี่ยนแปลงขนาดใหญ่ขึ้นได้เรื่อย ๆ
โดยหลักการแล้วฉันพยายามไม่ใช้คลาวด์ให้มากที่สุด
ตัวอย่างเช่น มีข่าวว่า OpenAI กำลังทำบริการลักษณะเป็นโซเชียลเน็ตเวิร์กที่แชร์บทสนทนา ChatGPT ล่าสุด
การรันแบบโลคัลยังช่วยให้เข้าใจการทำงานภายในของ AI มากขึ้น และเพิ่มมูลค่าทางการตลาดของตัวเอง
ยังสามารถทดลองกับ LLM backend ได้อย่างอิสระด้วย (เช่น เว็บค้นหา เอเจนต์ ฯลฯ) ไม่มีภาระค่าใช้จ่ายคลาวด์ และตอนที่ LLaMa ออกใหม่ ๆ ฉันก็มีเดสก์ท็อปเล่นเกมอยู่แล้ว
โปรเจ็กต์ LocalScore ของ Mozilla ก็น่าจับตา
เป็นบริการที่ช่วยเปรียบเทียบและวิเคราะห์ว่าโมเดลต่าง ๆ ทำงานได้ดีแค่ไหนบนฮาร์ดแวร์หลายแบบ
เห็นด้วยกับคำแนะนำให้ไปที่ subreddit LocalLLama
แม้มันจะไม่ได้ทำหน้าที่เลือก "โมเดลที่ดีที่สุด" ให้ แต่มีประโยชน์มากสำหรับการถามคำถาม หาไกด์ ติดตามข่าวล่าสุดหรือข้อมูลเครื่องมือ รวมถึงเปรียบเทียบโมเดลต่าง ๆ
ท้ายที่สุดแล้วก็คือกระบวนการที่ฉันต้องลองใช้หลายโมเดลเอง ปรับพารามิเตอร์เอง แล้วหาตัวที่เหมาะกับเป้าหมายของตัวเองที่สุด
ถ้าเป็นผู้ใช้ Hacker News ก็อาจพิจารณาข้าม Ollama หรือ LMStudio ไปได้
เพราะการเข้าถึงโมเดลใหม่ ๆ อาจไม่ดีนัก และบ่อยครั้งต้องเลือกจากโมเดลที่พวกเขาทดสอบไว้เท่านั้น
อีกทั้งยังขาดความสนุกแบบ "เปิดฝา" ดูการทำงานภายใน
แค่ใช้ llamacpp ก็รองรับโมเดลล่าสุดส่วนใหญ่แล้ว และถ้าจำเป็นก็อัปเดตได้รวดเร็ว
ฉันชอบดาวน์โหลดโมเดลจาก huggingface แล้วใช้ฟอร์แมต GGUF (quantization ต่ำเพื่อประหยัดหน่วยความจำ)
ดูจากขนาดไฟล์ GGUF ก็พอเดาได้คร่าว ๆ ว่าจะพอดีกับ VRAM หรือไม่ (เช่น GGUF ขนาด 24GB ใช้กับ 16GB ไม่น่าไหว ส่วน 12GB พอได้ — แต่ถ้า context ยาวขึ้น การใช้ RAM ก็จะเพิ่มตาม)
ต้องระวัง context window ด้วย โมเดลเก่า ๆ ส่วนใหญ่เป็น 8K context และถึงจะตั้งเป็น 32K ผลที่ได้ก็ไม่ได้ดีขึ้นมาก
llamacpp ดาวน์โหลดไบนารีหรือคอมไพล์เองได้บน Linux, Windows และ macOS และยังแบ่งโมเดลระหว่าง VRAM/RAM ได้
มี React frontend แบบง่าย (
llamacpp-server) และมี REST API ที่คล้าย OpenAI ให้ด้วยด้วยเหตุนี้จึงเชื่อมต่อกับ frontend ได้หลายตัว เช่น oobabooga (textgeneration webui)
ถ้ารู้สึกว่า llamacpp ดิบเกินไป Koboldcpp ก็เป็น backend ที่น่าพิจารณา (แม้ภายในยังอิง llamacpp อยู่)
จุดน่าสนใจของ Ollama คือสามารถดึง GGUF ไหนก็ได้จาก HuggingFace มารันได้ทันที เช่น
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0ข้อดีอย่างหนึ่งของ Ollama คือโหลด/ปลดโหลดโมเดลขึ้น GPU ได้ง่าย จึงสลับโมเดลผ่าน dropdown ใน frontend อย่าง librechat หรือ openwebui ได้สะดวก
อยากเน้นว่ามันเปลี่ยนโมเดลได้ง่ายโดยไม่ต้องไปยุ่งกับ command line
Ollama ทำให้เดสก์ท็อปกลายเป็น LLM server ได้ และเข้าถึงจากอุปกรณ์ระยะไกลผ่าน WiFi ได้ด้วย
ตอนเปลี่ยนโมเดล Ollama ยังสลับได้อย่างลื่นไหลโดยไม่ต้องปิดเซิร์ฟเวอร์
ในกรณีของ llama.cpp ถ้าใช้ผ่าน CLI มักต้องปิดเซิร์ฟเวอร์ แล้วใส่แฟลกใหม่ก่อนเปิดอีกครั้ง จึงไม่สะดวกสำหรับการทดลองหรือพัฒนาแอปอย่างรวดเร็ว
แอปที่ฉันทำบางตัวจำเป็นต้องมีฟีเจอร์ที่สลับโมเดล 1B, 8B, 30B ได้ผ่านพารามิเตอร์ของเว็บรีเควสต์ โดยไม่ต้องรีสตาร์ตเซิร์ฟเวอร์
แม้จะมี VRAM แค่ 8GB แต่ฉันต่อ OpenWebUI เป็น frontend ของ Ollama แล้วโหลดหลายโมเดลพร้อมกันเพื่อทดสอบสลับกันแบบ round robin
คอยติดตามผลลัพธ์ของคำตอบไปเรื่อย ๆ เพื่อเลือกได้ในระยะยาวว่าโมเดลไหนเหมาะกับเป้าหมายของฉันมากกว่า
OpenWebUI มอบประสบการณ์การใช้งานที่ไม่เหมือนใคร
ในฐานะผู้ใช้ AMD 6700XT (VRAM 12GB) หลังจากตั้งค่า local ROCm สำเร็จแล้ว ก็รัน Ollama แบบ GPU acceleration ได้ไม่มีปัญหา
การเชื่อม OpenWebUI instance ที่รันบน Docker เข้ากับ local Ollama server ก็จบด้วยการตั้งค่า ENV แค่ครั้งเดียว
นี่ไม่ใช่งาน production แต่เป็นสภาพแวดล้อมทดสอบส่วนตัว และสำหรับจุดประสงค์ที่อธิบายข้างบนถือว่าเหมาะมาก
ควรทราบว่า OpenWebUI เพิ่งเปลี่ยนไลเซนส์ และตอนนี้ไม่ใช่โอเพนซอร์สอีกต่อไป
ตระกูล Qwen3 (รวมถึง R1 qwen3-8b distill) อยู่อันดับ 1 ในด้านการเขียนโค้ดและการให้เหตุผลเชิงตรรกะ
แต่ด้วยความที่มาจากจีน จึงมีการเซ็นเซอร์สูงในประเด็นการเมือง
ถ้าต้องการความรู้ทั่วไปของโลกและข้อมูลอัปเดต แนะนำ Gemma3
ข้อมูลในโพสต์นี้มีโอกาสสูงว่าจะล้าสมัยภายในหนึ่งเดือน ดังนั้นควรดู benchmark ล่าสุดจาก livebench.ai หรือ leaderboard ของ aider.chat
ไม่ใช่แค่โมเดล แต่เครื่องมือ, router, MCP, ไลบรารี และ SDK ก็พัฒนาอยู่ตลอด
ถ้าพัฒนาอยู่คนเดียวและไม่มีเพื่อนหรือกลุ่มรอบตัวที่ช่วยแชร์ข้อมูลกัน ก็อยากได้คำแนะนำเรื่องการหาข้อมูลและติดตามแนวโน้มล่าสุด
แหล่งข้อมูลที่ดีที่สุดคือ HuggingFace
ซีรีส์ Qwen ใช้งานได้ดีรอบด้าน และแนะนำ Qwen/Qwen3-14B-GGUF Q4_K_M
ใช้ VRAM แค่ประมาณ 7-8GB จึงไม่หนักมาก และแนะนำให้ใช้ llama-server หรือ LM Studio
Llama 3.3 ก็เป็นตัวเลือกที่ดี
Devstral ใหญ่มากจนพอจะลองได้แค่โมเดลแบบ quantized
Gemma มักปฏิเสธบ่อย แต่ก็มีประโยชน์สำหรับงานเฉพาะทาง เช่น Medgemma
โมเดล Dolphin แบบ “Uncensored” ของ Eric Hartford และโมเดล abliterated แนะนำถ้าต้องการโมเดลที่ไม่ค่อยปฏิเสธสำหรับงานอย่างการสร้างมุกตลก หรืองานด้านความปลอดภัยและกลาโหม (แต่ไม่จำเป็นสำหรับการใช้งานทั่วไป)
ถ้าอิง dtype แบบ bf16 ให้คูณจำนวนพารามิเตอร์ x2 เพื่อคำนวณขนาดโมเดลแบบไม่ quantize
ถ้าใช้โมเดล quantized แบบ Q4_K_M (4 บิต) ความต้องการ VRAM จะอยู่ราวครึ่งหนึ่งของจำนวนพารามิเตอร์
ควรเผื่อ activation overhead ด้วย จึงแนะนำให้เริ่มทดลองจากโมเดลที่เล็กกว่า 16GB มากพอสมควร
llama-server มี GUI และรองรับการดาวน์โหลดโมเดลด้วยออปชัน
-hfLM Studio ก็สะดวกทั้งการติดตั้งและการจัดการโมเดล
ถ้าต้องการความเร็วตอบสนองสูง ควรเปิดเซิร์ฟเวอร์ครั้งเดียวแล้วให้หลายคำถามใช้โมเดลร่วมกัน (ถ้าโหลดใหม่ทุกครั้งที่ถามจะช้า)
สำหรับเครื่อง 16GB โมเดลอย่าง Q4 quant Mistral Small 3.1 หรือ FP8 Qwen3-14B รันได้ค่อนข้างสบาย
แต่ตามการใช้ VRAM ถ้าต้องการ context length ยาว ๆ Q4 quant Qwen3-14B จะด้อยกว่า FP8 ด้านประสิทธิภาพ แต่มีพื้นที่หน่วยความจำเหลือมากกว่า
Mistral Small รองรับอินพุตภาพด้วย ส่วน Qwen3 เชี่ยวชาญด้านคณิตศาสตร์/การเขียนโค้ดมากกว่า
ไม่แนะนำให้ลดต่ำกว่า Q4 เพราะประสิทธิภาพต่อคุณภาพจะไม่คุ้ม
ถ้าต้องการ context ยาว Q4 quant Qwen3-8B จะเหมาะกว่า และ Qwen3-30B-A3 อาจเกิน 16GB VRAM ไปนิดหน่อย (เพราะโมเดลหนัก ๆ กินเกิน 15GB ตามเกณฑ์ GGUF)
dense model (ใช้ทุกพารามิเตอร์) ให้ประสิทธิภาพต่อพารามิเตอร์ดีกว่า sparse model แต่ช้ากว่า ส่วน GPU ระดับ 5060 ก็ใช้งาน 14B ได้ลื่นพอแล้ว
ถ้าเป็นสถาปัตยกรรม Blackwell โมเดลที่ quantize ด้วย NVFP4 จะเร็วกว่า FP8 แต่คุณภาพจะลดลงเล็กน้อย และ Ollama ยังไม่รองรับ จึงต้องใช้ vLLM แยกต่างหาก
โมเดล NVFP4 แบบ pre-quantized ยังมีให้ใช้น้อย จึงแนะนำให้ quantize เองด้วย llmcompressor เป็นต้น
แนะนำให้เริ่มใช้เครื่องมือเหล่านี้ก็ต่อเมื่อเลือก LLM ที่ต้องการได้แล้วและอยากปรับปรุงประสิทธิภาพเพิ่มเติม
แทบเป็นไปไม่ได้ที่จะมีคำตอบที่เป็นกลางและชัดเจนแบบตายตัวสำหรับ LLM และสิ่งสำคัญที่สุดคือการลองใช้โมเดลล่าสุดหลาย ๆ ตัวกับงานที่มีความหมายสำหรับตัวเองโดยตรง
คุณภาพของผลลัพธ์ต่างกันอย่างมากตามประเภทของงาน
หลายคนมักสงสัยว่าจะประเมินการใช้ VRAM อย่างไร
น่าเสียดายที่ในข้อมูลของโมเดลที่ดาวน์โหลดได้อย่าง gguf มักไม่ได้ระบุความต้องการ VRAM/หน่วยความจำไว้อย่างชัดเจน
ถ้าคิดแบบคร่าวมาก ๆ ก็ให้มองจำนวนพารามิเตอร์ (หน่วย B) เป็นหน่วยความจำ GB ได้เลย
ตัวอย่างตาม quantization:
FP16 = 2 x 8GB = 16GB (โมเดล 8B)
Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
ของจริงอาจต่างออกไปเล็กน้อย แต่โดยรวมไม่หนีมาก และยังต้องเผื่อหน่วยความจำเพิ่มสำหรับ context length ด้วย
หลักการคือจำนวนค่า float x จำนวนบิตของชนิดข้อมูล (4, 8, 16...)
นอกจาก quantization แล้ว ถ้าอยากคำนวณให้แม่นขึ้นรวมถึง KV cache ด้วย แนะนำให้ใช้ เครื่องคำนวณ VRAM