whichllm - ค้นหา Local LLM ที่รันได้จริงและให้ประสิทธิภาพดีที่สุดบนฮาร์ดแวร์ของคุณ
(github.com/Andyyyy64)- เครื่องมือ CLI ที่แนะนำ Local LLM ให้เหมาะกับฮาร์ดแวร์ของผู้ใช้โดยอัตโนมัติ อิงจากเบนช์มาร์กที่วัดได้จริง ไม่ใช่จำนวนพารามิเตอร์
- ตรวจจับ GPU/CPU/RAM อัตโนมัติ และแสดง อันดับโมเดลชั้นนำ จากโมเดลบน HuggingFace ที่เหมาะกับระบบ
- รองรับทั้ง NVIDIA, AMD, Apple Silicon และ CPU-only
- เป้าหมายหลักคือไม่ได้เลือกโมเดลที่ใหญ่ที่สุดเท่าที่ VRAM จะรองรับ แต่เลือก โมเดลที่ดีที่สุดจริงในกลุ่มนั้น
- ตัวอย่าง: เมื่อจำลอง RTX 4090 แม้จะใส่โมเดล 32B ได้ ก็ยังแนะนำโมเดลรุ่นใหม่ 27B (Qwen3.6-27B) เป็นอันดับ 1
- การให้คะแนนแบบรวมหลายเบนช์มาร์ก: รวม LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO และ Open LLM Leaderboard เพื่อคำนวณคะแนน 0–100
- รับรู้ความใหม่ของโมเดล (Recency-aware): หักคะแนนลีดเดอร์บอร์ดเก่าตามสายตระกูลของโมเดล เพื่อป้องกันไม่ให้โมเดลปี 2024 แซงโมเดลรุ่นปัจจุบันด้วยคะแนนจากเวอร์ชันเก่า
- ระดับหลักฐาน 5 ขั้น - ติดแท็ก
direct/variant/base_model/line_interp/self_reportedแล้วลดทอนความน่าเชื่อถือตามระดับ- ป้องกันทั้งการรายงานผลเองแบบไม่ตรงความจริงโดยผู้อัปโหลด และการสืบทอดคะแนนข้ามตระกูลที่ฟอร์กขนาดเล็กพยายามยืมคะแนนจากเบสขนาดใหญ่
- หากจำนวนพารามิเตอร์ต่างจาก dominant member ของแฟมิลีเกิน 2 เท่า จะไม่อนุญาตให้สืบทอดคะแนน
- การประเมิน VRAM/ความเร็วแบบรับรู้อาร์ชิเทกเจอร์ - VRAM คิดจากน้ำหนัก + GQA KV cache + activation + overhead ส่วนความเร็วใช้โมเดลแบบ bandwidth-bound โดยแยก MoE active กับ total และสะท้อนทั้ง unified memory กับการ offload บางส่วนผ่าน PCIe
- รองรับ เวิร์กโฟลว์คำสั่งเดียว ที่สามารถดาวน์โหลดโมเดลและเริ่มแชตได้ทันทีด้วย
whichllm run- ใช้
uvเพื่อสร้างสภาพแวดล้อมแบบแยก ติดตั้ง dependency ดาวน์โหลดโมเดล และเปิดแชตแบบโต้ตอบให้อัตโนมัติ - รองรับทุกฟอร์แมต: GGUF / AWQ / GPTQ / FP16 / BF16
- ใช้
- คำสั่งวางแผนฮาร์ดแวร์
whichllm --gpu "RTX 5090"- จำลอง GPU สมมติเพื่อตรวจสอบก่อนซื้อwhichllm plan "llama 3 70b"- ย้อนดูว่าโมเดลที่ระบุต้องใช้ GPU แบบใดwhichllm upgrade "RTX 4090" "RTX 5090" "H100"- เปรียบเทียบเครื่องปัจจุบันกับ GPU ตัวเลือก
- เชื่อมต่อกับ Ollama: สามารถจัดเป็น pipeline ได้ในรูปแบบ
whichllm --top 1 --json | jq -r '.models[0].model_id' - แสดงโค้ดสไนเป็ต:
whichllm snippet "qwen 7b"ให้โค้ด Python ที่คัดลอกไปใช้ได้ทันที ตั้งแต่การเรียกllama_cpp.Llama.from_pretrainedไปจนถึงแชตครบลูป - ไลเซนส์ MIT
1 ความคิดเห็น
ผมขอแนะนำ 5 ตัวนี้ครับ มีถึง 3 ตัวที่เป็น Qwen เลย
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B