whichllm - ค้นหา Local LLM ที่รันได้จริงและให้ประสิทธิภาพดีที่สุดบนฮาร์ดแวร์ของคุณ

xguru · 2026-05-18T10:06:01+09:00

เครื่องมือ CLI ที่แนะนำ Local LLM ให้เหมาะกับฮาร์ดแวร์ของผู้ใช้โดยอัตโนมัติ อิงจากเบนช์มาร์กที่วัดได้จริง ไม่ใช่จำนวนพารามิเตอร์ ตรวจจับ GPU/CPU/RAM อัตโนมัติ และแสดง อันดับโมเดลชั้นนำ จากโมเดลบน HuggingFace ที่เหมาะกับระบบ รองรับทั้ง NVIDIA, AMD, Apple Silicon และ CPU-only เป้าหมายหลักคือไม่ได้เลือกโมเดลที่ใหญ่ที่สุดเท่าที่ VRAM จะรองรับ แต่เลือก โมเดลที่ดีที่สุดจริงในกลุ่มนั้น ตัวอย่าง: เมื่อจำลอง RTX 4090 แม้จะใส่โมเดล 32B ได้ ก็ยังแนะนำโมเดลรุ่นใหม่ 27B (Qwen3.6-27B) เป็นอันดับ 1 การให้คะแนนแบบรวมหลายเบนช์มาร์ก: รวม LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO และ Open LLM Leaderboard เพื่อคำนวณคะแนน 0–100 รับรู้ความใหม่ของโมเดล (Recency-aware): หักคะแนนลีดเดอร์บอร์ดเก่าตามสายตระกูลของโมเดล เพื่อป้องกันไม่ให้โมเดลปี 2024 แซงโมเดลรุ่นปัจจุบันด้วยคะแนนจากเวอร์ชันเก่า ระดับหลักฐาน 5 ขั้น - ติดแท็ก direct / variant / base_model / line_interp / self_reported แล้วลดทอนความน่าเชื่อถือตามระดับ ป้องกันทั้งการรายงานผลเองแบบไม่ตรงความจริงโดยผู้อัปโหลด และการสืบทอดคะแนนข้ามตระกูลที่ฟอร์กขนาดเล็กพยายามยืมคะแนนจากเบสขนาดใหญ่ หากจำนวนพารามิเตอร์ต่างจาก dominant member ของแฟมิลีเกิน 2 เท่า จะไม่อนุญาตให้สืบทอดคะแนน การประเมิน VRAM/ความเร็วแบบรับรู้อาร์ชิเทกเจอร์ - VRAM คิดจากน้ำหนัก + GQA KV cache + activation + overhead ส่วนความเร็วใช้โมเดลแบบ bandwidth-bound โดยแยก MoE active กับ total และสะท้อนทั้ง unified memory กับการ offload บางส่วนผ่าน PCIe รองรับ เวิร์กโฟลว์คำสั่งเดียว ที่สามารถดาวน์โหลดโมเดลและเริ่มแชตได้ทันทีด้วย whichllm run ใช้ uv เพื่อสร้างสภาพแวดล้อมแบบแยก ติดตั้ง dependency ดาวน์โหลดโมเดล และเปิดแชตแบบโต้ตอบให้อัตโนมัติ รองรับทุกฟอร์แมต: GGUF / AWQ / GPTQ / FP16 / BF16 คำสั่งวางแผนฮาร์ดแวร์ whichllm --gpu "RTX 5090" - จำลอง GPU สมมติเพื่อตรวจสอบก่อนซื้อ whichllm plan "llama 3 70b" - ย้อนดูว่าโมเดลที่ระบุต้องใช้ GPU แบบใด whichllm upgrade "RTX 4090" "RTX 5090" "H100" - เปรียบเทียบเครื่องปัจจุบันกับ GPU ตัวเลือก เชื่อมต่อกับ Ollama: สามารถจัดเป็น pipeline ได้ในรูปแบบ whichllm --top 1 --json | jq -r '.models[0].model_id' แสดงโค้ดสไนเป็ต: whichllm snippet "qwen 7b" ให้โค้ด Python ที่คัดลอกไปใช้ได้ทันที ตั้งแต่การเรียก llama_cpp.Llama.from_pretrained ไปจนถึงแชตครบลูป ไลเซนส์ MIT

(github.com/Andyyyy64)

71 คะแนน โดย xguru 2026-05-18 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

เครื่องมือ CLI ที่แนะนำ Local LLM ให้เหมาะกับฮาร์ดแวร์ของผู้ใช้โดยอัตโนมัติ อิงจากเบนช์มาร์กที่วัดได้จริง ไม่ใช่จำนวนพารามิเตอร์
ตรวจจับ GPU/CPU/RAM อัตโนมัติ และแสดง อันดับโมเดลชั้นนำ จากโมเดลบน HuggingFace ที่เหมาะกับระบบ
- รองรับทั้ง NVIDIA, AMD, Apple Silicon และ CPU-only
เป้าหมายหลักคือไม่ได้เลือกโมเดลที่ใหญ่ที่สุดเท่าที่ VRAM จะรองรับ แต่เลือก โมเดลที่ดีที่สุดจริงในกลุ่มนั้น
- ตัวอย่าง: เมื่อจำลอง RTX 4090 แม้จะใส่โมเดล 32B ได้ ก็ยังแนะนำโมเดลรุ่นใหม่ 27B (Qwen3.6-27B) เป็นอันดับ 1
การให้คะแนนแบบรวมหลายเบนช์มาร์ก: รวม LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO และ Open LLM Leaderboard เพื่อคำนวณคะแนน 0–100
รับรู้ความใหม่ของโมเดล (Recency-aware): หักคะแนนลีดเดอร์บอร์ดเก่าตามสายตระกูลของโมเดล เพื่อป้องกันไม่ให้โมเดลปี 2024 แซงโมเดลรุ่นปัจจุบันด้วยคะแนนจากเวอร์ชันเก่า
ระดับหลักฐาน 5 ขั้น - ติดแท็ก direct / variant / base_model / line_interp / self_reported แล้วลดทอนความน่าเชื่อถือตามระดับ
- ป้องกันทั้งการรายงานผลเองแบบไม่ตรงความจริงโดยผู้อัปโหลด และการสืบทอดคะแนนข้ามตระกูลที่ฟอร์กขนาดเล็กพยายามยืมคะแนนจากเบสขนาดใหญ่
- หากจำนวนพารามิเตอร์ต่างจาก dominant member ของแฟมิลีเกิน 2 เท่า จะไม่อนุญาตให้สืบทอดคะแนน
การประเมิน VRAM/ความเร็วแบบรับรู้อาร์ชิเทกเจอร์ - VRAM คิดจากน้ำหนัก + GQA KV cache + activation + overhead ส่วนความเร็วใช้โมเดลแบบ bandwidth-bound โดยแยก MoE active กับ total และสะท้อนทั้ง unified memory กับการ offload บางส่วนผ่าน PCIe
รองรับ เวิร์กโฟลว์คำสั่งเดียว ที่สามารถดาวน์โหลดโมเดลและเริ่มแชตได้ทันทีด้วย whichllm run
- ใช้ uv เพื่อสร้างสภาพแวดล้อมแบบแยก ติดตั้ง dependency ดาวน์โหลดโมเดล และเปิดแชตแบบโต้ตอบให้อัตโนมัติ
- รองรับทุกฟอร์แมต: GGUF / AWQ / GPTQ / FP16 / BF16
คำสั่งวางแผนฮาร์ดแวร์
- whichllm --gpu "RTX 5090" - จำลอง GPU สมมติเพื่อตรวจสอบก่อนซื้อ
- whichllm plan "llama 3 70b" - ย้อนดูว่าโมเดลที่ระบุต้องใช้ GPU แบบใด
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - เปรียบเทียบเครื่องปัจจุบันกับ GPU ตัวเลือก
เชื่อมต่อกับ Ollama: สามารถจัดเป็น pipeline ได้ในรูปแบบ whichllm --top 1 --json | jq -r '.models[0].model_id'
แสดงโค้ดสไนเป็ต: whichllm snippet "qwen 7b" ให้โค้ด Python ที่คัดลอกไปใช้ได้ทันที ตั้งแต่การเรียก llama_cpp.Llama.from_pretrained ไปจนถึงแชตครบลูป
ไลเซนส์ MIT

3 ความคิดเห็น

xguru 2026-05-18

ผมขอแนะนำ 5 ตัวนี้ครับ มีถึง 3 ตัวที่เป็น Qwen เลย

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 29 일 전

ผมใช้เว็บไซต์ https://www.canirun.ai/ อยู่แล้ว แต่คงต้องลองอันนี้ดูสักครั้งครับ

popopo 29 일 전

╭────────────────────────────────────────────────────── ข้อมูลฮาร์ดแวร์ ──────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — shared memory — BW: 256 GB/s         │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cores (AVX2, AVX-512)                                                      │  
│ RAM: 117.5 GB                                                                                                              │  
│ Disk free: 174.1 GB                                                                                                        │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               โมเดลที่แนะนำ  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  ความมั่นใจของตัวเลือกอันดับต้น: สูง (benchmark โดยตรง, ช่องว่าง +2.9)  
  อ้างอิง benchmark: curated snapshot 2026-05; รวม live AA / LiveBench / Aider เมื่อเข้าถึงได้

whichllm - ค้นหา Local LLM ที่รันได้จริงและให้ประสิทธิภาพดีที่สุดบนฮาร์ดแวร์ของคุณ

บทความที่เกี่ยวข้อง

3 ความคิดเห็น