ใช้ Open LLM และผู้ช่วยเขียนโค้ดแบบเปิดบนเครื่องตัวเองอยู่ไหม? มาแชร์สภาพแวดล้อมกัน
(news.ycombinator.com)- เธรด Ask HN ที่ถามผู้ใช้ Hacker News ว่า พวกเขาใช้ Open LLM และผู้ช่วยเขียนโค้ดแบบเปิดบนเครื่องตัวเองอย่างไร บนฮาร์ดแวร์แล็ปท็อปแบบไหน
- ใช้โมเดลอะไรบ้าง (เช่น Ollama, LM Studio ฯลฯ) และใช้ผู้ช่วยเขียนโค้ด/โซลูชันแบบบูรณาการโอเพนซอร์สอะไรบ้าง (เช่น ปลั๊กอิน VS Code)
- ใช้ฮาร์ดแวร์โน้ตบุ๊กแบบไหน (CPU, GPU/NPU, หน่วยความจำ, GPU แยกหรือ GPU แบบรวม, OS) และได้ประสิทธิภาพแบบใดในเวิร์กโฟลว์จริง
- ใช้กับงานประเภทไหนบ้าง (เติมโค้ด, รีแฟกเตอร์, ดีบัก, รีวิวโค้ด)? และมีความเสถียรแค่ไหน (อะไรที่ทำงานได้ดีและอะไรที่ยังขาดอยู่)
-
1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- ข้อดี
- ด้วย unified memory ของ Mac ทำให้ Qwen3-Coder-30B-A3B, gpt-oss-20b, Gemma 27B รันแบบโลคัลได้ตรง ๆ จนทำเวิร์กโฟลว์แนว “ดึงโค้ดมาอ่าน → สรุป → แก้ไขเล็กน้อย” ได้
- แค่เปิด LM Studio API หรือ Ollama serve ไว้ VS Code Continue.dev, Zed, JetBrains ก็เชื่อมได้ทันที ให้ประสบการณ์ใช้งานคล้าย Claude Code พอสมควร
- ความหน่วงต่ำแบบฉบับ Mac ทำให้ถ้าได้ราว 50~80 tok/s การช่วยเติมโค้ดและสร้างคอมเมนต์ก็ยังไม่อืดนัก
- ใช้งานได้แม้บนเครื่องบิน/รถไฟ/ออฟไลน์ จึงเหมาะกับการทำให้ “โค้ดบริษัทไม่ต้องออกไปข้างนอก”
- ข้อเสีย
- ตั้งแต่โมเดลเกิน 20B ขึ้นไปจะเริ่มมีปัญหา ความร้อน + เสียงพัดลม และแม้เป็น M4 Max 128GB ก็ยังช้าหรือชนขีดจำกัดเมื่อไปถึง 120B
- สถานการณ์แบบเอเจนต์ที่ “ลุย bash-in-a-loop จนจบเหมือน Claude 4.5 Sonnet” ยังทำได้ไม่ดีนัก
- MacBook ระดับ 24GB, 32GB จัดสรร VRAM ได้น้อย สุดท้ายต้องลดลงมาใช้ระดับ 7B~12B และถ้าขยายคอนเท็กซ์มากก็จะช้าทันที
- ข้อดี
-
2) เดสก์ท็อป/เวิร์กสเตชันติด RTX 3090·4090·Pro 6000 แล้วใช้โน้ตบุ๊กเป็น thin client
- ข้อดี
- ทดลองได้ครบทั้ง llama.cpp / vLLM / Ollama และแม้แต่ gpt-oss-120B ก็ยัง “รันได้จริงแม้จะช้า”
- เปิด Continue หรือ llama-vscode ใน VS Code บนโน้ตบุ๊ก แล้วให้โมเดลไปรันอนุมานบนเครื่องที่บ้าน จึงแทบไม่มีภาระเรื่องแบตเตอรี่หรือความร้อนบนโน้ตบุ๊ก
- อ้างอิงจาก RTX 3090 24GB, gpt-oss-20B, Qwen2.5/3 Coder 14~30B ให้ความเร็วโทเค็นระดับใช้งานจริง จึงพอสำหรับ autocomplete + รีแฟกเตอร์สั้น ๆ
- มีคนใช้รูปแบบวาง Open WebUI + Ollama ไว้ที่บ้าน แล้วเชื่อมผ่าน VPN/Tailscale กันมาก ทำให้รักษาสภาพแวดล้อมส่วนตัวได้แม้อยู่ระยะไกล
- ข้อเสีย
- ถ้า VRAM ของ GPU มีไม่ถึง 24GB การรัน 120B ต้อง quantize หนักมากจนคุณภาพลดลงอย่างเห็นได้ชัด
- vLLM ประสิทธิภาพดี แต่ติดตั้งและบิลด์ยุ่งยาก จนมีเสียงบอกกันว่าต้อง “ลองรันใหม่ด้วย runner เวอร์ชันอัปเดต” ทำให้ภาระดูแลรักษาสูง
- แทบไม่มีความพกพา ดังนั้นถ้าต้องการ “ให้จบในโน้ตบุ๊กเครื่องเดียวจริง ๆ” โครงสร้างแบบนี้ก็ไม่ตอบโจทย์
- ข้อดี
-
3) เซ็ตอัปที่เน้น gpt-oss-120B (Aider, Codex, เอเจนต์โลคัล)
- ข้อดี
- หลายคนบอกว่า “จากที่เคยใช้แบบโลคัลมา ตัวนี้ใกล้ GPT-5 ที่สุด” จนสะท้อนว่า ความแม่นยำในงานเขียนโค้ด อยู่ในระดับสูง
- เชื่อมกับผู้ช่วยเขียนโค้ดแบบเปิดอย่าง Aider, Codex, roocode แล้วทดลองให้ทำ รีวิว → แก้ไข → ทดสอบ → คอมมิต ในรอบเดียวได้จริง
- มีการแชร์เทคนิคใช้ CPU+GPU แบบผสม บน llama.cpp เพื่อฝืนรันแม้มี VRAM แค่ 8GB ทำให้ข้อกำหนดฮาร์ดแวร์ยืดหยุ่นกว่าที่คิด
- ข้อเสีย
- ปัญหาคือความเร็ว งานชุด 50 ข้อเดียวกันที่ ChatGPT ทำเสร็จใน 6 นาที 120B อาจใช้เวลากัดทีละข้อเกิน 1 ชั่วโมง จึงเหมาะกับคนที่ “ยอมรอได้”
- ในเครื่องมืออย่าง Codex ต้อง ฮาร์ดโค้ด inference parameters เพื่อไม่ให้มันหยุดกลางทาง และต้องเขียน AGENTS.md ค่อนข้างหนักถึงจะทำงานได้เหมือนคน
- ถ้าใช้แค่โน้ตบุ๊กล้วน ๆ ก็รันต่อเนื่องยากเพราะข้อจำกัดเรื่องความร้อน พลังงาน และหน่วยความจำ จึงควรมองว่าเป็นการ “ใช้โน้ตบุ๊กเชื่อม GPU ระยะไกล” มากกว่า
- ข้อดี
-
4) โน้ตบุ๊กแรมใหญ่ เช่น AMD Strix Halo / Ryzen AI / Framework 128GB + llama.cpp/Continue.dev
- ข้อดี
- ถ้ามี RAM 128GB ก็ใช้ Qwen3 Coder 30B ได้จริง และทำแบบไฮบริดโดยวางบางเลเยอร์ไว้บน GPU/NPU แล้วให้ส่วนที่เหลือวิ่งบน RAM ได้
- หลายคนมองว่านี่เป็นตัวเลือกที่ใช้งานได้จริงในสถานการณ์อย่าง “โค้ดห้ามออกนอกบริษัท” หรือ “ใช้ AMD ซึ่งฝั่งไดรเวอร์คลาวด์ยังไม่ค่อยดี”
- โครงสร้างแบบให้ เซิร์ฟเวอร์ llama.cpp แบบง่าย ๆ อย่าง lemonade-server รันอัตโนมัติตอนบูต แล้วให้เอดิเตอร์เชื่อมผ่านเครือข่าย ใช้งานได้ผลดี
- ข้อเสีย
- มีรายงานว่าเรื่อง ประหยัดพลังงาน/กล้อง/ไดรเวอร์ บน Linux ยังไม่ค่อยลื่น และบางกรณีก็ต้องรอเคอร์เนล 6.18
- ประสิทธิภาพ NPU ยังไม่ถึงระดับ NVIDIA ทำให้เอเจนต์ระดับ frontier แทบเป็นไปไม่ได้ และสุดท้ายก็หยุดอยู่ที่บทบาท “ผู้ช่วย” ขนาด 20~30B
- ข้อมูลฝั่ง AMD ต้องไล่หาตาม GitHub repo หรือฟอรัม ทำให้ความหนาแน่นของข้อมูลยังน้อยกว่าฝั่ง Mac และ NVIDIA
- ข้อดี
-
5) โน้ตบุ๊กทั่วไป 16~32GB (MacBook Air, M2/M3 Pro RAM ต่ำ) + โมเดล 7B~12B สำหรับ FIM autocomplete อย่างเดียว
- ข้อดี
- แค่ใช้ qwen2.5-coder:7b, mistral 7b instruct, gemma3:12b ก็พอช่วยงานแบบ “เขียนบรรทัดนี้ต่อให้หน่อย”, “SQL syntax ตรงนี้คืออะไรนะ” ได้ทันที
- ถ้าต่อกับ llama-vscode plugin หรือ Continue.dev ต่อให้อินเทอร์เน็ตหลุด autocomplete ก็ยังทำงานต่อได้ จังหวะการทำงานไม่สะดุด
- ภาระฮาร์ดแวร์ต่ำ จึงแทบไม่มีปัญหาความร้อนและเสียงพัดลม แบตเตอรี่ก็ไม่หมดเร็ว
- ข้อเสีย
- พอคอนเท็กซ์ยาวขึ้นนิดเดียว สัดส่วนคำตอบมั่วก็เพิ่มทันที และงานอย่างรีแฟกเตอร์หรือสร้างโค้ดทดสอบที่ต้อง “เข้าใจหลายไฟล์พร้อมกัน” แทบทำไม่ได้
- คนส่วนใหญ่ย้ำชัดว่า “นี่ไม่ใช่ตัวแทนของโมเดลคลาวด์ แต่เป็นเครื่องมือสำหรับ autocomplete โดยเฉพาะ”
- เพราะต้องบีบโมเดลลงเป็น 4-bit ค่อนข้างหนัก ตัวเลือกโมเดลจึงมีไม่กว้างนัก
- ข้อดี
-
6) เซ็ตอัปออฟไลน์เต็มรูปแบบ/เน้นความเป็นส่วนตัว (Ollama + Open WebUI + VPN)
- ข้อดี
- ถ้ามี Mac Studio M4 Max 128GB หรือเดสก์ท็อปสักเครื่องที่บ้าน แล้วเปิด Ollama + Open WebUI ไว้ ข้างนอกจะใช้โน้ตบุ๊กหรือมือถือเชื่อมผ่าน VPN ก็ยังถือว่าเป็นโลคัลทั้งหมด
- คนที่ใช้โครงสร้างนี้มองว่าจุดเด่นคือ “ตอนนี้แทบไม่ใช้ ChatGPT แล้ว” และ “เวอร์ชันไม่เปลี่ยน จึงไม่ทำให้พรอมป์ต์ที่จูนไว้พัง”
- เมื่อในองค์กรมีข้อกำหนดว่า “โค้ดทั้งหมดต้องไม่ถูกนำไปใช้ฝึก” นี่คือโครงสร้างที่อธิบายได้ง่ายที่สุด
- ข้อเสีย
- ต้องอัปเกรดหรือเปลี่ยนโมเดลเอง จึงไม่มีความสะดวกแบบคลาวด์ที่ “ฉลาดขึ้นเอง”
- ถ้า GPU อ่อน โมเดลเกิน 20B ก็จะช้าทันที สุดท้ายต้องเพิ่มฮาร์ดแวร์ และพอถึงจุดนั้นก็มักเริ่มคิดว่า “ทำไมไม่ใช้คลาวด์ไปเลย?”
- ข้อดี
-
7) ข้อสรุปร่วมที่เห็นตรงกัน
- ถ้าเป็น “โน้ตบุ๊กล้วน” ตอนนี้ยังแทน Claude Code / GPT-5 + agent ได้ยาก และโลคัลยังเหมาะที่สุดกับงาน สร้างโค้ดสั้น ๆ, ช่วยอธิบาย, สรุป, autocomplete
- ดังนั้นรูปแบบที่เจอบ่อยจึงเป็น “โน้ตบุ๊ก ↔ เครื่องใหญ่ที่บ้าน” หรือ “Mac 128GB เอาไว้รันแค่ 20~30B ให้เร็ว”
- ถึงอย่างนั้น ทุกคนก็พูดคล้ายกันว่า ถ้าต้องการ ความเป็นส่วนตัว + ความหน่วงต่ำมาก + เวอร์ชันไม่เปลี่ยน ตอนนี้คำตอบก็ยังเป็นโลคัล
6 ความคิดเห็น
ผมคิดว่าการตั้งค่า bearer token และใช้ SSH tunneling น่าจะดีกว่าการใช้ VPN
ผมคิดว่าการเริ่ม self-host LLM ตอนนี้ ตลอด 5 ปีข้างหน้ายังจะอยู่ในสภาพที่ต้นทุนลงทุนล่วงหน้าสูงเกินไปจนไม่คุ้มทุนอยู่ต่อไปครับ วางแผนว่าจะกลับมาคิดอีกทีในอีก 3~5 ปีข้างหน้า เมื่อมีฮาร์ดแวร์ที่เร็วพอในระดับเหมาะสมสำหรับงานเติมโค้ดอัตโนมัติโดยเฉพาะ และเริ่มมีความได้เปรียบด้านราคา
ชุดการตั้งค่าที่เคยพิจารณา
ความเห็นจาก Hacker News
ซื้อ Dell Precision 3620 Tower i7-7700 มือสองมาเพราะอยากลองใช้งาน AI ด้วยตัวเอง
อัปเกรด RAM และเปลี่ยนพาวเวอร์ซัพพลายเพื่อใส่ GPU RTX 3060
ติดตั้ง Ubuntu Server แล้วตั้งเป็น โหนดในคลัสเตอร์ k3s ที่บ้าน กำลังรัน Ollama และ OpenWebUI
ใช้หลัก ๆ กับ การแท็กและสรุปด้วย AI ของ Karakeep แต่ก็เอาไปใช้วิเคราะห์กล้องหน้าบ้านเพื่อตรวจจับรถส่งพัสดุด้วยโค้ด Python ด้วย
รัน Ollama แบบใช้ CPU บน Dell Precision T710 (Xeon E6320, RAM 120GB, RAID5 SSD 240TB) โดยไม่มี GPU
กำลังทำโปรเจ็กต์ที่ใช้ RAG ทำดัชนีกฎหมายเลือกตั้งของทั้ง 50 รัฐเพื่อทำให้เห็นภาพ ปัญหาความไม่ตรงกันของคำศัพท์และอาการหลอน
เป้าหมายคือระบุ ช่องว่างด้านความสมบูรณ์ของกระบวนการเลือกตั้ง
ดู mindmap ที่เกี่ยวข้องได้ที่ Election Frauds v1.4 Mindmap PDF
เขียนโค้ดด้วย local LLM อยู่ แต่บนโน้ตบุ๊กนั้นนึกภาพไม่ออกเลย
ใช้งานบนเซิร์ฟเวอร์ GPU โดยสลับโมเดลด้วย llama.cpp + llama-swap
ชุดที่พอใจที่สุดคือ Aider + gpt-oss-120b
อาจทำได้บน Ryzen AI Max+ RAM 128GB แต่ ฮาร์ดแวร์ที่ไม่ใช่ NVIDIA ช้ามาก
และยังเลือกใช้ ผู้ให้บริการที่ไม่เก็บข้อมูล ผ่าน OpenRouter ได้ด้วย
แต่ GPT5 หรือ Claude ก็ยังเร็วและถูกกว่าการรันแบบโลคัลมาก
ChatGPT ได้ 46/50 ใน 6 นาที ส่วน gpt-oss-120b ได้ 47/50 ใน 1 ชั่วโมง
รันบนเครื่อง i7 + RAM 64GB + GPU VRAM 8GB
ถ้าอยากรัน local code agent บน Mac ให้ทำแบบนี้
npm install -g @openai/codexbrew install ollama; ollama serveollama pull gpt-oss:20bcodex --oss -m gpt-oss:20bทำงานได้โดยไม่ต้องใช้อินเทอร์เน็ต และต้องใช้ Mac รุ่น M1 ขึ้นไป + หน่วยความจำ GPU 24GB
โมเดล 120b มีประสิทธิภาพดีกว่า 20b อยู่ 1.5 เท่า แต่สเปกที่ต้องการสูงกว่า 5 เท่า
กำลังรัน Qwen3-Coder-30B-A3B Q4 quant ด้วย llama.cpp บน MacBook Pro 64GB
ใน VSCode ใช้ continue.dev และตั้ง system prompt ให้สั้น
ได้ความเร็วสร้าง 50 โทเคนต่อวินาที และประมวลผล 550 โทเคนต่อวินาที
สำหรับงานสั้นและชัดเจน คุณภาพ ใกล้เคียงกับ frontier model
พอใจเพราะเร็วและเสถียรแม้อยู่ในสภาพแวดล้อมออฟไลน์
งานที่ซับซ้อนกว่านี้จะใช้ Claude หรือ Deepseek API
ถ้าจะซื้อ Mac แนะนำให้เลือก รุ่น Pro ขึ้นไป
Air ไม่มีพัดลมจึง จัดการความร้อนไม่ได้ดี และคิดว่า Studio ดีกว่า Mac mini
แอป TG Pro สามารถปรับพัดลมให้ตอบสนองไวขึ้นได้ (ประมาณ $20)
รัน GPT OSS 20B บน MacBook Pro M4 Pro + RAM 24GB แต่ context window เล็ก
ถ้าเป็นรุ่น 128GB ก็น่าจะเขียนโค้ดออฟไลน์ได้ทั้งวัน
ใช้งาน Apple M4 Max 128GB ร่วมกับ GPD Win 4 (Ubuntu 24.04) ผ่าน USB-C
ผสม Claude Code, RA.Aid และ llama.cpp เพื่อกระจายงานด้วย Agent Organizer
Claude ช่วย ทำงานอัตโนมัติตั้งแต่การออกแบบสถาปัตยกรรมไปจนถึง code review
ถ้าอยากดูเวิร์กสเตชัน LLM แนะนำ ช่อง YouTube ของ Alex Ziskind (@AZisk)
มีรีวิว เวิร์กสเตชันสำหรับ local LLM หลากหลายแบบ
การนำเสนอดีและคำแนะนำก็ใช้ได้จริง
ใช้ LMStudio และ Ollama เป็นหลักบน MacBook Pro M4 Max 128GB
โมเดลที่ใช้คือ qwen3-coder-30b A3B Instruct 8-bit MLX และ gpt-oss-120b-MXFP4-Q8
แม้จะมีข้อจำกัดกับการสร้างโค้ดขนาดใหญ่ แต่ก็เพียงพอสำหรับ สรุปและทำเอกสารรีโพแบบโลคัล
คอมมูนิตี้ที่เกี่ยวข้องก็ยังคึกคัก
สำหรับการสร้าง README ชอบใช้ gemma3-27b-it-qat กับ gpt-oss-120b
กำลังรัน Qwen3:32b ผ่าน CLI บน MacBook Pro M1 Pro 32GB + Asahi Linux
ใช้ขอความช่วยเหลือเรื่อง ARMv8 assembly หรือเรื่องที่เกี่ยวกับ SoC
ความเร็วช้ากว่าความเร็วอ่านเล็กน้อย จึงถือว่าใช้งานได้ดีพอ
ได้ยินว่า Qwen3-coder เร็วกว่าเลยเริ่มสนใจ
ชอบ สภาพแวดล้อมแบบโลคัลเต็มรูปแบบ โดยไม่มีคลาวด์หรือการเชื่อมต่อ agent
เพราะ Ollama เริ่มห่างจากแนวทางออฟไลน์เป็นหลัก จึงกำลังจะ ย้ายไปใช้ llama.cpp
กำลังกังวลว่าจะใช้โมเดลของ Ollama เดิมได้ไหม เพราะฟอร์แมตโมเดลต่างกัน
[ข้อควรระวัง] บนลินุกซ์กินไฟมาก จึงต้องเสียบปลั๊กใช้งานเสมอ
งานทั่วไปอาจฉลาดน้อยกว่า แต่ คุ้มค่ามากสำหรับงานที่เน้นการเขียนโค้ด
พอไล่อ่านไปเรื่อยๆ..... ก็เริ่มคิดว่าอาจมีความต้องการ DGX SPARK มากกว่าที่คาดไว้เหมือนกันนะ? ตอนแรกผมคิดว่า ของนั้นความคุ้มค่าห่วยแตก จะซื้อไปทำไม! แต่
เนื่องจากนโยบายความปลอดภัยภายในบริษัท จึงไม่ได้ใช้ external LLM API เลยแม้แต่น้อย และกำลังใช้งานสิ่งที่ฝ่ายดูแลคลาวด์ภายในบริษัทจัดเตรียมให้ในรูปแบบ gpt oss บนพื้นฐานของ vllm อยู่
จะว่าเป็นการใช้งานแบบโลคัลก็ค่อนข้างกำกวมนิดหน่อยนะครับ