- อธิบายวิธีรัน LLM แบบรันในเครื่อง บน macOS และเครื่องมือที่แนะนำ
- Local LLM คือ โมเดลภาษาปัญญาประดิษฐ์ ที่สามารถรันบนคอมพิวเตอร์ส่วนตัวได้ ช่วยรักษาความเป็นส่วนตัวของข้อมูลและเปิดโอกาสให้ทดลองสำรวจเทคโนโลยีใหม่ ๆ
- สามารถใช้โมเดล open-weight ได้หลากหลาย เหมาะกับงานอย่าง การสรุปข้อความ และการบันทึกส่วนตัว แต่ไม่ได้มีความคิดสร้างสรรค์หรือความสามารถในการคิดเอง
- เครื่องมือหลักสองตัวที่รันได้บน macOS คือ llama.cpp และ LM Studio โดยตัวแรกเป็นโอเพนซอร์ส ส่วนตัวหลังมี UI ที่ใช้งานง่าย
- เวลาเลือกโมเดลควรพิจารณา ขนาดหน่วยความจำ, runtime, ระดับการ quantization รวมถึงความสามารถด้าน vision และ reasoning
- การรัน Local LLM ช่วยทั้งในด้าน การปกป้องความเป็นส่วนตัว และการตอบสนองความอยากรู้อยากเห็นทางเทคนิค โดยโมเดลขนาดเล็กก็ยังมีคุณค่าเชิงทดลองในฐานะทางเลือกของโมเดลขนาดใหญ่
บทนำ: มุมมองส่วนตัวต่อ LLM และวิธีใช้งาน
- บทความนี้พูดถึงประสบการณ์การติดตั้งและทดลองใช้ Local LLM (Local Large Language Model) บน macOS ด้วยตัวเอง
- ผู้เขียนค่อนข้างสงสัยในตัว LLM แต่ชอบทดลองเทคโนโลยีใหม่ ๆ จึงลองดาวน์โหลดมาใช้ด้วยตัวเอง
- มุมมองต่อ LLM อยู่กึ่งกลางระหว่างการมองว่าเป็นเพียง ระบบเติมคำอัตโนมัติขั้นสูง กับการมองว่าเป็นสิ่งมีชีวิตที่มี อารมณ์และสิทธิ
- ในความเป็นจริงมันอาศัย การทำนายคำถัดไป เป็นพื้นฐาน แต่ก็แสดง พฤติกรรมซับซ้อนที่ไม่ได้ตั้งใจให้เกิด ได้
- มันไม่มี ความคิดสร้างสรรค์หรือสำนึกในตนเอง แม้ในอนาคตจะอาจมีเครื่องจักรที่ก้าวหน้ากว่านี้ แต่เทคโนโลยีปัจจุบันยังไปไม่ถึงระดับนั้น
ตัวอย่างการใช้งานหลักของ LLM
- มีประโยชน์มากในงานอย่างการสรุปข้อความ การให้ข้อมูลจากอินเทอร์เน็ต หรือให้ข้อมูลทางการแพทย์แบบพื้นฐาน
- สำหรับผู้เขียน ใช้มันเพื่อ brain dump (ระบายความคิดออกมา) และมีประโยชน์เมื่ออยากได้คู่สนทนา
- ไม่ได้ให้ความสำคัญกับคำตอบมากนัก และใช้เป็นเพียงเครื่องมือบันทึกเท่านั้น
- สิ่งสำคัญคือไม่ควรใส่อารมณ์หรือทำให้ AI ดูเป็นมนุษย์มากเกินไป
- สามารถใช้ system prompt เพื่อควบคุมพฤติกรรมการตอบของโมเดลได้ แต่ผู้เขียนไม่ได้ใส่ใจเรื่องนี้มาก
ข้อกังวลด้านประสิทธิภาพการทำงานและความน่าเชื่อถือ
- ผู้เขียนไม่เห็นด้วยกับคำกล่าวที่ว่า LLM ช่วยเพิ่ม ‘productivity’
- เนื่องจากมีปัญหาเรื่องความน่าเชื่อถือของคำตอบ เช่น พูดมั่วหรือเกิดภาพหลอน จึงจำเป็นต้อง ตรวจสอบข้อเท็จจริง เสมอ
- การหลีกเลี่ยงคำถามที่ตรวจสอบได้ยากจะช่วยลดการปนเปื้อนของข้อมูล
เหตุผลที่ใช้ Local LLM
- ผู้เขียนรู้สึกสนุกกับการ ทดลองทางเทคนิค และรู้สึกทึ่งที่คอมพิวเตอร์สามารถตอบสนองด้วยภาษาธรรมชาติได้จากการรันแบบ local
- เมื่อรันอยู่บนเครื่องของตัวเองเท่านั้น ก็มีข้อได้เปรียบด้าน ความเป็นส่วนตัว และ การปกป้องข้อมูลอ่อนไหว
- ผู้ให้บริการ AI หลายแห่งมักเก็บข้อมูลของผู้ใช้แยกไว้และนำไปใช้ฝึกโมเดลต่อ
- เนื่องจากไม่ไว้วางใจบริษัท AI เชิงพาณิชย์ รวมถึงกังวลเรื่องจริยธรรม การโฆษณาเกินจริง การทำลายสิ่งแวดล้อม และการละเมิดลิขสิทธิ์ ผู้เขียนจึงชอบโมเดลโอเพนซอร์สแบบรันในเครื่องมากกว่า
วิธีรัน LLM บน macOS
- เครื่องมือหลักสองตัวที่สามารถรันบน macOS ได้คือ llama.cpp และ LM Studio
-
- พัฒนาโดย Georgi Gerganov
- มี ตัวเลือกการตั้งค่า ที่หลากหลายและละเอียด รองรับหลายแพลตฟอร์ม พร้อมทั้งดาวน์โหลดโมเดลและมีเว็บ UI แบบง่าย ๆ
- ตัวอย่าง:
- สามารถรันโมเดลที่แนะนำ Gemma 3 4B QAT ได้ด้วยคำสั่ง
llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF
- เมื่อเปิด
http://127.0.0.1:8080 ในเบราว์เซอร์ จะมี UI ขั้นต่ำที่คล้าย ChatGPT เหมาะกับการทดลอง
-
2. LM Studio (โคลสซอร์ส, ใช้งานง่าย)
- มี UI ที่ใช้งานง่ายและล้ำสมัย พร้อมฟีเจอร์ค้นหา/ดาวน์โหลดโมเดล/จัดการบทสนทนา รวมถึงบอกได้ว่าโมเดลสามารถรันได้หรือไม่
- มี guardrail (กลไกป้องกัน) ในตัว เพื่อป้องกันไม่ให้ระบบล่มจากการโหลดโมเดลที่ใหญ่เกินไป
- บน macOS รองรับทั้ง runtime ของ
llama.cpp และ MLX engine ของ Apple
- MLX ทำงานได้เร็วกว่า แต่ตัวเลือกการตั้งค่าเชิงละเอียดจะน้อยลง
- เคล็ดลับการใช้งานหลัก:
- สามารถสลับโมเดลระหว่างการสนทนาได้
- สร้าง branch ของบทสนทนาและทดลองหลายแบบได้
- แก้ไขได้ทั้งข้อความของผู้ใช้และข้อความของ assistant
- รองรับการสร้างและใช้ system prompt preset ซ้ำ
- สามารถตั้งค่าวิธีจัดการเมื่อ context window เต็มได้ เช่น คงข้อความช่วงต้นและท้ายไว้ตามค่าเริ่มต้น
เกณฑ์เลือกโมเดล LLM ที่ดี
- ขนาดโมเดล: ข้อจำกัดหลักคือ หน่วยความจำ (RAM) มากกว่า พื้นที่ดิสก์
- ในสภาพแวดล้อม RAM 16GB แนะนำโมเดล ไม่เกิน 12GB เพราะหากเกินอาจทำให้ระบบไม่เสถียร
- ยิ่งโมเดลใหญ่ยิ่งช้า และหากหน่วยความจำไม่พออาจทำให้ทั้งระบบไม่เสถียรได้
- การเลือก runtime:
llama.cpp และ runtime เริ่มต้นของ LM Studio ต้องใช้ โมเดลฟอร์แมต GGUF
- runtime แบบ MLX ของ LM Studio ต้องใช้ โมเดลสำหรับ MLX โดยเฉพาะ
- โมเดล GGUF เสถียรบนหลายแพลตฟอร์มและมีตัวเลือกการตั้งค่ามาก
- โมเดล MLX ให้ประสิทธิภาพที่เร็วขึ้นเล็กน้อยบน Apple Silicon
- Quantization: การหาสมดุลระหว่างประสิทธิภาพของโมเดลกับการใช้หน่วยความจำ
- LLM ส่วนใหญ่ฝึกมาด้วย ความละเอียด 16 บิต
- แม้จะ quantize ลงเป็นบิตที่ต่ำกว่า เช่น 4 บิต การสูญเสียประสิทธิภาพก็ยังน้อยในระดับหนึ่ง โดยทั่วไป Q4 ถือว่าเหมาะสม
- แม้จะมีสัญลักษณ์ quantization ที่ซับซ้อนตาม kernel เช่น Q4_K_M แต่สำหรับผู้เริ่มต้นแนะนำให้ใช้ค่าเริ่มต้น
- โมเดล vision: โมเดลที่ประมวลผลภาพได้
- บางโมเดลสามารถ tokenize อินพุตรูปภาพ เพื่อวิเคราะห์ได้ เช่น อ่านข้อความในภาพ จดจำวัตถุ หรือประเมินอารมณ์/สไตล์
- ทำ OCR แบบง่าย ๆ ได้ แต่ความน่าเชื่อถือยังสู้เครื่องมือ OCR เฉพาะทางไม่ได้
- ความสามารถด้าน reasoning: บางโมเดลมี กระบวนการคิด ก่อนสร้างคำตอบ
- บางโมเดลเพิ่ม กระบวนการให้เหตุผลก่อนสร้างคำตอบ ทำให้มีความสามารถในการ ‘คิด’ มากกว่าโมเดลทั่วไป
- โมเดลขนาดเล็กที่ออกแบบมาเพื่อ reasoning โดยเฉพาะ อาจเหนือกว่าโมเดลทั่วไปขนาดกลางถึงใหญ่ได้ (สะท้อนใน benchmark)
- โมเดลสาย reasoning ใช้เวลาตอบนานกว่า และทำให้ context window เต็มเร็วขึ้น
- การใช้เครื่องมือ: สามารถเรียกใช้เครื่องมือภายนอกได้
- สามารถใช้โทเคนสำหรับเรียกเครื่องมือเพื่อเข้าถึง ความสามารถของ MCP (tool server) ที่กำหนดไว้ใน system prompt
- ใน LM Studio การเพิ่มและจัดการเครื่องมือทำได้ง่าย แต่การเรียกใช้เครื่องมือมี ความเสี่ยงด้านความปลอดภัย (เช่น การโจมตีเพื่อดึงข้อมูลรั่วไหล) จึงควรให้ผู้ใช้ยืนยันก่อนเป็นค่าเริ่มต้น
- โดยพื้นฐานมี JavaScript MCP (บน Deno) มาให้ ทำให้งานอย่างการคำนวณซับซ้อน การวิเคราะห์ข้อมูล หรือการสร้างค่าที่สุ่มได้เป็นอัตโนมัติ
- หากเพิ่ม web search MCP ก็จะสะท้อนผลการค้นหาแบบเรียลไทม์ ทำให้สามารถขยายข้อจำกัดด้าน องค์ความรู้ของโมเดล ได้
- หากต้องการความจำระยะยาว ก็สามารถใช้เซิร์ฟเวอร์ขยายต่าง ๆ เช่น MCP สำหรับ Obsidian ได้
- อย่างไรก็ตาม MCP จะทำให้ context เต็มเร็ว จึงควรเปิดใช้ เฉพาะเมื่อจำเป็นจริง ๆ
- Agents
- Agent คือโครงสร้างของโมเดลที่ใช้เครื่องมือแบบวนซ้ำ
- โดยทั่วไป โมเดลที่มีทั้งความสามารถด้าน reasoning และการใช้เครื่องมือจะถูกจัดเป็น agent
- แม้ยังไม่สมบูรณ์แบบ แต่เป็นแนวคิดที่ท้าทายและน่าสนใจ
โมเดลที่แนะนำและเคล็ดลับการใช้งาน
- ใน UI ที่มีมาในตัวของ LM Studio สามารถเปรียบเทียบและสำรวจ runtime, quantization, คุณลักษณะของโมเดล และขนาดได้ง่าย
- ในกรณีของ
llama.cpp สามารถใช้ส่วน โมเดล GGUF บน Hugging Face ได้
- เนื่องจากมีโมเดลไม่มากนักที่ตอบโจทย์ได้ครบทุกด้าน จึงแนะนำให้ดาวน์โหลดหลายโมเดลมาทดลอง
- รายชื่อโมเดลที่แนะนำ:
- Gemma 3 12B QAT: เด่นด้าน vision intelligence และสร้างข้อความได้ดีพร้อมความเร็วที่ดี
- Qwen3 4B 2507 Thinking: ขนาดเล็ก เร็วและคุณภาพดี มีทั้งแบบ reasoning และแบบทั่วไป
- GPT-OSS 20B: ประสิทธิภาพดีที่สุดในปัจจุบัน รองรับ reasoning 3 ระดับ แม้ช้าแต่ความสามารถสูงสุด
- Phi-4 (14B) : เคยเป็นตัวเลือกโปรด และตอนนี้ก็ยังมีทั้งเวอร์ชัน reasoning และเวอร์ชันทั่วไป
สรุปและเคล็ดลับการใช้งาน
- แม้โมเดลขนาดเล็กจะยังแทนที่โมเดลขนาดใหญ่รุ่นใหม่ทั้งหมดไม่ได้ แต่ประโยชน์ของการ รันแบบ local ก็ชัดเจน
- การทดสอบบนเครื่องช่วยให้เข้าใจการทำงานของอัลกอริทึมและช่วยเพิ่มความสามารถในการชดเชยจุดอ่อนได้
- LM Studio แสดงการใช้ context window แบบเรียลไทม์
- หากสั่งให้สรุปบทสนทนาก่อนที่ context จะเต็ม จะช่วยรักษาข้อมูลสำคัญไว้ได้อย่างมีประสิทธิภาพ
- มองว่า Local LLM เป็นเหมือน ‘ดิจิทัลจินนี่ (Genie) ในคอมพิวเตอร์ส่วนตัว’ สำหรับการใช้งานส่วนบุคคล และคาดหวังว่าจะเป็นประสบการณ์การทดลองที่สนุก
3 ความคิดเห็น
ถ้าใช้ qwen3:4b บน ollama จะดีครับ
ไม่มีพูดถึง Ollama เลยนะ
ความคิดเห็นจาก Hacker News
ผมเองก็ยังทึ่งที่แค่ดาวน์โหลดไฟล์ประมาณ 10GB ก็เหมือนมีเวทมนตร์ ทำให้โน้ตบุ๊กสรุปข้อความ ตอบคำถาม หรือแม้แต่ให้เหตุผลแบบง่าย ๆ ได้ สิ่งสำคัญคือสมดุลระหว่างขนาดโมเดลกับ RAM สำหรับเครื่อง 16GB ขีดจำกัดจะอยู่แถว ๆ 12B~20B แต่โมเดลพวกนี้จริง ๆ แล้วไม่ได้ใช้ Apple Neural Engine (ANE) โดยตรง กลับไปรันบน GPU ผ่าน Metal มากกว่า Core ML ยังไม่ค่อยเหมาะกับ custom runtime และ Apple ก็ยังไม่เปิดให้เข้าถึง ANE ระดับล่างสำหรับนักพัฒนาด้วย อีกทั้งยังมีประเด็นเรื่อง memory bandwidth และ SRAM ด้วย สักวันหนึ่งก็หวังว่า Apple จะแมป workload ของ transformer ไปยัง ANE ได้ดีผ่านการปรับแต่ง Core ML
ผมรู้สึกมาตลอดว่า Apple น่าจะต้องการ CEO คนใหม่ ถ้าผมเป็นคนคุม Apple ผมคงผลักดัน local LLM อย่างจริงจัง และสร้าง inference engine ที่ปรับแต่งได้แม้กระทั่งสำหรับโมเดลที่ออกแบบมาสำหรับ Nvidia ผมคงขายโปรเซสเซอร์ Apple Silicon ระดับเซิร์ฟเวอร์ และเปิดสเปก GPU ให้ทุกคนเอาไปใช้ได้โดยตรง Apple ดูเหมือนจะเลือกทางที่ปลอดภัยเกินไป Tim Cook เป็น COO ที่ยอดเยี่ยม แต่ก็ยังบริหารบริษัทในแบบนั้นอยู่ ผมคิดว่าตอนนี้ไม่ใช่เวลาของ COO แต่เป็นเวลาของนักนวัตกรรม
จากข้อมูล reverse engineering (เช่นกรณีใน Asahi Linux ที่เข้าถึง ANE ได้โดยตรง) ดูเหมือนว่า Apple Neural Engine ของ M1/M2 จะถูกปรับแต่งมาสำหรับ statically scheduled MADD ที่ใช้ค่า INT8 หรือ FP16 เท่านั้น ขณะที่โมเดลโลคัลรุ่นใหม่ถูก quantize หนักขึ้น ทำให้เมื่อค่าของโมเดลถูก pad เป็น FP16/INT8 จะสิ้นเปลือง memory bandwidth ตรงกันข้าม GPU สามารถ dequantize อินพุตได้เร็ว แล้ว pad ใส่ register เพื่อป้อนไปยัง matrix unit ได้ จึงใช้ memory bandwidth ได้มีประสิทธิภาพกว่า ถึงอย่างนั้น NPU/ANE ก็ยังอาจมีประโยชน์กับงานอย่าง preprocessing ของพรอมป์ต์ได้ ส่วนนี้ถูกจำกัดด้วย throughput ฝั่งการประมวลผลมากกว่าการสร้างโทเค็น จึงช่วยลดการใช้พลังงานและเลี่ยงข้อจำกัดด้านความร้อนได้ ข้อมูลเพิ่มเติม: Whisper.cpp Pull Request, ข้อมูล ANE เก่า, สรุปรายละเอียดของ tinygrad ตอนนี้ M3/M4 ยังไม่มี Asahi รองรับ จึงยังไม่ชัดว่าอนาคตจะเป็นอย่างไร และดูเหมือนว่า M3 series ก็ไม่ได้ต่างจาก M2 มากในแง่ประสิทธิภาพ
ถ้าคุณอยากให้ workload ของ transformer รันบน ANE ได้ดี ตอนนี้ก็มีเครื่องมือสำหรับแปลงโมเดลอยู่แล้ว<br>วิธีแปลงโมเดลจาก TensorFlow, PyTorch ฯลฯ ไปเป็น Core ML: CoreML Tools Docs
ผมก็สนใจเหมือนกันที่ Apple Neural Engine ยังไม่ค่อยทำงานร่วมกับ local LLM ดูเหมือนว่า Apple, AMD, Intel ต่างก็ยังรองรับ NPU ใน llama.cpp ได้ไม่ดีนัก อยากรู้เหมือนกันว่าทำไม
ผมรันทั้ง GLM 4.5 Air และ gpt-oss-120b ได้ค่อนข้างใช้งานได้ดี โดยเฉพาะ GPT OSS ที่ latency ใช้ได้เลย บน MacBook M4 128GB ตอนนี้มันทรงพลังมาก แต่เดี๋ยวก็คงกลายเป็นเรื่องธรรมดา เพราะโมเดลพวกนี้กำลังเข้าใกล้โมเดลระดับล้ำหน้ามากขึ้นเรื่อย ๆ
จนถึงตอนนี้ local LLM ยังดูจำกัดเกินไป แบบ ChatGPT ยุคแรก ๆ ในปี 2022 เลยยังหากรณีใช้งานที่คุ้มจริง ๆ ไม่เจอ อยากรู้ว่าชุมชนมี use case ที่มีประโยชน์อะไรบ้าง ตัวอย่างอย่างการแต่งบทสัมภาษณ์ Sun Tzu ขึ้นมาเองของ local LLM ก็ทำให้ติดใจในข้อจำกัดนี้ เลยสงสัยว่าจริง ๆ แล้วเอาไปใช้อะไรได้บ้าง
ผมลองมาหลาย LLM แล้ว แต่บน Macbook ที่มี 48GB ขึ้นไป Gemma3:27b ถือว่ายอดเยี่ยมมากสำหรับการวิเคราะห์ไดอารีส่วนตัวหรือข้อมูลอ่อนไหว ส่วนโมเดลจากจีนให้คำแนะนำชีวิตแบบตลกเกินไป เช่นเคยไปปรึกษา Deepseek แล้วมันจัดแผนชีวิตแบบขงจื๊อให้ Gemma ดูเป็นตะวันตกกว่ามาก
local LLM ส่วนใหญ่ผมใช้กับงาน automation ที่ไม่ต้องอิงข้อเท็จจริงตรง ๆ เช่น การจัดหมวดหมู่ การสรุป การค้นหา การตรวจสะกด ฯลฯ แค่มันต้องเข้าใจภาษาหรือแนวคิดในชีวิตประจำวันตามที่ผมต้องการ แต่ไม่จำเป็นต้องมีความรู้กว้างมหาศาลเรื่องประวัติศาสตร์มนุษย์ ภาษาโปรแกรม หรือสุขภาพ คุณไม่จำเป็นต้องพรอมป์ต์ LLM เองก็ได้ เพราะระบบปฏิบัติการหรือแอปสามารถเรียกใช้ LLM อัตโนมัติเมื่อจำเป็นได้
ผมจดทุกอย่างไว้ใน Obsidian ทั้งอารมณ์ ความคิด และสิ่งที่ทำ ผมไม่อยากเอาโน้ตที่เป็นเรื่องส่วนตัวแบบนี้ขึ้นคลาวด์ เลยจัดการด้วย chromeDB แล้วคุยกับมันผ่าน LLM ช่วงนี้ก็ใช้โมเดล abliterated ที่ตัดการปฏิเสธออกแล้วด้วย (ลบการปฏิเสธใน transformers) ใช้กับงานด้วย ผมสร้าง mcp สำหรับทำงานอัตโนมัติกับข้อมูลการเงิน และเพราะรันโมเดลในเครื่องเลยไม่ต้องกังวลเรื่องข้อมูลรั่วไหล
ใช้ได้ดีในสภาพแวดล้อมที่อินเทอร์เน็ตไม่เสถียรหรือหลุดบ่อย ต่อให้ไม่ใช่ LLM ระดับล้ำหน้าก็ยังดีกว่าไม่มีเลย เช่น ถ้าอินเทอร์เน็ตล่มเพราะพายุ คุณก็ยังขอคำแนะนำด้านความปลอดภัยที่จำเป็นจาก local LLM ได้ทันที
ผมใช้โมเดลโลคัลตอนทำต้นแบบแอปหรือในช่วงเริ่มต้นของการพัฒนา<br>อย่างแรกคือช่วยลดต้นทุนการพัฒนาได้ชัดเจน อย่างที่สองคือเพราะข้อจำกัดด้านประสิทธิภาพ ทำให้ต้องจัดองค์ประกอบต่าง ๆ อย่างรอบคอบมากขึ้น ซึ่งกลับเป็นประโยชน์ ถ้าคุณออกแบบ workflow งานไว้กับ local model ที่พอใช้ได้แล้ว เช่น gpt-oss, qwen3 เวลาย้ายไปใช้ cloud model อย่าง gpt-5-mini ทีหลังก็จะได้อัปเกรดประสิทธิภาพทันที แน่นอนว่าถ้าใส่เอกสารทั้งหมดเข้าไปใน context window ของ cloud model แล้วได้ผลลัพธ์ดี ก็ไม่จำเป็นต้องยอมรับข้อจำกัดของ local model แต่ถ้ามองระยะยาว การแยกงานออกเป็นส่วน ๆ แล้วรันในเครื่องอาจทั้งถูกกว่าและเร็วกว่า
ผมลองรัน Hermes Mistral แล้วมัน hallucination หนักตั้งแต่แรก ช่วงนี้ผมเก็บ audio dream journal ไว้ส่วนตัวในโฟลเดอร์ Obsidian โดยรับไฟล์ .wav ผ่าน Whisper แล้วแปลงเป็นข้อความ จากนั้นอยากใช้ local LLM แค่ช่วยใส่เครื่องหมายวรรคตอนกับจัดย่อหน้า โดยกำชับว่าอย่าเพิ่มอะไรเลย แค่ทำให้อ่านง่ายขึ้น แต่ Hermes กลับเริ่มแต่งบทสัมภาษณ์ Sun Tzu เกี่ยวกับพิชัยสงครามแบบไม่มีปี่มีขลุ่ย พอผมหยุดกระบวนการ มันก็ขอโทษแต่ก็อธิบายไม่ได้ว่าทำไมถึงพูดเรื่อง Sun Tzu ขึ้นมา ถ้าต้องคอยจับ hallucination แปลก ๆ แบบนี้ตลอด สู้ผมนั่งแก้เองยังดีกว่า ตรรกะนี้ใช้ได้กับแทบทุกสาขาที่พยายามเอา local LLM ไปใช้ หวังว่าสักวันมันจะดีขึ้น
ผมคิดว่ายุคที่รัน LLM ระดับล้ำหน้าบนมือถือหรือโน้ตบุ๊กโดยตรงยังอีกไกล สิ่งที่ดูเป็นจริงมากกว่าตอนนี้คือมี AI server box ไว้ที่บ้านสำหรับรัน LLM แล้วให้ thin client อย่างโน้ตบุ๊กต่อเข้าไปใช้ ส่วนถ้าจำเป็นก็ให้เครื่องปลายทางจัดการด้วยโมเดลเล็ก ๆ ในเครื่องเอง ถ้า Apple เดินเกมนี้ต่อผ่าน Mac Pro ก็ดูเป็นธรรมชาติ กล่อง LLM สำหรับบ้านราคา 10,000~20,000 ดอลลาร์ก็ยังพอรับได้
ตอนนี้คุณสามารถรันโมเดลโอเพนซอร์สรุ่นใหม่บน Mac Studio หน่วยความจำ 512GB (ราว 10,000 ดอลลาร์) ได้แล้ว ตัวอย่างเช่น วิดีโอของ Qwen3-Coder-480B-A35B-Instruct ที่รันแบบ 4bit ได้ 24 โทเค็นต่อวินาที, Deep Seek V3 0324 ที่ 4 บิตได้ 20 โทเค็นต่อวินาที และยังสามารถเอา Mac Studio สองเครื่องมาต่อรวมกันด้วย MLX เพื่อรันโมเดลที่ใหญ่กว่านี้ได้อีก ตัวอย่าง DeepSeek R1 ขนาด 671B แบบ 8 บิต
ผมมองว่า Mac Pro แพงเกินจริงเพราะต้นทุนเคสขนาดใหญ่ เลยไม่ค่อยคุ้มใช้งานจริง Studio ดูสมเหตุสมผลกว่า ทั้ง Nvidia และ AMD ก็น่าจะรองรับหน่วยความจำ GPU แบบ high-bandwidth ปริมาณมากในฟอร์มแฟกเตอร์เดสก์ท็อปเร็ว ๆ นี้ แล้วถ้าเชื่อมต่อจากโน้ตบุ๊กหรืออุปกรณ์อื่นเข้าเซิร์ฟเวอร์ LLM ที่บ้านได้ ก็จะใช้งานแบบไม่ต้องห่วงแบตเตอรี่ในเครื่องโลคัล เป็นภาพที่สมบูรณ์แบบเลย
สำหรับผม ตอนนี้ใช้ AMD 395+ รัน docker container หลายตัวเพื่อให้บริการแอปหลายแบบ โดยหลัก ๆ ใช้โมเดล Qwen Code กับ GPT OSS 120b ถ้ารุ่นเจเนอเรชันใหม่ออกมาเร็ว ๆ นี้ ถึงจะแพงก็คิดว่าจะอัปเกรด เพราะมันคุ้มค่า
ราคา 10,000~20,000 ดอลลาร์แพงเกินจริงสำหรับคนส่วนใหญ่ มีแค่ระดับเงินเดือนซิลิคอนแวลลีย์เท่านั้นที่พอไหว แม้แต่ Apple Vision Pro ที่ถูกกว่านี้มากก็ยังขายไม่ดี
gpt-oss-120b ไม่ได้ให้ประสิทธิภาพที่ดีกว่าด้วยหน่วยความจำที่น้อยกว่ามากหรือ? แค่ Mac Studio ราคา 4,000 ดอลลาร์กับหน่วยความจำ 128GB ก็น่าจะรันได้สบายแล้ว
ไม่เกี่ยวกับประเด็นหลัก แต่ข้อความเอฟเฟกต์คลื่นในย่อหน้าแรกของ 'opinions' สะดุดตามาก
ผมคิดว่า local LLM คืออนาคต และมันจะดีขึ้นเรื่อย ๆ ตามเวลา ถ้ามีการปล่อยโมเดลระดับของปีที่แล้วออกมา ก็แทบไม่มีเหตุผลต้องใช้ chatgpt, anthropic หรือบริการคลาวด์อื่น ๆ อีก คุณไม่จำเป็นต้องมีโมเดลยักษ์ตัวเดียวที่ทำทุกอย่างได้ด้วยซ้ำ ภาพของการเรียกใช้โมเดลเล็กหลายตัวตามลักษณะงานกำลังกลายเป็นความจริงแล้ว ไม่มี moat เหลืออยู่อีกต่อไป
ประสิทธิภาพของ local LLM คงดีขึ้นต่อไปแน่นอน แต่ผมไม่ค่อยมั่นใจว่ามันจะพร้อมใช้งานจริงสำหรับคนทั่วไปเมื่อไร ความสามารถด้าน reasoning และ coding ของโมเดลโลคัลก้าวกระโดดก็จริง แต่สาเหตุหลักมาจากการพัฒนาข้อมูลฝึกและเทคนิคอย่าง RLHF, DPO, CoT ฯลฯ ถึงอย่างนั้นสิ่งที่สำคัญจริง ๆ คือการลด hallucination ด้วยผลลัพธ์เชิงสถิติจากชุดพารามิเตอร์แบบ full precision ขนาดมหาศาล และระหว่างโมเดลระดับนั้นกับผู้บริโภคทั่วไปยังมีช่องว่างด้านฮาร์ดแวร์ใหญ่มาก ผมว่าคงต้องใช้เวลาอีกอย่างน้อย 10 ปี
ผมกลับคิดว่าอนาคตคือ cloud computing ที่ปลอดภัยและเป็นส่วนตัวจริง ๆ
บล็อกหรือบทความเกี่ยวกับการใช้ local LLM ควรระบุฮาร์ดแวร์ที่ใช้ทดสอบไว้เสมอ
ขอโหวตให้ LM Studio เลย มีคอนฟิกหลายแบบเตรียมไว้ดีมาก ทำให้เข้าใจได้แบบตรงไปตรงมาว่า MacBook ของผมทำอะไรได้บ้าง และต้องตั้งค่าอย่างไร ใช้เวลา 1~2 ชั่วโมงแล้วได้ประสบการณ์ที่ดีมาก
ผมมีงานอดิเรกคือสุ่มโหลดโมเดลมาลองรันบน Mac Mini 16GB และลิสต์แนะนำโมเดลของผู้เขียนช่วยได้มากจริง ๆ ผมเก็บไว้แค่ 4~5 ตัวในแต่ละขนาดให้ลองใช้ แบบนี้มีประสิทธิภาพที่สุด
Mozilla-Ocho/llamafile ก็น่าจะเป็นประโยชน์เช่นกัน