- แม้แต่บน M4 MacBook Pro 24GB ก็สามารถจัดชุดโมเดลโลคัลสำหรับงานพื้นฐาน การค้นคว้า และการวางแผนได้
- Qwen 3.5-9B Q4 ทำได้ราว 40 โทเคน/วินาที รองรับโหมดคิด ใช้เครื่องมือได้ และมีคอนเท็กซ์ 128K
- มันยังไม่สามารถแก้ปัญหาซับซ้อนอย่างอิสระเป็นเวลานานได้เหมือนโมเดลระดับแนวหน้า จึงต้องมี คำสั่งแบบเป็นขั้นตอน
- แก้คำเตือนของ Elixir Credo ได้ แต่ล้มเหลวในการจัดการ rebase conflict โดยไม่ได้แก้ไฟล์
- จุดเด่นของโมเดลโลคัลคือใช้งานออฟไลน์และไม่ต้องสมัครสมาชิก แต่มี trade-off ด้านประสิทธิภาพและการตั้งค่าค่อนข้างมาก
สภาพแวดล้อมการรันโมเดลโลคัลและเกณฑ์การเลือก
- ได้ทดลองตั้งค่าการรันโมเดลโลคัลบน M4 MacBook Pro ที่มีหน่วยความจำ 24GB และแม้ผลลัพธ์จะต่างจากโมเดลระดับแนวหน้า (SOTA) แต่ก็สามารถจัดชุดที่รองรับงานพื้นฐาน การค้นคว้า และการวางแผนได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต
- เครื่องมือสำหรับรันแบบโลคัลมี Ollama, llama.cpp, LM Studio ซึ่งแต่ละตัวมีข้อจำกัดและมีโมเดลที่รองรับต่างกัน
- ในการเลือกโมเดล จำเป็นต้องให้โมเดลพอดีกับหน่วยความจำ ขณะเดียวกันก็ยังเหลือทรัพยากรพอสำหรับเปิดแอป Electron ทั่วไปได้ด้วย และต้องการหน้าต่างคอนเท็กซ์อย่างน้อย 64K หรือถ้าเป็นไปได้ควร 128K ขึ้นไป
- โมเดลที่ลองเมื่อไม่นานมานี้อย่าง Qwen 3.6 Q3, GPT-OSS 20B, Devstral Small 24B แม้จะโหลดเข้าเมมโมรีได้ แต่ใช้งานจริงได้ยาก ส่วน Gemma 4B รันได้ดีแต่มีปัญหาเรื่องการใช้เครื่องมือ
- ค่าตั้งต้นมีตั้งแต่ค่าที่รู้จักกันดีอย่าง temperature ไปจนถึงตัวเลือกเฉพาะอย่าง K Cache Quantization Type และค่าที่เหมาะสมก็อาจต่างกันตามว่าจะเปิดใช้งานการคิด (thinking) หรือไม่
ชุดตั้งค่า Qwen 3.5-9B แบบควอนไทซ์ 4 บิต
- qwen3.5-9b@q4_k_s เป็นโมเดลที่ดีที่สุดเมื่อรันใน LM Studio โดยให้ความเร็วประมาณ 40 โทเคน/วินาที พร้อมทั้งเปิดการคิด ใช้เครื่องมือได้สำเร็จ และมีหน้าต่างคอนเท็กซ์ 128K
- แม้มันจะเสียสมาธิง่ายกว่าโมเดลระดับแนวหน้า บางครั้งวนลูป และตีความคำขอผิด แต่สำหรับโมเดลที่รันได้บน MacBook Pro 24GB โดยยังเหลือพื้นที่ให้ทำงานอื่น ก็ถือว่าใช้งานได้ดีมาก
- ค่าที่แนะนำสำหรับโหมดคิดและงานเขียนโค้ดมีดังนี้
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
- หากต้องการเปิดการคิด ให้เลือกโมเดลใน LM Studio จากนั้นไปที่ configuration แล้วเพิ่มค่าต่อไปนี้ใน Prompt Template ที่ด้านล่างของแท็บ Inference
{%- set enable_thinking = true %}
- โมเดลนี้ถูกใช้ทั้งกับ pi และ OpenCode โดย pi ให้ความรู้สึกว่าตอบสนองไวกว่า แต่ถึงจะมีข้อดีเรื่องสามารถสร้างและปรับแต่ง harness ได้เอง ก็ยังขาดค่าตั้งต้นที่เหมาะสม
- การปรับตั้งค่า pi อาจทำให้ใช้เวลามากกว่าการทำโปรเจ็กต์จริงเสียอีก
การตั้งค่า pi
- ใน
~/.pi/agent/models.json มีการลงทะเบียน OpenAI-compatible endpoint ของ LM Studio และโมเดล qwen3.5-9b@q4_k_s
{
"providers": {
"lmstudio": {
"baseUrl": "http://localhost:1234/v1",
"api": "openai-completions",
"apiKey": "lm-studio",
"models": [
{
"id": "qwen3.5-9b@q4_k_s",
"reasoning": true,
"compat": { "thinkingFormat": "qwen-chat-template" }
}
]
}
}
}
- หากต้องการซ่อนบล็อกการคิดที่ฟุ้งซ่าน ให้เพิ่ม
"hideThinkingBlock": true ใน ~/.pi/agent/settings.json
การตั้งค่า OpenCode
- ใน
~/.config/opencode/opencode.json มีการลงทะเบียน LM Studio เป็น provider แบบ OpenAI-compatible บนเครื่อง พร้อมตั้งค่าการใช้เครื่องมือ ความยาวคอนเท็กซ์ 131072 และโทเคนสูงสุด 32768
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"lmstudio": {
"npm": "@ai-sdk/openai-compatible",
"name": "LM Studio (local)",
"options": {
"baseURL": "http://127.0.0.1:1234/v1"
},
"models": {
"qwen3.5-9b@q4_k_s": {
"name": "Qwen 3.5 9B Q4_K_S",
"tools": true,
"context_length": 131072,
"max_tokens": 32768
}
}
}
},
"model": "lmstudio/qwen3.5-9b@q4_k_s"
}
ความแตกต่างจากโมเดลระดับแนวหน้า
- โมเดลอย่าง Qwen 3.5 9B Q4 ยังไม่ถึงระดับที่สามารถแก้ปัญหาซับซ้อนด้วยตัวเองได้ต่อเนื่องยาวนานเหมือนโมเดลระดับแนวหน้า
- วิธีสั่งให้สร้างทั้งแอปในครั้งเดียวจึงไม่เหมาะ และอาจได้แค่โน้ตบุ๊กที่ร้อนขึ้นโดยไม่มีผลลัพธ์
- วิธีที่เข้ากันได้ดีกว่าคือเวิร์กโฟลว์แบบโต้ตอบที่สื่อสารอย่างชัดเจนเป็นขั้นตอน และให้คำแนะนำจำนวนมาก
- เมื่อใช้โมเดลโลคัล ผู้ใช้ต้องรับภาระการคิดและการวางแผนด้วยตัวเองมากขึ้น และต้องสั่งอย่างเจาะจงมากขึ้น แต่ก็ยังมีประโยชน์ในฐานะผู้ช่วยค้นคว้า rubber duck และผู้ช่วยที่ช่วยนึกเรื่องรายละเอียดของภาษาโปรแกรมหรือคำสั่ง command line ได้ทันที
- มันไม่ใช่การเพิ่มประสิทธิภาพ 10 เท่าตามที่บริษัท AI รายใหญ่โปรโมต แต่ก็ให้ความช่วยเหลือที่มีความหมายและประสบการณ์ใช้งานที่น่าสนใจ
งานที่ทำได้และงานที่ล้มเหลว
-
แก้คำเตือน Elixir Credo
- หลังอัปเกรด Elixir linter
credo เป็นเวอร์ชันล่าสุด ก็เกิดคำเตือนในโค้ด จึงขอให้ Qwen รัน mix credo --strict แล้วเสนอวิธีแก้โดยยังไม่ต้องแก้ไฟล์
- Qwen พบปัญหาในไฟล์ทดสอบ 4 จุดที่ใช้
length/1 เพื่อตรวจว่าลิสต์ไม่ว่าง และเสนอให้ใช้ list != [] แทน length(list) > 0
- เมื่อขอให้แก้จริง Qwen ก็ทำการแก้ไขแบบขนานทั้ง 4 จุดได้อย่างเรียบร้อย
- งานนี้เป็นงานง่าย ๆ ที่ทำเองได้โดยสลับระหว่างเทอร์มินัลกับเอดิเตอร์ แต่ก็ช่วยอำนวยความสะดวกได้ดี
-
จัดการ rebase conflict ของ Dependabot PR
- หลังอัปเดต dependency มี git conflict ใน Dependabot PR และ Dependabot ปฏิเสธการ rebase จึงต้องดึงลงมา rebase เองแล้วให้ Qwen ช่วยตรวจสอบ
- conflict เป็นรูปแบบง่าย ๆ ที่แค่เลือกเวอร์ชันใหม่กว่าของแต่ละ dependency โดย Qwen แนะนำให้คง
sentry ที่ 13.0.1 และ tailwind ที่ 0.4.1
- แต่เมื่อขอให้ลงมือเปลี่ยนจริง Qwen กลับพยายามรัน
git add mix.lock && git rebase --continue ทั้งที่ยังไม่ได้แก้ไฟล์และยังมี conflict marker ค้างอยู่
- มันยังไม่เข้าใจด้วยว่า
git rebase --continue จะเปิดเอดิเตอร์ ทำให้ OpenCode ค้าง และก็เป็นไปได้ว่าเหตุการณ์นี้อาจเกิดขึ้นเพียงครั้งเดียว
ข้อดีและข้อจำกัดของโมเดลโลคัล
- โมเดลโลคัลมี trade-off ใหญ่อยู่มาก แต่มีข้อดีคือทำงานได้แม้อยู่บนเครื่องบินโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต
- หากถือว่าต้องซื้อคอมพิวเตอร์อยู่แล้ว ต้นทุนก็จำกัดอยู่ที่การใช้ไฟฟ้า และไม่ต้องจ่ายค่าสมาชิก
- แม้การฝึกโมเดลยังมีต้นทุนด้านสิ่งแวดล้อมสูง แต่บริษัทที่ทำโอเพนโมเดลก็ยังห่างไกลจากกลุ่มที่มีผลกระทบต่อสิ่งแวดล้อมสูงสุด และการใช้ฮาร์ดแวร์ส่วนตัวก็ช่วยลดการพึ่งพาดาต้าเซ็นเตอร์ได้
- มันมีความสนุกจากการปรับจูนและทดลองด้วยตัวเอง
- LLM ได้สร้างผลกระทบอย่างมากไปแล้ว และแม้จะมีด้านลบอยู่มาก ก็ยังดูเป็นเทคโนโลยีที่จะอยู่ต่อไป ดังนั้นการทดลองกับโมเดลโลคัลจึงให้ความรู้สึกเหมือนเป็นวิธีที่ยั่งยืนและเป็นบวกมากขึ้นในการมีปฏิสัมพันธ์กับเทคโนโลยีนี้
1 ความคิดเห็น
ความเห็นจาก Hacker News
การรัน LLM บนเครื่องโลคัลนั้นทั้งสนุกและทรงพลัง แต่ถ้าจะเอามาใช้ปิดงานจริงกลับค่อนข้างปวดหัว
ต้องวางแผนล่วงหน้า ทำสเปก และเตรียมของให้พร้อม ขณะที่โมเดลใหญ่ของ OpenAI หรือ Claude มักเข้าใจได้ทันทีแค่โยนคำสั่งไปไม่กี่ประโยค
ถ้าใช้งานจริงจังกับโมเดลใหญ่อยู่แล้ว ก็ใช้ต่อไปได้เลย
แต่ผมมองงาน vision/OCR ต่างออกไป โมเดล open weight ขนาดเล็กและกลางก็ใกล้เคียงระดับล้ำสมัยแล้ว และในงานแบตช์ใหญ่ ๆ ค่า prefill token ก็น่าเสียดายไม่น้อย
อีกอย่างที่คนมักลืมคือ ต่อให้เป็น LLM ตัวเล็ก ถ้าจะใช้เหมือนบริการส่วนตัวที่เสถียร ก็ต้องกัน RAM/VRAM 16~24GB ไว้ให้มันรันค้างตลอด
สุดท้ายปัญหาหลักก็ยังเป็นเรื่องเงินอยู่ดี
ผมว่ามันมาถึงจุดที่แทบใช้งานได้จริงแล้ว
Gemma 4 31B ให้ความรู้สึกเหมือนเป็น baseline ใหม่ของโมเดลโลคัล แน่นอนว่ายังสู้ frontier model ไม่ได้ แต่ก็ให้ความรู้สึกเป็นงานทดลองวิทยาศาสตร์น้อยกว่าโมเดลโลคัลอื่น ๆ ที่เคยรัน รวมถึง GPT OSS 120B กับ Nemotron Super 120B
บน M5 Max RAM 128GB ถ้าใช้ context window เต็ม 256K การใช้ RAM จะพุ่งไปประมาณ 70GB และเห็น system overhead ราว 14GB
เครื่อง 64GB Panther Lake ที่ติด Arc B390 เต็มตัว หรือเครื่อง 48GB Snapdragon X2 Elite น่าจะรันด้วย context window 128K~256K ได้ และบน 32GB อาจพอฝืนให้ใช้ 32K context window ได้
แค่ปีที่แล้วยังรู้สึกเลยว่าการได้ประสิทธิภาพแบบนี้บนเครื่องระดับสูงที่ใกล้เคียงเมนสตรีมเป็นความฝันลม ๆ แล้ง ๆ
สุดท้ายเกณฑ์วัดคือ “จะมอบหมายอะไรให้โมเดลนี้ทำได้อย่างสม่ำเสมอ” Opus รู้มากกว่าแน่นอนและทำงานซับซ้อนได้มากกว่า แต่ถ้าใส่บริบทให้ดี Gemma ก็ทำได้ดีอย่างน่าประหลาด
ช่วงงานที่ผมเชื่อใจให้ทั้งสองโมเดลทำได้นั้นต่างกันน้อยกว่าที่คิดมาก มันให้ผลลัพธ์ดีมากในเครื่องมือส่วนตัวและหลายโปรเจ็กต์ และเป็นโมเดลโลคัลตัวแรกที่ผมกล้าให้ทำ implementation ของฟีเจอร์ในโหมด agent กับโปรเจ็กต์ที่ไม่เล็กน้อย
https://thot-experiment.github.io/gradient-gemma4-31b/
นี่เป็นเครื่องมือที่ค่อนข้างซับซ้อนซึ่ง Gemma 4 ทำแทบทั้งหมดใน OpenCode และตลอดหลายชั่วโมงนั้นผมแทรกแซงด้วยมือตัวเองแค่ราว 4 ครั้ง
Q6_K_XL, context 128K @ q8 อ่านได้ราว 800tok/s เขียนได้ราว 16tok/s
ตอนนี้กำลังรอ turboquant กับ MTP ใน llama.cpp ถ้าข่าวลือเป็นจริงก็น่าจะไปถึง 256K และ 25~30tok/s ได้
ตอนออกใหม่ ๆ คะแนน benchmark น่าประทับใจมากจนผมเขียนโพสต์เกี่ยวกับมันไว้ [0] แต่พอเอาไปรันในสภาพแวดล้อม agent coding ที่มี context ยาวขึ้น อันดับบนตารางก็ลดลงไปบ้างในภายหลัง
[0] https://gertlabs.com/blog/gemma-4-economics
แนวทางคือวางแผนด้วยโมเดลใหม่ แล้วให้โมเดลเล็กลงมือทำ ถ้าวางแผนดีพอและไม่เหลือความกำกวมให้โมเดลเล็กต้องตีความเอง มันก็เวิร์ก
ถ้าได้มาอ่านโพสต์นี้ก่อน ผมคงไม่ต้องใช้เวลาทั้งสุดสัปดาห์กว่าจะสรุปแบบเดียวกัน
ผมทำการทดสอบแบบประดิษฐ์บนโน้ตบุ๊กเครื่องเดียวกัน โดยให้มันแก้ lint error ราว 50 จุดใน repo C++ แนว vibe coding ขนาดเล็ก หวังว่ามันจะจัดการงานย่อยจำนวนมากได้โดยไม่ติดขัดบ่อยเกินไป
GPT OSS 20B พอใช้ได้แต่ช้า ชอบเติมประโยคที่ไม่จำเป็นหรือพูดซ้ำ และมักพลาดแบบบอกว่าแก้แล้วทั้งที่ยังไม่ได้แก้โค้ด
Qwen 3.5 9B ที่ใช้กับ Opencode เร็วกว่ามาก และแม้ระหว่างที่มีการบีบอัด context อยู่ก็ยังจัดการ lint warning ส่วนใหญ่ได้โดยไม่สะดุด และแก้ทุก warning ได้ถูกต้อง
ผมลองใช้ 4-bit MLX quantization ของ Qwen 3.5 9B ด้วย แต่สุดท้ายแครชเพราะหน่วยความจำไม่พอ พอเปลี่ยนเป็น GGUF ที่รันด้วย llama.cpp ก็รันได้โดยไม่แครช
มันเทียบกับ frontier model ไม่ได้เลย ช้ากว่ามาก ข้อมูลพื้นฐานก็ผิด และจัดการงานที่ไม่เล็กน้อยแบบครั้งเดียวจบไม่ได้
ตอนให้มันสรุปสถาปัตยกรรมโปรเจ็กต์ มันกลับอ้างว่าใช้ไลบรารีที่ไม่มีอยู่ใน repo เลย แน่นอนว่าคนอื่นอาจมองต่างกัน แต่ก็ยังพอมีประโยชน์อยู่บ้าง และหวังว่าเมื่อเวลาผ่านไปสภาพแวดล้อม LLM แบบโลคัลบนฮาร์ดแวร์พอประมาณจะดีขึ้นมาก
LLM โลคัลนั้นยอดเยี่ยม แต่ถ้าอ่านโพสต์แนวนี้เยอะ ๆ จะรู้สึกเหมือนมันเกือบแตะระดับ Opus 4.7 แล้ว
ใน HN มีกลุ่มเล็ก ๆ ที่เสียงดังและกระตือรือร้นมาก ซึ่งมักพูดเกินจริงเรื่องความสามารถของ LLM โลคัล
ในบรรดาโมเดลขนาดใกล้กัน มันเป็นหนึ่งในตัวที่เร็วที่สุดที่ผมเคยรันบน local GPU แต่ผมทดสอบแค่กับการ์ด Nvidia
พอมารู้ทีหลังว่ามันเป็น MoE และมี active parameter แค่ 3.6B หลายอย่างก็อธิบายได้เลย
การมองแบบ สมจริง ว่าโมเดลโลคัล โดยเฉพาะโมเดลเล็กอย่าง 9B ที่ผู้เขียนใช้ ทำอะไรได้บ้างนั้นมีประโยชน์มาก
โมเดล 9B อยู่ประมาณระดับ Sonnet 3.6 คือทำ autocomplete กับฟังก์ชันเล็ก ๆ ได้ แต่พอพยายามทำความเข้าใจปัญหาใหญ่ ๆ มันจะหลุดประเด็น
ถึงอย่างนั้นมันก็ยังน่าสนใจและเล่นสนุก ผมเลยทำ agent harness แบบโลคัลไว้เยอะพอสมควรเพื่อความสนุก
โปรเจ็กต์ปัจจุบันคือเอเจนต์แบบไม่ต้องติดตั้ง: https://gemma-agent-explainer.nicklothian.com/
Python, SQL และ React รันได้ครบในเบราว์เซอร์ทั้งหมด เพื่อประสบการณ์ที่ดีที่สุดผมแนะนำ Gemma E4B
ยังอยู่ระหว่างพัฒนาอย่างหนัก และต้องใช้ Chrome เพราะ HTML5 Filesystem API กับการรองรับ LiteRT แต่ก็อาจทำให้เบราว์เซอร์สาย Chromium ส่วนใหญ่ใช้งานได้
สิ่งที่ต่างจากเอเจนต์ส่วนใหญ่คือมัน ไม่ต้องติดตั้ง โมเดลรันอยู่ในเบราว์เซอร์ผ่าน LiteRT/LiteLLM และให้ประสิทธิภาพดีกว่า Transformers.js อีกทั้งยังใช้ Filesystem API เพื่อเปิดสิทธิ์อ่าน sandbox directory แบบเลือกได้ด้วย
มันมีเอกสารอธิบายตัวเองในตัว ดังนั้นถ้าถามในแผงช่วยเหลือสดว่า “system prompt ถูกใช้อย่างไร” มันก็เข้าถึง source code ของตัวเองแล้วตอบได้
กด “Tour” เพื่อดูภาพรวมทั้งหมดได้ และผมตั้งใจจะเปิดซอร์สในสัปดาห์หน้า
เพียงแต่ benchmark ที่คนใช้ประเมินโมเดลเปลี่ยนบ่อยเกินไป เลยหาการเทียบที่ดีได้ยาก อ้างอิงไว้ว่า Sonnet 3.6 ออกหลัง GPT-3.5 ประมาณ 1 ปี
ถ้ามองแบบวิจารณ์ ก็จริงที่โมเดลพวกนี้ยังไม่เทียบชั้นระดับท็อปล่าสุดในงานเขียนโค้ดซับซ้อน
แต่ในงานออฟฟิศ คนทำงานความรู้จำนวนมากใช้เวลากับ การจัดการ Excel, ย้ายไฟล์, แปลเอกสารกฎหมายแข็ง ๆ, ร่างอีเมล, งานจุกจิกใน PPT แบบนี้เยอะมาก
งานพวกนี้ใช้โมเดล 30~35B ขึ้นไปก็เพียงพอแล้ว และยังได้ข้อดีเรื่องเก็บข้อมูลบริษัทไว้เป็นความลับด้วย
เวลาคนพูดถึงโมเดลโลคัล สิ่งที่คาดหวังคือโมเดลที่ออกในเดือนเมษายนปีนี้ อย่าง Qwen 3.6 27B และถ้า GPU อ่อนหน่อยก็ qwen 35b a3b
โมเดลพวกนี้เอามาเทียบกับโมเดลระดับล้ำสมัยได้อย่างจริงจัง
ตัวอย่างชัด ๆ คือคดี London Whale ของ JPMorgan ที่ขาดทุน 6 พันล้านดอลลาร์จาก ข้อผิดพลาดใน Excel
ผมกำลังมอง MacBook M5 Pro 18/20-core 64GB RAM อยู่ แต่หาข้อมูล benchmark โมเดลจริง ๆ ได้ยากมาก
เช่นถ้ามีใครบอกได้ว่า Qwen 3.6 35B/A3B แบบ quantization Q4 และ Q6 จะได้กี่โทเคนต่อวินาที ก็คงดีมาก
ฝั่ง local inference ตอนนี้กำลังเอนไปทางโมเดล MoE และหลายตัวแม้โทเคนต่อวินาทีจะโอเค แต่เวลาไปถึงโทเคนแรกนั้นแย่มาก
ผมเขียนการตั้งค่าแบบมั่ว ๆ ที่ใช้บน M2 Studio 32GB ไว้ใน Bluesky และอยากได้ฟีดแบ็ก
ผมเป็นพวกที่ทำได้ไม่ค่อยดีถ้าไม่ได้เห็นของจริง เลยแชร์ไว้เผื่อมีคนช่วยดู
https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...
ตอนนี้ผมรัน qwen 3.6 9b quantized model บน M4 Pro 48GB ซึ่งพอเรียกได้ว่าแทบจะใช้งานได้สำหรับงานพัฒนาเบื้องต้นบน pi.dev/cc
ถ้าจะทำอะไรที่มีความหมายจริง ๆ ดูเหมือนว่าเดสก์ท็อป 128GB คือ sweet spot แต่ตอนนี้หาเครื่องแบบนั้นยาก
การรันโลคัลมันสนุก แต่ก็อย่าลืมว่าเวลาของตัวเองก็ไม่ฟรีเหมือนกัน
สำหรับโปรเจ็กต์ส่วนตัว ผมย้ายไปใช้ OpenRouter มากขึ้นเรื่อย ๆ และแม้จะใช้ qwen ตัวใหญ่สุดแบบจริงจัง ก็ยังเสียไม่ถึง 2~3 ดอลลาร์ต่อวัน
เพราะถ้าเป็น M4 Pro 48GB คุณก็รันโมเดลที่ใหญ่กว่านี้ได้อยู่แล้ว และถ้าความฉลาดของโมเดลคือหัวใจของความมีประโยชน์ การใช้โมเดลใหญ่กว่าอาจเหมาะกว่า
เห็นด้วยว่า dense 9B ยังไม่ค่อยไหว
ผมใช้ MacBook Pro M5 สเปกสูงสุดรุ่นล่าสุดและลองโมเดลโลคัลมาด้วย แต่มันแทบจะอยู่ในระดับ “พอทำงานได้” เท่านั้น
บน 4090 24GB ผมกำลังรัน qwen3.6:27B ด้วย context ราว 128K โดยใช้การปรับหน่วยความจำ activation แบบ turboquant/rotorquant รุ่นล่าสุด
แนะนำอย่างแรงให้ขยับขึ้นมาระดับโมเดลนี้เลย ชุด q4_xl+rotorquant ดีมากทีเดียว
และมีโค้ดอ้างอิงไว้โยนให้เอเจนต์ด้วย
https://github.com/rapatel0/rq-models
ผมว่าการเอาเงินหลายพันดอลลาร์ไปลงกับ Mac ยังดีกว่าจ่ายค่าสมาชิก API
โมเดลโลคัล ทำให้ทำงานได้ทุกที่ทุกเวลาโดยไม่ต้องกังวลเรื่องข้อมูลส่วนตัวรั่วไหล