วิธีรัน GLM-5.2 บนเครื่องโลคัล
(unsloth.ai)- GLM-5.2 โมเดลโอเพนตัวใหม่จาก Z.ai มีจุดสำคัญอยู่ที่เป็นกรณีศึกษาของการใช้งานโมเดลขนาดใหญ่บนเครื่องโลคัล โดยมีพารามิเตอร์ 744B, พารามิเตอร์ที่ active 40B และ context window 1M
- Unsloth เปิดทางให้รันบนเครื่องโลคัลด้วย Dynamic GGUF โดย quant ที่แนะนำคือ 2-bit
UD-IQ2_Mซึ่งต้องใช้ดิสก์ 239GB และสภาพแวดล้อมระดับ RAM อย่างน้อย 245GB - Dynamic 1-bit แสดงผล top-1 accuracy ราว 76.2% พร้อมลดขนาดลง 86% ส่วน Dynamic 2-bit ได้ accuracy ราว 82% และลดขนาด 84% ซึ่งไม่ตรงกับการตีความว่า “เล็กลงเท่าไร ประสิทธิภาพก็แย่ลงเท่านั้น”
- วิธีรันมี 2 แนวทางคือ Unsloth Studio และ
llama.cppโดย Studio รองรับการค้นหา·ดาวน์โหลด·รันโมเดลบน MacOS·Windows·Linux รวมถึง RAM offloading และการตรวจจับ multiGPU - หากต้องการใช้ long context จริง ๆ จำเป็นต้องลดการใช้หน่วยความจำด้วย KV cache quantization ของ
llama.cppโดยq4_0ช่วยให้ใช้ context ได้ยาวขึ้นราว 3.5 เท่า และq4_1ราว 3.2 เท่า
ภาพรวมโมเดล GLM-5.2
- GLM-5.2 เป็นโมเดลโอเพนตัวใหม่จาก Z.ai และสามารถรันบนฮาร์ดแวร์โลคัลได้ผ่าน Unsloth Dynamic GGUF
- สเปกโมเดลมีดังนี้
- พารามิเตอร์ทั้งหมด: 744B
- พารามิเตอร์ที่ active: 40B
- context window สูงสุด: 1,048,576
- มีการแนะนำว่าให้ประสิทธิภาพระดับ SOTA ในงาน long-horizon coding, reasoning และ agentic tasks
- ตามข้อมูลจาก Artificial Analysis และเบนช์มาร์กหลายชุด ระบุว่ามีประสิทธิภาพระดับเดียวกับ Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro
- Unsloth ระบุว่าได้รับ day-zero access จาก Z.ai
- ไฟล์โมเดล GGUF สำหรับ GLM-5.2 ดาวน์โหลดได้จาก Hugging Face ที่ GLM-5.2-GGUF
quant ที่แนะนำและความต้องการด้านหน่วยความจำ
- เพื่อให้สมดุลระหว่างการเข้าถึงได้ง่ายและความแม่นยำ จึงแนะนำให้ใช้ 2-bit dynamic quant คือ
UD-IQ2_M- ใช้พื้นที่ดิสก์: 239GB
- โหลดเข้า Mac ที่มี unified memory 256GB ได้โดยตรง
- หากใช้ MoE offloading ระบุว่าสามารถทำงานได้ดีแม้มีเพียง GPU 1x24GB + RAM 256GB
- 1-bit quant ใช้ RAM 223GB ส่วน 8-bit ต้องใช้ RAM 810GB
- ในตารางความต้องการฮาร์ดแวร์สำหรับ inference หน่วยความจำรวมหมายถึง RAM + VRAM หรือ unified memory
- ตัวเลขหน่วยความจำรวมที่ระบุไว้คือ 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- หากต้องการประสิทธิภาพสูงสุด หน่วยความจำที่ใช้งานได้รวมกันของ VRAM และ system RAM ควรสูงกว่า ขนาดไฟล์โมเดลหลัง quantization อย่างชัดเจน
โหมด Thinking และการตั้งค่า sampling
- GLM-5.2 มี thinking mode ให้เลือก 3 แบบ
- non-thinking
- thinking High
- thinking Max
- สำหรับงานซับซ้อน แนะนำให้ใช้ Max Thinking
- ใน Unsloth Studio สามารถสลับ High/Max Thinking และ non-Thinking ได้จาก UI
- การตั้งค่าสำหรับกรณีใช้งานส่วนใหญ่มีดังนี้
temperature = 1.0top_p = 0.95- ในโหมดอื่นให้ใช้
top_p = 1.0
- GLM-5.2 ใช้ reasoning เป็นค่าเริ่มต้น และสามารถเลือก
reasoning_effortเป็น"high","max"หรือปิดใช้งานได้ - ตัวอย่างการปิด thinking มีดังนี้
- เชลล์ทั่วไป:
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell:
--chat-template-kwargs "{\"enable_thinking\":false}"
- เชลล์ทั่วไป:
- ใน
llama.cppก็สามารถใช้--reasoning onหรือ--reasoning offได้ - ตัวอย่างการตั้งค่า reasoning effort มีดังนี้
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
การตีความความแม่นยำของ Dynamic GGUF และ KLD
- Unsloth ใช้เบนช์มาร์ก KLD (KL Divergence) เพื่อประเมินความแม่นยำของ quantization ใน GLM-5.2-GGUF
- Dynamic 4-bit
UD-Q4_K_XLและ Dynamic 5-bitUD-Q5_K_XLถูกระบุว่าโดยมากแทบจะ lossless - แม้เป็น quant ขนาดเล็กกว่า ก็ยังใช้วิธี จัดวางความละเอียดแบบไดนามิก โดยเลเยอร์สำคัญจะคง precision ที่สูงกว่า และเลเยอร์ที่สำคัญน้อยจะใช้บิตต่ำ
- ตัวเลขตามเกณฑ์ pure top-1% accuracy มีดังนี้
- Dynamic 1-bit: accuracy ราว 76.2%, ลดขนาด 86%
- Dynamic 2-bit: accuracy ราว 82%, ลดขนาด 84%
- เปรียบเทียบ accuracy:
- การที่เล็กลง 86% ไม่ได้หมายความว่าแย่ลง 86% และมีคำอธิบายเพิ่มว่า Dynamic 1-bit มีความแม่นยำต่ำกว่าโมเดลเต็มขนาด 1.5TB อยู่ราว 24%
- คำว่า “76% accuracy” ไม่ได้หมายความว่าในคำถามอย่าง “The capital of France is” โมเดลจะเลือก Paris 76% และ Sydney 24%
- ในตัวอย่างนี้ระบุว่า Paris จะยังเป็น 100% และ Sydney เป็น 0% เสมอ
- ค่าตัวเลข 76% นี้รวมถึงความเปลี่ยนแปลงของการกระจายคำประเภท filler words และ stop words ทั้งคอร์ปัสด้วย
- ในพรอมป์ต์อย่าง “Create a novel” ที่อาจมีจุดเริ่มต้นถูกต้องได้หลายแบบ การกระจายโทเค็นของโมเดล baseline กับโมเดล quantized อาจแตกต่างกัน
- baseline อาจเลือก
[I]ที่ 100% ขณะที่โมเดล quantized อาจกระจายเป็น[I]76% และ[The]24% - ตัวเลขนี้ไม่ได้หมายความว่ามีโอกาส 24% ที่จะได้ผลลัพธ์มั่วหรือผิดพลาด
- baseline อาจเลือก
- KLD คือ ระยะห่าง ระหว่างความน่าจะเป็นของ baseline แบบ BF16 หรือ Q8_0 กับความน่าจะเป็นของเวอร์ชัน quantized
- เป้าหมายของ quantization คือทำให้ค่า KL divergence เฉลี่ยระหว่าง
f(q(W))และf(W)ต่ำที่สุด fคือ language model forward,qคือ quantization operation,Wคือพารามิเตอร์หรือ weights ของโมเดล- หาก KLD เป็น 0 แปลว่าสร้างโมเดลกลับได้สมบูรณ์แบบ
- เป้าหมายของ quantization คือทำให้ค่า KL divergence เฉลี่ยระหว่าง
- การรัน KLD กับคอร์ปัสฝึกทั้งหมดระดับ 15T tokens มีต้นทุนสูงมาก ดังนั้น Unsloth จึงใช้ mean KLD และการสุ่ม subset ตัวแทนขนาดเล็กเพื่อเพิ่มประสิทธิภาพ
- ระบุว่าแม้ KLD 99.9% ก็ถือว่าดีโดยทั่วไป และตั้งแต่ 4bit ขึ้นไปจะได้ uplift มากกว่า ดังนั้นสำหรับงาน massive out-of-distribution นั้น Dynamic 4-bit น่าจะเหมาะที่สุด
การรันด้วย Unsloth Studio
- Unsloth Studio เป็น open-source web UI สำหรับ local AI และรองรับการรัน GLM-5.2
- ฟีเจอร์หลักมีดังนี้
- รันโมเดลโลคัลบน MacOS, Windows, Linux
- ค้นหา ดาวน์โหลด และรันโมเดล GGUF และ safetensor
- ตรวจจับ RAM offloading และ multiGPU setup อัตโนมัติ
- inference แบบ CPU + GPU ที่รวดเร็วผ่าน
llama.cpp
- คำสั่งติดตั้งมีดังนี้
- MacOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL:
- คำสั่งรันมีดังนี้
unsloth studio -H 0.0.0.0 -p 8888- หลังรันแล้วให้เปิด
http://127.0.0.1:8888ในเบราว์เซอร์ หรือเปิด URL ที่ระบบสร้างให้ผู้ใช้
- ยังมีวิธีรัน Studio แบบปลอดภัยผ่าน HTTPS ด้วย
- บน Windows, Mac, Linux ใช้
unsloth studio --secure - ใช้ Cloudflare tunnel ฟรี
- บน Windows, Mac, Linux ใช้
- เมื่อเปิดครั้งแรก ต้องสร้าง password เพื่อความปลอดภัยของบัญชี และหลังจากนั้นต้อง sign in ใหม่
- ในแท็บ Studio Chat ให้ค้นหา
GLM-5.2ในช่องค้นหา จากนั้นดาวน์โหลด model และ quant ที่ต้องการ - ก่อนรันโมเดลควรตรวจสอบว่ามี compute เพียงพอ
- โดยปกติ Studio ควรตั้ง inference parameters ให้อัตโนมัติ แต่ผู้ใช้สามารถปรับ context length, chat template และค่าต่าง ๆ อื่นได้เอง
- ข้อมูลเพิ่มเติมอยู่ที่ Unsloth Studio inference guide
การรันด้วย llama.cpp
- ทุตอเรียล llama.cpp ครอบคลุมการรัน quant แบบ
UD-IQ2_Mและต้องใช้ RAM ขั้นต่ำ 245GB - ใช้ llama.cpp เพื่อทำ local inference ได้รวดเร็ว
- หากไม่มี GPU หรืออยากรันแบบ CPU inference อย่างเดียว ให้เปลี่ยน
-DGGML_CUDA=ONเป็น-DGGML_CUDA=OFF - สำหรับ Apple Mac / อุปกรณ์ Metal ให้ใช้
-DGGML_CUDA=OFFโดย Metal support เปิดใช้งานอยู่แล้วเป็นค่าเริ่มต้น - ขั้นตอนการ build มีลำดับดังนี้
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
llama.cppสามารถใช้โหลดและดาวน์โหลดโมเดลได้โดยตรง คล้ายollama run- ตัวอย่างประเภท quantization ที่เลือกใช้คือ
UD-IQ2_Mและสามารถบังคับตำแหน่งจัดเก็บด้วยexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF" - มีคำแนะนำว่ากระบวนการดาวน์โหลดโดยตรงของ
llama.cppอาจช้ามาก จึงควรใช้วิธีดาวน์โหลดด้วยตนเองแทน
ตัวอย่างการดาวน์โหลดและรันแบบแมนนวล
- สำหรับการดาวน์โหลดด้วยตนเองที่เร็วกว่า ให้ใช้ huggingface_hub
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- หากต้องการแบบ near full precision สามารถใช้
--include "*UD-Q8_K_XL*" - หากการดาวน์โหลดค้าง มีคำแนะนำให้ดู Hugging Face Hub, XET debugging
- คำสั่งดาวน์โหลด Dynamic 1-bit มีดังนี้
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- พาธโมเดลใน conversation mode มีดังนี้
- 2-bit:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit:
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit:
- ตัวอย่างการรัน
llama-cliกำหนด shard แรกของ 2-bit GGUF ผ่าน--modelและใช้พารามิเตอร์ดังนี้--temp 1.0--top-p 0.95--min-p 0.01
- ในตัวอย่างการรันโดยตรงยังใช้
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_Mได้ด้วย
พฤติกรรมที่ยืนยันจากตัวอย่างการสร้าง
- ในเอกสารมีตัวอย่างที่ 2-bit GLM-5.2 ทำ tool-calling และสร้าง SVG ได้
- หลังรัน
llama-cliแล้วมีตัวอย่างการสั่งให้สร้าง “short Flappy Bird game” - เกม HTML/JavaScript ไฟล์เดียวที่สร้างขึ้นใช้ชื่อ
Sunset Flier- มี
canvas, หน้าจอเริ่มต้น, หน้าจอเกมโอเวอร์, HUD คะแนน,NEW BEST!, ปุ่มRETRY - สร้างเสียงเอฟเฟกต์
flap,score,hit,dieผ่าน Web Audio API โดยไม่ใช้ไฟล์ภายนอก - สถานะเกมจัดการเป็น 4 ขั้นคือ
READY,PLAYING,DYING,OVER - คะแนนสูงสุดถูกเก็บด้วย
localStorage.getItem('sunsetFlierBest')และlocalStorage.setItem()
- มี
- ลอจิกเกมมีแรงโน้มถ่วง, flap impulse, ท่อสุ่ม, การชน, อนุภาค, การสั่นหน้าจอ และระบบเหรียญรางวัล
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- อินพุตรองรับเมาส์, ทัช และคีย์บอร์ด
Space,ArrowUp,Enter - ตัวอย่างเกมนี้ถูกยกมาในบริบทว่าแม้ใช้ 1-bit quantization ก็ยังทำงานได้ดีและเสียงก็ทำงานปกติ
long context และ KV cache quantization
- หากต้องการใช้ long context ใน
llama.cppจำเป็นต้องลดการใช้หน่วยความจำด้วย KV cache quantization - ล่าสุด
llama.cppเพิ่มเทคนิคสำหรับ KV cache quantization เพื่อให้ได้ความแม่นยำสูงขึ้น โดย PR ที่เกี่ยวข้องคือhttps://github.com/ggml-org/llama.cpp/pull/21038 - dtype ของ KV cache ที่รองรับมีดังนี้
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- ค่าเริ่มต้นคือ
f16 q4_0ใช้ประมาณ 4.5 บิตต่อ weight จึงทำให้ความยาว context เพิ่มได้เป็น16 / 4.5หรือราว 3.5 เท่า- เช่น โมเดลที่เดิมรองรับ 10K อาจขยายไปอยู่ในช่วง 35K ได้
q4_1มี shifting parameter เพิ่มเข้ามา จึงอาจให้ผลดีกว่า และด้วย 5 บิตต่อ weight ทำให้รองรับ context ยาวขึ้นราว 3.2 เท่า- ตัวอย่างการรัน KV cache quantization กำหนดโมเดล GLM-5.2 GGUF พร้อม sampling parameters ดังนี้
- พาธโมเดล:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- พาธโมเดล:
ตัวเลขที่ตรวจสอบได้จากตารางเบนช์มาร์ก
- เอกสารมีตารางเบนช์มาร์กของ GLM-5.2 ต่อจากนี้ แต่ในข้อมูลที่ให้มาไม่มีหัวคอลัมน์ จึงไม่สามารถระบุได้ว่าตัวเลขแต่ละตัวสอดคล้องกับโมเดลหรือการตั้งค่าใด
- เบนช์มาร์กด้าน Reasoning มีแถวและตัวเลขดังนี้
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- เบนช์มาร์กด้าน Coding มีแถวและตัวเลขดังนี้
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- เบนช์มาร์กด้าน Agentic มีแถวและตัวเลขดังนี้
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
กำลังรัน Q4_K_XL อยู่ ถ้าจะให้ได้ราว 6tk/sec ก็ใช้ RAM 512GB กับ RTX 3090 สองใบ และ
llama.cpp -cmoeก็พอตอนนี้ยังติดที่ DDR4 2400MHz กาก ๆ เลยได้แค่นี้ แต่ถ้าเป็น 3200MHz ก็น่าจะขึ้นไปได้ประมาณ 9tk/sec CPU ก็เป็น EPYC 32 คอร์ ถือว่าโอเค แต่ถ้าได้ 64 คอร์ที่ดีกว่านี้ก็น่าจะไปถึง 11tk/sec ได้
ตอนประกอบตั้งใจคุมงบก่อนที่ราคาฮาร์ดแวร์จะบ้าคลั่งไปกว่านี้ ทุกวันนี้ก็ยังเสียดายอยู่ แต่การที่สามารถรันโมเดลนี้ที่บ้านได้ก็ยอดเยี่ยมมาก เหมาะกับงานวางแผนหรือรวบรวมบริบทที่ต้องใช้ให้ครบก่อนโยนเป็น one-shot prompt
ค่าเครื่องทั้งหมดตอนประกอบอยู่ที่ 2,400 ดอลลาร์ และถ้าหาข้อมูลกับเลือกของดี ๆ ก็ยังมีทางรันโมเดลระดับนี้ที่บ้านได้ คนชอบถามว่าทำไปทำไม หรือถ้าใช้ cloud API จะประหยัดกว่าแค่ไหน แต่ผมมองว่าเรื่อง Fable แสดงให้เห็นคุณค่าของการ รันใช้งานแบบอิสระ
ขอบคุณทีม unsloth และ Q4_K_XL ก็ทำออกมาได้แข็งแรงดี ถ้าจะโหลดโมเดลแบบ quantized และเครื่องคุณพอรับไหว ก็ควรเลือก ตัวแปร K_XL
นักวิจัยที่พยายามยัดโอเพนซอร์สโมเดลลงไปในแปรงสีฟันไฟฟ้าหรือ Tamagotchi ก็เท่มากเหมือนกัน
ถ้าไม่ได้ต้องการความเป็นส่วนตัวหรือความพอใจจากการเป็นเจ้าของเองจริง ๆ การจ่ายให้ hyperscaler จะถูกกว่า สะดวกกว่า และเร็วกว่าเยอะในแง่โทเคนต่อวินาที
ถึงอย่างนั้นก็ชอบทิศทางนี้ และอยากเห็นว่าอีก 2 ปีฮาร์ดแวร์ self-hosted จะไปได้ไกลแค่ไหน
ใช้งานสนุกมาก และอยากลองรันโมเดลนี้เร็ว ๆ
นอกจากรันโมเดลโลคัลแล้ว ยังใช้เครื่องนี้เป็นแพลตฟอร์มพัฒนาระยะไกลหลักด้วย ตอนนี้ทุก Claude Code session ของผมรันบนเครื่องนั้นผ่าน
tmuxหมดแล้วไม่ต้องจับโน้ตบุ๊กที่ร้อนตลอดเวลาอีกต่อไป นิ้วเลยมีความสุขขึ้นมาก และ Claude Code ก็กินแบตหนักจริงด้วย
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
แค่ RAM ก็เกือบ 5,000 ดอลลาร์แล้ว GPU ก็ราว ๆ ใบละ 2,000 ดอลลาร์ จึงนับว่าเป็นฮาร์ดแวร์ที่ค่อนข้างแพงในราคาปัจจุบัน
llama.cppสำหรับโมเดลนี้ยังไม่รองรับ DSA sparse attention จึงยังค่อนข้างไม่สมบูรณ์นั่นทำให้ต้องใช้กลไกอื่นที่ไม่ได้ใช้ตอนเทรนมาเพื่อรันโมเดล และมีรายงานว่าคุณภาพกับประสิทธิภาพลดลง
อย่างไรก็ตาม ผมคิดว่า GLM 5.2 ยังไม่น่าสนใจเท่าตระกูล DeepSeek V4 ในหลายด้าน DeepSeek V4 ใช้กลไก attention ที่ก้าวหน้ากว่า จึงประหยัดหน่วยความจำ KV cache ได้มากกว่า โดยเฉพาะกับบริบทยาว ๆ
ผลคือสามารถรองรับ batch ขนาดใหญ่บนแพลตฟอร์มระดับผู้บริโภคได้ แต่ GLM ไม่มีตรงนี้ และในเชิงสถาปัตยกรรมพื้นฐานก็ให้ความรู้สึกคล้าย Kimi 2.6 โดยรวม ทั้งคู่หนักไปนิดสำหรับการรันเต็มคุณภาพบนฮาร์ดแวร์ทั่วไปอย่างสมเหตุสมผล
เกือบได้แล้ว เครื่องผมเป็น RAM 192GB + RTX 3090 24GB และแทบจะรันตัวนี้ได้อยู่แล้ว
สำหรับ MoE offloading ดูเหมือนจะต้องใช้ VRAM 24GB กับ RAM 256GB
https://unsloth.ai/docs/models/glm-5.2#usage-guide
ในเธรดก่อนหน้านี้มีคนบอกว่าฮาร์ดแวร์ต้องใช้เงิน 500,000 ดอลลาร์
https://news.ycombinator.com/item?id=48629970
แต่ถ้าใช้ NVFP4 แล้วต้องการความเร็วพอใช้ได้ ประมาณ 120 tok/s พร้อมคอนเคอร์เรนซี ก็ทำได้ในช่วงราคา 80,000~90,000 ดอลลาร์ ตามราคาปัจจุบัน หรืออาจต่ำกว่านั้นด้วยซ้ำ
เงินระดับนั้นซื้อ RTX 6000 PRO Blackwell ได้ 6 ใบ พร้อม CPU เมนบอร์ด และ PSU ที่ดีพอ โดยจะมี VRAM รวม 576GB
ถ้ารับได้กับ decode 40 tok/s และ prefill ราว 1200 tok/s ก็อาจทำได้ต่ำกว่า 50,000 ดอลลาร์
หนึ่งในเหตุผลที่ฮาร์ดแวร์ค่อนข้างนิ่งในช่วง 20 ปีที่ผ่านมา น่าจะเป็นเพราะองค์กรต่าง ๆ ไม่มี use case มากพอจะอธิบายการเปลี่ยนฮาร์ดแวร์
ในช่วง 15 ปีที่ผ่านมา เงินและพลังงานส่วนใหญ่เทไปที่มือถือ
inference แบบโลคัลที่ราคาถูกอาจกลายเป็นแหล่งรายได้ที่ผู้ผลิตเซิร์ฟเวอร์ เดสก์ท็อป และโน้ตบุ๊กต้องการเพื่อเริ่มขยับตัวอีกครั้ง
แอบอยากลองซื้อ GPU ที่มี RAM 24GB มาสักตัวเหมือนกัน
คำว่า “ใส่ได้” หมายถึงใส่ใน RAM 256GB ได้ แต่จะอยู่ในสภาพที่ถูก quantize หนักมาก และก็ยังรันได้ช้ามากอยู่ดี
ตัวเลขในพาดหัวไม่ใช่ความเร็วในการสร้างโทเคน แต่เป็น ความเร็วในการประมวลผลพรอมป์ต์
ถ้าได้ 10 tok/s และ API ได้ 20~30 tok/s ภายนอกอาจดูเหมือนไม่ได้แย่นัก แต่ Mac Studio หรือเครื่องที่ไม่ได้เอาทั้งหมดขึ้น GPU จะประมวลผลพรอมป์ต์ช้ากว่าชุดที่เป็น GPU ล้วน 20~50 เท่า
สุดท้ายประเด็นนี้เองที่ทำให้ใช้งานจริงไม่ได้ถ้าไม่จ่าย 50,000 ดอลลาร์ ไปกับ GPU แถมก็ยังต้องใช้โมเดลที่ถูก quantize หนักอยู่ดี
ยังมีรุ่นพอร์ตคู่สำหรับอุปกรณ์แบบนี้ด้วย: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
นั่นคือพอร์ต 2 x 100GB/s และอาจจะเป็น 2 x 200GB/s ก็ได้ คงต้องรู้มากขึ้นถ้าได้ของมาลองเอง
อุปกรณ์พวกนี้สามารถทำคลัสเตอร์ได้ด้วย ถ้า 2 หรือ 3 เครื่อง การใช้ IP subnet 2 ชุดก็ดูค่อนข้างชัดเจน ถ้า 4 เครื่องขึ้นไปอาจต้องมีสวิตช์ ขึ้นอยู่กับว่า network latency จะมีผลมากแค่ไหน
ดูเหมือน Apple จะลืม M series ที่ใส่ RAM เยอะ ๆ ไปแล้ว หาแบบที่มีหน่วยความจำรวมเกิน 96GB ใน Apple Store ไม่เจอเลย และต่อให้มี ราคาก็ระดับขายไต
ตอนนี้กำลังเร่งกันจากหลายทิศทาง: AI desktop รุ่นใหม่ที่ใช้ GB10 มีราคาค่อนข้างจับต้องได้ และสามารถทำคลัสเตอร์ให้ได้ VRAM 1TB
Nvidia, AMD, Intel, Cerebras และรายอื่น ๆ กำลังดันฮาร์ดแวร์ใหม่ ขณะที่โมเดลโอเพนซอร์สอย่าง GLM 5.2 ก็ดีขึ้นแบบเหลือเชื่อ
โมเดลแฟลชอย่าง DeepSeek V4 Flash ก็พัฒนาขึ้นมาก และ quantization ก็ยังดีขึ้นเรื่อย ๆ
เริ่มมีความเป็นไปได้ที่จะทำ harness ที่ใช้โมเดลต่างกัน เช่น โมเดลใหญ่ไว้ทำงานยาก โมเดลเล็กไว้ทำงานจุกจิก
ดังนั้นคนที่อยากหลุดจาก API ก็น่าจะหวังได้ว่าอีกไม่นานจะโฮสต์ AI desktop cluster ราคาสมเหตุสมผลไว้ที่บ้านและได้ ประสิทธิภาพระดับ Opus
แม้จะถูกกว่า H200 ระดับใกล้เคียง แต่สำหรับโฮมแล็บที่ไม่ได้มีเงินจาก OpenAI หรือ Anthropic RSU หนุนหลัง ก็ยังไกลเกินเอื้อมอยู่ดี
รู้สึกเหมือน ช่องว่างกำลังแคบลง จนถึงระดับที่รันโมเดลโลคัลที่ดีพอได้ แม้กระทั่งงานเขียนโค้ด และดูเหมือนบางบริษัทน่าจะเริ่มกังวล หรือผมคิดผิด?
แต่ ณ ตอนนี้ คนที่สามารถจ่ายค่าอุปกรณ์สำหรับรันโมเดลพวกนี้ได้อย่างมีประสิทธิภาพยังมีน้อยมาก และอีกหลายปีก็คงไม่เปลี่ยนมากนัก
ถ้า Z.ai ออกรุ่นอย่าง GLM-5.2 Flash ที่เน้นงานโค้ดในขนาดราว 80B พารามิเตอร์ แล็บชั้นแนวหน้าในสหรัฐน่าจะกังวลมากขึ้น
โดยรวมแล้ว บริษัท AI ของจีนกำลังแสดงให้เห็นว่าทำงานแบบเดียวกันได้ด้วยทรัพยากรน้อยกว่า บางครั้งน้อยกว่ามาก และถ้าแนวโน้มนี้ยังต่อเนื่อง ก็จะทำให้แล็บชั้นแนวหน้ากังวล
อย่างไรก็ตาม บริษัท AI จีนเองก็คงพยายามปกป้องคูเมืองของตัวเอง โดยไม่ปล่อยโมเดลที่เล็กกว่ามากแต่ยังทรงพลังเมื่อเทียบกับโมเดลหลักในปัจจุบัน
ตอนนี้ Alibaba Qwen ดูเหมือนจะอยู่ในจุดนั้น ช่วงหลังค่อนข้างเงียบ และโมเดล 395B ล่าสุดก็ใหญ่เกินกว่าที่คนส่วนใหญ่จะรันที่บ้านได้ คราวนี้ก็ยังไม่เห็นสัญญาณว่าจะออกโมเดลที่เล็กลง
ถ้าทีมพัฒนามีสัก 10 คน การลงทุนครั้งเดียว 50,000 ดอลลาร์กับเซิร์ฟเวอร์ LLM อาจเป็นตัวเลือกที่น่าสนใจมาก
ได้โทเคนไม่จำกัด ประสิทธิภาพโอเค มีทางเลือกในการอัปเกรด และมีโอกาสในการผสานเข้ากับผลิตภัณฑ์
โดยทั่วไป ถ้าเป็นบริษัทที่คิดจะใส่ LLM เข้าไปในผลิตภัณฑ์ วิธีใช้ LLM แบบโลคัลยิ่งน่าดึงดูดเข้าไปอีก โมเดลที่อาจจะดูทึ่มหน่อยก็ยังดีพอสำหรับหลายกรณีการใช้งานที่คนเอาไปฝังในผลิตภัณฑ์
แต่ตัวเลือกมีแค่บิลด์ CPU ที่ช้ามหาศาลพร้อม RAM มูลค่า 10,000 ดอลลาร์, หรือ GPU มูลค่า 90,000 ดอลลาร์, หรือไม่ก็โมเดลที่ถูก quantize หนักจนเทียบคุณภาพได้ยาก
จะประกอบไว้เล่นสนุกสักชุดก็ได้ แต่แค่นั้นไม่ได้ทำให้ความคุ้มค่าเปลี่ยนไป ถึงอย่างนั้น แค่รู้ว่าทำได้ก็ยังน่าสนใจ
OpenAI และ Anthropic น่าจะไม่ชอบ จังหวะเวลาที่ GLM 5.2 เปิดตัว
มันแสดงให้เห็นค่อนข้างชัดว่าไม่ได้มีคูเมืองวิเศษอะไร แค่ได้เปรียบจากการออกตัวก่อนเท่านั้น
ใช้ Mac Studio RAM 192GB ได้ แต่ก็ยังต่ำกว่าค่า RAM ขั้นต่ำที่ระบุไว้
โดยเฉพาะเพราะมันเป็น MoE ถ้าสลับไปใช้ดิสก์เร็ว ๆ จะพอทำให้มันรันได้ไหม?
แถมประสิทธิภาพก็น่าจะเละเทะระดับ 0.1 tok/s
ผมเคารพ unsloth มากกับงานที่ช่วยให้คนนับล้านเริ่มใช้ AI แบบโลคัลได้ แต่โพสต์นี้ดูคล้าย bait ให้ดาวน์โหลด นิด ๆ
ถ้า offload layer ไป CPU มากเกินไป มันจะใช้งานได้ไม่ดีเลย ผมลองมาหลายรอบแล้ว สุดท้ายก็ต้อง
rm -rfโฟลเดอร์ Hugging Face cache หนัก ๆ ทิ้งผมยังสงสัยด้วยว่าการรัน quantization 1-bit หรือ 2-bit ของ GLM 5.2 โดยที่ส่วนใหญ่ไม่ได้อยู่ใน VRAM จะมีประโยชน์กว่าการรัน Qwen3.6-27B Q8_0 ที่ลง VRAM ได้ครบทั้งโมเดลหรือไม่
ไม่ว่าบทความจะเขียนว่าอะไร คนที่พยายามรันสิ่งนี้บนเครื่อง RAM 256GB ก็น่าจะไม่ได้มีช่วงเวลาที่ดีนัก
ขั้นต่ำที่สมจริงกว่าน่าจะเป็น 512GB
โชคดีที่ผมมีเวิร์กสเตชัน dual Xeon พร้อม RAM 512GB อยู่ 2 เครื่องในโฮมออฟฟิศ ซื้อมาได้ถูกก่อนราคาจะขึ้น เลยพอจะลองอะไรได้หลายอย่าง