- GLM-4.7-Flash เป็นโมเดลภาษาขนาดใหญ่ที่มีสถาปัตยกรรม 30B-A3B MoE โดยมอบสมดุลระหว่างประสิทธิภาพและประสิทธิผลในการใช้งานในฐานะ โมเดลสำหรับการดีพลอยแบบน้ำหนักเบา
- ทำคะแนนได้สูงใน การทดสอบเบนช์มาร์ก หลายรายการ เช่น AIME 25, GPQA และ SWE-bench พร้อมผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับโมเดลระดับเดียวกันอย่าง Qwen3-30B/GPT-OSS-20B
- มุ่งสู่ประสิทธิภาพระดับสูงสุดในกลุ่มโมเดลขนาด 30B และเป็นความก้าวหน้าสำคัญสำหรับ งานวิจัย AI แบบโอเพนซอร์สและการเพิ่มประสิทธิภาพการดีพลอย
แนะนำ (Introduction)
- GLM-4.7-Flash เป็นโมเดล 30B-A3B Mixture-of-Experts(MoE) ที่มุ่งเป้าไปที่ประสิทธิภาพอันทรงพลังที่สุดในกลุ่มโมเดลระดับ 30B
- มี ตัวเลือกการดีพลอยแบบน้ำหนักเบา ที่ให้ความสำคัญกับความสมดุลระหว่างประสิทธิภาพและประสิทธิผล
- ออกแบบมาเพื่อให้ใช้งานโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพมากขึ้น
ประสิทธิภาพบนเบนช์มาร์ก (Performances on Benchmarks)
- แสดงตัวเลขประสิทธิภาพของ GLM-4.7-Flash ใน การทดสอบเบนช์มาร์กมาตรฐาน ที่หลากหลาย
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 ได้ 85.0, GPT-OSS-20B ได้ 91.7)
- GPQA: 75.2 (สูงกว่าโมเดลเปรียบเทียบ)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (ทิ้งห่างโมเดลอื่นอย่างชัดเจน)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- ในหลายรายการให้ผลลัพธ์ที่เหนือกว่า Qwen3-30B-A3B-Thinking-2507 และ GPT-OSS-20B
การดีพลอยบนเครื่องโลคัล (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash รองรับเฟรมเวิร์กอนุมาน vLLM และ SGLang
4 ความคิดเห็น
ถ้า 30B แบบนี้... ต้องใช้ VRAM เท่าไหร่กันนะ? ฮือ
เป็น 30B A3B เลยไม่ได้หนักขนาดนั้น
แต่ก็ต้องมีพื้นที่สำหรับ 30B อยู่ดี แต่พอมีพื้นที่แล้ว active parameters มีแค่ 3B เลยทำงานได้เร็ว
เลยเหมือนจะเคยเห็นวิธีเพิ่มประสิทธิภาพแบบโหลดเฉพาะเลเยอร์ที่ถูกใช้งานบ่อยขึ้นไปไว้บน VRAM
VRAM 24GB..? หรือถ้าเป็น Mac ก็น่าจะต้องมี RAM 32GB ถึงจะเป็นขั้นต่ำได้ครับ
ความคิดเห็นจาก Hacker News
VRAM เหลือเฟือพอจะใช้คอนเท็กซ์ 128k ได้สบาย
เท่าที่ลองมา Qwen3-coder ให้ผลลัพธ์ดีที่สุด ส่วน Nemotron 3 Nano แม้บนเบนช์มาร์กจะดูดีกว่า แต่สำหรับงานหลักของฉันอย่าง “การเขียนโค้ดทดสอบ” ยังไม่รู้สึกว่าต่างกันมาก
ถ้ามีใครควอนไทซ์เป็น 4bit GGUF ให้เมื่อไร ฉันจะลองแน่นอน Codex คุณภาพสูงก็จริงแต่ช้าเกินไป หวังว่าโมเดลเล็ก ๆ จะดีขึ้นเรื่อย ๆ ไม่ใช่แค่ในเบนช์มาร์กแต่รวมถึงคุณภาพการใช้งานจริงด้วย
ใช้ทั้ง claude-code และ opencode แต่ช่วงหลังใช้ opencode บ่อยกว่า เพราะ claude-code ถูกปรับมาให้เหมาะกับโมเดลของ Anthropic
รุ่นที่ปล่อยครั้งนี้เป็นเวอร์ชัน “-Flash” โดยข้ามจาก 4.5-Flash ไปเลย ไม่ได้มี 4.6-Flash และตามเอกสารระบุว่าเป็นโมเดลระดับเดียวกับ Haiku โดยตั้งค่าไว้เป็น
ANTHROPIC_DEFAULT_HAIKU_MODELโมเดลเปิดยังตามหลังในเบนช์มาร์กราว 1 ปี แต่ในระยะยาวก็น่าสนใจ
GLM มีพารามิเตอร์ 355B แต่เปิดใช้งานเพียง 31B จึงโฮสต์เองได้ยาก แต่ฉันคิดว่าเป็นตัวเลือกที่ใช้กับ Cerebras endpoint ได้ดี
โทเค็นที่แคชไว้ยังมีค่าใช้จ่ายด้วย งานง่าย ๆ งานเดียวฉันเสียไป $4 ถ้าใช้ GPT-5.2-Codex คงไม่ถึง $0.5
พรอมป์ต์โค้ดสองครั้งให้โค้ดผิดและลูปไม่รู้จบทั้งคู่ อาจเป็นปัญหาจากวิธีควอนไทซ์ของ LMStudio ก็ได้ แต่ความประทับใจแรกไม่ดีเลย
ลิงก์ที่เกี่ยวข้อง: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends จากนั้นคุยผ่าน http://127.0.0.1:8080 หรือเข้าถึงผ่าน OpenAI-compatible API ได้
แต่ช่วงหลังโมเดลเพิ่งออกใหม่อาจมี บั๊ก ควรรออัปเดตอีกสักสองสามวัน
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mก็ได้ เร็วดี แต่เทมเพลตยังไม่เสร็จทำให้เอาต์พุตเละอยู่ ตอนนี้กำลังรอเทมเพลตทางการขึ้นบน ollama.com“GLM-4.7-Flash เป็น โมเดลน้ำหนักเบาและประสิทธิภาพสูง เป็นเวอร์ชันฟรีของ GLM-4.7 และให้ latency ต่ำกับ throughput สูงในงานเขียนโค้ด การให้เหตุผล และงานสร้างสรรค์
อีกทั้งยังมีประสิทธิภาพแข็งแกร่งในงานแปลภาษา โรลเพลย์ และการสร้างสรรค์เชิงสุนทรียะ”
ดูรายละเอียดเพิ่มเติมได้ใน บันทึกรีลีสอย่างเป็นทางการ
ตอนนี้คุณสามารถรัน AI ระดับ GPT-5-mini แบบโลคัลได้บน MacBook RAM 32GB
และค่าใช้จ่ายของ LLM-as-a-service ก็ถูกลงมาก — เหลือราว 1/10 ของราคา เมื่อเทียบกับ Haiku 4.5
GLM 4.7 ใช้งานทั่วไปได้สบาย แต่บางครั้ง ความสามารถในการเข้าใจคำสั่ง ยังไม่ดีพอจนหงุดหงิด