11 คะแนน โดย GN⁺ 2026-01-20 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • GLM-4.7-Flash เป็นโมเดลภาษาขนาดใหญ่ที่มีสถาปัตยกรรม 30B-A3B MoE โดยมอบสมดุลระหว่างประสิทธิภาพและประสิทธิผลในการใช้งานในฐานะ โมเดลสำหรับการดีพลอยแบบน้ำหนักเบา
  • ทำคะแนนได้สูงใน การทดสอบเบนช์มาร์ก หลายรายการ เช่น AIME 25, GPQA และ SWE-bench พร้อมผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับโมเดลระดับเดียวกันอย่าง Qwen3-30B/GPT-OSS-20B
  • มุ่งสู่ประสิทธิภาพระดับสูงสุดในกลุ่มโมเดลขนาด 30B และเป็นความก้าวหน้าสำคัญสำหรับ งานวิจัย AI แบบโอเพนซอร์สและการเพิ่มประสิทธิภาพการดีพลอย

แนะนำ (Introduction)

  • GLM-4.7-Flash เป็นโมเดล 30B-A3B Mixture-of-Experts(MoE) ที่มุ่งเป้าไปที่ประสิทธิภาพอันทรงพลังที่สุดในกลุ่มโมเดลระดับ 30B
    • มี ตัวเลือกการดีพลอยแบบน้ำหนักเบา ที่ให้ความสำคัญกับความสมดุลระหว่างประสิทธิภาพและประสิทธิผล
    • ออกแบบมาเพื่อให้ใช้งานโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพมากขึ้น

ประสิทธิภาพบนเบนช์มาร์ก (Performances on Benchmarks)

  • แสดงตัวเลขประสิทธิภาพของ GLM-4.7-Flash ใน การทดสอบเบนช์มาร์กมาตรฐาน ที่หลากหลาย
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 ได้ 85.0, GPT-OSS-20B ได้ 91.7)
    • GPQA: 75.2 (สูงกว่าโมเดลเปรียบเทียบ)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (ทิ้งห่างโมเดลอื่นอย่างชัดเจน)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • ในหลายรายการให้ผลลัพธ์ที่เหนือกว่า Qwen3-30B-A3B-Thinking-2507 และ GPT-OSS-20B

การดีพลอยบนเครื่องโลคัล (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash รองรับเฟรมเวิร์กอนุมาน vLLM และ SGLang
    • ทั้งสองเฟรมเวิร์กรองรับเฉพาะบน เมนบรานช์ เท่านั้น
    • ตรวจสอบคำแนะนำการดีพลอยได้ที่ GitHub repository ทางการ (zai-org/GLM-4.5)

4 ความคิดเห็น

 
kimjoin2 2026-01-20

ถ้า 30B แบบนี้... ต้องใช้ VRAM เท่าไหร่กันนะ? ฮือ

 
crawler 2026-01-21

เป็น 30B A3B เลยไม่ได้หนักขนาดนั้น
แต่ก็ต้องมีพื้นที่สำหรับ 30B อยู่ดี แต่พอมีพื้นที่แล้ว active parameters มีแค่ 3B เลยทำงานได้เร็ว

เลยเหมือนจะเคยเห็นวิธีเพิ่มประสิทธิภาพแบบโหลดเฉพาะเลเยอร์ที่ถูกใช้งานบ่อยขึ้นไปไว้บน VRAM

 
geekygeek 2026-01-20

VRAM 24GB..? หรือถ้าเป็น Mac ก็น่าจะต้องมี RAM 32GB ถึงจะเป็นขั้นต่ำได้ครับ

 
GN⁺ 2026-01-20
ความคิดเห็นจาก Hacker News
  • ช่วงนี้ฉันกำลังทดลองกับ OpenCode และรันโมเดล 30B-A3B ด้วย llama.cpp (4bit) บน GPU 32GB
    VRAM เหลือเฟือพอจะใช้คอนเท็กซ์ 128k ได้สบาย
    เท่าที่ลองมา Qwen3-coder ให้ผลลัพธ์ดีที่สุด ส่วน Nemotron 3 Nano แม้บนเบนช์มาร์กจะดูดีกว่า แต่สำหรับงานหลักของฉันอย่าง “การเขียนโค้ดทดสอบ” ยังไม่รู้สึกว่าต่างกันมาก
    ถ้ามีใครควอนไทซ์เป็น 4bit GGUF ให้เมื่อไร ฉันจะลองแน่นอน Codex คุณภาพสูงก็จริงแต่ช้าเกินไป หวังว่าโมเดลเล็ก ๆ จะดีขึ้นเรื่อย ๆ ไม่ใช่แค่ในเบนช์มาร์กแต่รวมถึงคุณภาพการใช้งานจริงด้วย
    • ขอแนะนำโมเดล GLM-4.7-GGUF และยังมีงานควอนไทซ์ดี ๆ อีกจาก 0xSero
    • ปกติ Codex ให้คุณภาพสูงกว่า แต่บางครั้งก็ให้ผลลัพธ์ระดับ AI slop จนกลายเป็นว่าต้องรอนานทั้งที่งานเดียวกันใช้ Opus แค่ไม่กี่นาทีก็จบ
  • ฉันใช้ GLM-4.7 ผ่านแพลนสำหรับเขียนโค้ดของ z.ai และความคุ้มค่าต่อราคาน่าทึ่งมาก
    ใช้ทั้ง claude-code และ opencode แต่ช่วงหลังใช้ opencode บ่อยกว่า เพราะ claude-code ถูกปรับมาให้เหมาะกับโมเดลของ Anthropic
    รุ่นที่ปล่อยครั้งนี้เป็นเวอร์ชัน “-Flash” โดยข้ามจาก 4.5-Flash ไปเลย ไม่ได้มี 4.6-Flash และตามเอกสารระบุว่าเป็นโมเดลระดับเดียวกับ Haiku โดยตั้งค่าไว้เป็น ANTHROPIC_DEFAULT_HAIKU_MODEL
    • อยากรู้เหมือนกันว่าช่วงนี้ประสิทธิภาพเป็นอย่างไร ได้ยินว่าบางคนเจอการเปลี่ยนลิมิตจนแทบใช้งานไม่ได้
    • ฉันก็ใช้แพลนเดียวกัน ซื้อช่วงโปรโมชัน 12 เดือน $28 และได้ ปริมาณการใช้งานมากกว่า 5 เท่า เมื่อเทียบกับ Claude Pro ตอนนี้ฉันใช้แค่ claude code อย่างเดียว
  • GLM-4.7 เป็นการพัฒนาแบบค่อยเป็นค่อยไป แต่ดูค่อนข้างแข็งแรง เดโม UI oneshot ดีขึ้นจาก 4.6 มาก
    โมเดลเปิดยังตามหลังในเบนช์มาร์กราว 1 ปี แต่ในระยะยาวก็น่าสนใจ
    GLM มีพารามิเตอร์ 355B แต่เปิดใช้งานเพียง 31B จึงโฮสต์เองได้ยาก แต่ฉันคิดว่าเป็นตัวเลือกที่ใช้กับ Cerebras endpoint ได้ดี
    • เมื่อวานฉันทดสอบ GLM-4.7 ที่ Cerebras (ไม่ใช่ Flash) ด้วยเครดิต $10 มันเร็วที่ 1000 โทเค็นต่อวินาที แต่ใช้งานจริงไม่สะดวกเพราะ rate limit แรงมาก แม้โทเค็นที่แคชไว้ก็ยังนับรวมในลิมิต ทำให้ต้นแต่ละนาทีโดนบล็อกแล้วต้องรอ
      โทเค็นที่แคชไว้ยังมีค่าใช้จ่ายด้วย งานง่าย ๆ งานเดียวฉันเสียไป $4 ถ้าใช้ GPT-5.2-Codex คงไม่ถึง $0.5
    • พูดถึงแต่เบนช์มาร์กกันเยอะ แต่ของจริงกับเวิร์กโหลดจริงไม่เหมือนกัน ฉันเลิกใช้ claude แล้วเปลี่ยนมาใช้ minimax m2.1 พอลองใช้กับ open code แล้วกลับชอบมากกว่า แพลน $10 ก็พอแล้ว
    • สุดท้ายแล้วโมเดลเปิดก็ตามหลังด้วย distillation อยู่ดี ถ้าไม่มีนวัตกรรมใหม่ก็จะตามหลังเสมอ ไม่ใช่ “ไล่ทัน” แต่เหมือนรถพ่วงที่ลากท้ายรถบรรทุกมากกว่า
    • การตัดสินคุณภาพโมเดลจากเดโม UI นั้นไม่เหมาะ ถ้า UI อยู่นอก distribution ส่วนใหญ่ก็ล้มเหลว แม้แต่ Codex ก็ยังไม่สมบูรณ์
  • ฉันลองรันบน LMStudio ด้วย M4 MacBook Pro แล้วรู้สึกว่าแย่กว่า gpt-oss-20b มาก
    พรอมป์ต์โค้ดสองครั้งให้โค้ดผิดและลูปไม่รู้จบทั้งคู่ อาจเป็นปัญหาจากวิธีควอนไทซ์ของ LMStudio ก็ได้ แต่ความประทับใจแรกไม่ดีเลย
    • อยากรู้ว่าใช้ โมเดลเต็ม BF16 หรือเวอร์ชัน mlx4 quantization
  • อยากถามคนที่รันในเครื่องตัวเองอยู่แล้ว — ตอนนี้เซ็ตอัปที่ง่ายที่สุดคืออะไรบ้าง ทั้งเครื่องมือและฟอร์แมตการควอนไทซ์? ถ้ามีตัวอย่างคำสั่งที่ใช้ได้จริง รบกวนแชร์ด้วย
    • ฉันใช้ llama-server ที่คอมไพล์ด้วย CUDA backend ของ llama.cpp รันเวอร์ชัน Q4_K_M quant บน Lubuntu + RTX 3090
      ลิงก์ที่เกี่ยวข้อง: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      จากนั้นคุยผ่าน http://127.0.0.1:8080 หรือเข้าถึงผ่าน OpenAI-compatible API ได้
      แต่ช่วงหลังโมเดลเพิ่งออกใหม่อาจมี บั๊ก ควรรออัปเดตอีกสักสองสามวัน
    • รันด้วยคำสั่ง ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M ก็ได้ เร็วดี แต่เทมเพลตยังไม่เสร็จทำให้เอาต์พุตเละอยู่ ตอนนี้กำลังรอเทมเพลตทางการขึ้นบน ollama.com
    • ใน LM Studio แค่ค้นหา “4.7-flash” แล้วติดตั้งเวอร์ชัน community ของ mlx
    • ส่วนตัวฉันแนะนำ llama.cpp 4bit quant หรือ wrapper ของมัน
  • ตามคำอธิบายของรีลีสนี้
    “GLM-4.7-Flash เป็น โมเดลน้ำหนักเบาและประสิทธิภาพสูง เป็นเวอร์ชันฟรีของ GLM-4.7 และให้ latency ต่ำกับ throughput สูงในงานเขียนโค้ด การให้เหตุผล และงานสร้างสรรค์
    อีกทั้งยังมีประสิทธิภาพแข็งแกร่งในงานแปลภาษา โรลเพลย์ และการสร้างสรรค์เชิงสุนทรียะ”
    ดูรายละเอียดเพิ่มเติมได้ใน บันทึกรีลีสอย่างเป็นทางการ
    • โน้ตสองรายการที่โพสต์ในปีนี้ดันระบุเป็น 2025 น่าจะเป็นหน้าที่เขียนด้วยมือ
  • ถ้าจะอธิบายให้คนที่สงสัยว่าทำไมรีลีสนี้ถึงสำคัญ
    ตอนนี้คุณสามารถรัน AI ระดับ GPT-5-mini แบบโลคัลได้บน MacBook RAM 32GB
    และค่าใช้จ่ายของ LLM-as-a-service ก็ถูกลงมาก — เหลือราว 1/10 ของราคา เมื่อเทียบกับ Haiku 4.5
  • คะแนน SWE-bench Verified อยู่ที่ 59.2 ซึ่งถือว่าน่าประทับใจมากสำหรับโมเดล 30B สูงกว่า 55.4 ของ Qwen3-Coder 480B
    • แต่ Devstral 2 Small (24B) สูงกว่าที่ 68.0% ลิงก์ทางการ
    • แต่ตอนนี้ SWE-Bench Verified ก็เชื่อถือยากขึ้นแล้ว เพราะถูกจำกัดทั้งรีโพซิทอรีและภาษา และยังมี ปัญหาการจำข้อมูล ด้วย SWE-Bench Pro ดูมีอนาคตกว่าแต่ก็ยังไม่สมบูรณ์
  • เวลาต้องการงานเร็ว ๆ ฉันใช้ Gemini หรือ Cerebras ดูได้ที่ บล็อก Cerebras
    GLM 4.7 ใช้งานทั่วไปได้สบาย แต่บางครั้ง ความสามารถในการเข้าใจคำสั่ง ยังไม่ดีพอจนหงุดหงิด
    • สำหรับฉัน เหตุผลที่ Opus 4.5 ดี ก็เพราะความสามารถด้าน การจัดการคำสั่ง นี่แหละ หวังว่าเวอร์ชันถัดไปจะดีขึ้น
  • การที่ GLM 4.7 ถูกเอาไปเทียบกับ GPT-OSS-20B ทำให้รู้สึกไม่น่าเชื่อถือเท่าไร ถ้าระดับ Sonnet 4/4.5 จริง เวอร์ชัน Flash ก็ควรทิ้งห่าง GPT-OSS-120B ไปแล้ว น่าจะมี ผลลัพธ์ Aider มาด้วย
    • การหวังให้ 30-A3B ชนะ 117-A5.1B ก็คงเกินไปหน่อย แต่ในด้าน การเรียกใช้งานเอเจนต์ ดูเหมือนจะดีกว่า GPT-20B
    • พอใช้จริงแล้วรู้สึกว่าเบนช์มาร์กพูดเกินไป งานง่าย ๆ พอไหว แต่ยังห่าง Sonnet มาก ถึงอย่างนั้น ความคุ้มค่าต่อราคา ก็ยังดี
    • ถ้าวัดจากคุณภาพโค้ด มันอยู่ระดับ Sonnet 3.5 ยังห่างจาก Sonnet 4/4.5