GLM-4.5: โมเดลพื้นฐานสำหรับ Agentic, Reasoning และ Coding (ARC)

(arxiv.org)

4 คะแนน โดย GN⁺ 2025-08-13 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

GLM-4.5 เป็นโมเดลภาษาใหญ่แบบ Mixture-of-Experts (MoE) โอเพนซอร์ส ที่โดดเด่นด้าน ความเป็นเอเจนต์ การให้เหตุผล และการเขียนโค้ด
โมเดลนี้พัฒนาขึ้นผ่านการฝึกหลายขั้นตอนด้วย 23T โทเค็น การทำซ้ำโมเดลผู้เชี่ยวชาญ และการเสริมการเรียนรู้
ทำ ผลงานระดับแนวหน้า ในเบนช์มาร์กสำคัญหลายรายการ เช่น TAU-Bench, AIME 24, SWE-bench Verified
ให้ประสิทธิภาพอย่างมีประสิทธิผลแม้ใช้จำนวนพารามิเตอร์น้อยกว่า และ ใกล้เคียงหรือเหนือกว่า โมเดลเชิงพาณิชย์หลักหลายตัว
เปิดเผยทั้ง GLM-4.5 และรุ่นขนาดเล็ก GLM-4.5-Air เพื่อใช้ในการวิจัยและพัฒนาระบบ AI

ภาพรวม

GLM-4.5 เป็นโมเดลภาษาใหญ่แบบ Mixture-of-Experts (MoE) โอเพนซอร์ส ที่มีพารามิเตอร์รวม 355 พันล้าน และพารามิเตอร์ที่ทำงานอยู่ 32 พันล้าน
ใช้ แนวทางการให้เหตุผลแบบไฮบริด รองรับทั้งโหมดการคิดเชิงลึก (Thinking) และโหมดตอบสนองทันที (Direct Response)
ผ่านการฝึกหลายขั้นตอนด้วย 23 ล้านล้านโทเค็น การทำซ้ำโมเดลผู้เชี่ยวชาญ และ post-training บนพื้นฐานการเสริมการเรียนรู้
ผลลัพธ์คือทำคะแนนสูงในงานด้านความเป็นเอเจนต์ (Agentic), การให้เหตุผล (Reasoning) และการเขียนโค้ด (Coding·ARC)
- ทำได้ TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
GLM-4.5 ใช้พารามิเตอร์น้อยกว่าคู่แข่ง แต่ได้อันดับ 3 โดยรวม และอันดับ 2 ในเบนช์มาร์กด้านเอเจนต์
เปิดเผยทั้งรุ่นใหญ่ GLM-4.5 (355 พันล้านพารามิเตอร์) และรุ่นย่อส่วน GLM-4.5-Air (106 พันล้านพารามิเตอร์)
โค้ดทั้งหมด โมเดล และรายละเอียดเพิ่มเติมดูได้จาก GitHub อย่างเป็นทางการ (https://github.com/zai-org/GLM-4.5)

การประเมินประสิทธิภาพ LLM: เบนช์มาร์กด้านเอเจนต์ การให้เหตุผล และการเขียนโค้ด

ทดสอบ GLM-4.5 และโมเดลชั้นนำระดับโลกในเบนช์มาร์กตัวแทน 12 รายการ (MMLU-Pro, AIME 24, SWE-Bench Verified เป็นต้น)
GLM-4.5 ได้อันดับเฉลี่ยรวมที่ 3 และ GLM-4.5-Air ได้อันดับ 6
เมื่อวัดจากคะแนนด้านเอเจนต์ ได้อันดับ 2 รองจาก OpenAI o3 และได้อันดับ 3 ในเบนช์มาร์กการเขียนโค้ด โดยมีคะแนนใกล้เคียง Claude Sonnet 4
GLM-4.5 ให้ประสิทธิภาพใกล้เคียงกันโดยใช้พารามิเตอร์เพียงครึ่งหนึ่งของ DeepSeek-R1 และหนึ่งในสามของ Kimi K2
เมื่อเทียบจำนวนพารามิเตอร์ต่อประสิทธิภาพใน SWE-bench Verified ทั้ง GLM-4.5 และ GLM-4.5-Air อยู่บน Pareto Frontier
ข้อมูลประสิทธิภาพอ้างอิง ณ วันที่ 28 กรกฎาคม 2025

บทนำ

โมเดลภาษาใหญ่ (LLM) กำลังพัฒนาอย่างรวดเร็วจากคลังข้อมูลเอนกประสงค์ไปสู่ตัวแก้ปัญหาเอนกประสงค์
AGI (Artificial General Intelligence) ซึ่งเป็นจุดหมายปลายทางของปัญญาประดิษฐ์ มุ่งสู่โมเดลที่มีความสามารถด้านการรับรู้ระดับมนุษย์ในหลายโดเมน
เพื่อไปถึงจุดนั้น จำเป็นต้องบูรณาการความสามารถในการแก้ปัญหาซับซ้อน การทำให้ทั่วไปได้ และการพัฒนาตนเอง
ความสามารถหลัก 3 ด้านที่สำคัญต่อการทำงานจริงและการแก้ปัญหาเฉพาะทางที่ซับซ้อนมีดังนี้:
- ความสามารถแบบเอเจนต์: การโต้ตอบกับเครื่องมือและโลกภายนอก
- การให้เหตุผลเชิงซับซ้อน: การแก้ปัญหาเป็นขั้นตอนที่ซับซ้อน เช่น คณิตศาสตร์/วิทยาศาสตร์
- การเขียนโค้ดขั้นสูง: ความสามารถในการทำงานวิศวกรรมซอฟต์แวร์จริง
โมเดลเชิงพาณิชย์ SOTA เดิม (OpenAI, Anthropic) แสดงความเชี่ยวชาญเป็นรายด้าน แต่ในบรรดาโมเดลโอเพนซอร์สยังมีไม่มากที่เปิดเผยและทำได้ดีในทั้ง 3 ด้านพร้อมกัน

แนะนำโมเดล GLM-4.5 และ GLM-4.5-Air

GLM-4.5/GLM-4.5-Air แสดงประสิทธิภาพระดับแนวหน้าของโอเพนซอร์สในทุกด้าน ทั้งเอเจนต์ การให้เหตุผล และการเขียนโค้ด
ทั้งสองโมเดลรองรับโหมดการให้เหตุผลแบบไฮบริด
- Thinking Mode เด่นด้านการให้เหตุผลซับซ้อนและงานแบบเอเจนต์
- Non-thinking Mode เหมาะกับการตอบสนองรวดเร็ว
ผลงานหลักของ GLM-4.5:
- เอเจนต์: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (เหนือกว่าโมเดลเชิงพาณิชย์คู่แข่ง)
- การให้เหตุผล: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- การเขียนโค้ด: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (เหนือกว่า GPT-4.1 และ Gemini-2.5-pro และใกล้เคียง Claude Sonnet 4)
GLM-4.5-Air มี 106 พันล้านพารามิเตอร์ และอยู่ในระดับทัดเทียมหรือเหนือกว่า Qwen3-235B-A22B และ MiniMax-M1 ในกลุ่มโมเดลขนาด 100 พันล้าน

สถานะและจุดเด่นของประสิทธิภาพบนเบนช์มาร์ก

ทั้ง GLM-4.5 และ GLM-4.5-Air ทำอันดับสูงในเบนช์มาร์กหลัก 12 รายการโดยรวม
GLM-4.5 มีประสิทธิภาพสมดุลในด้านเอเจนต์ การให้เหตุผล และการเขียนโค้ด พร้อมประสิทธิภาพเชิงพารามิเตอร์ที่โดดเด่น
บรรลุจุดประสิทธิภาพสูงสุดเมื่อเทียบจำนวนพารามิเตอร์ตามเกณฑ์ SWE-bench Verified บน Pareto Frontier
มีการเปรียบเทียบประสิทธิภาพอย่างละเอียดกับโมเดลเชิงพาณิชย์และโอเพนซอร์สหลายตัว

การเปิดเผยและการสนับสนุนโอเพนซอร์ส

โมเดล GLM-4.5/GLM-4.5-Air เปิดเผยบน Z.ai, BigModel.cn และ Huggingface (https://huggingface.co/zai-org/GLM-4.5)
เพื่อความสามารถในการทำซ้ำของเบนช์มาร์ก ยังเปิดซอร์สชุดเครื่องมือประเมินผล (https://github.com/zai-org/glm-simple-evals) ด้วย

การฝึกล่วงหน้า

สถาปัตยกรรม

ซีรีส์ GLM-4.5 ใช้ โครงสร้าง Mixture-of-Experts(MoE) ซึ่งช่วยเพิ่มประสิทธิภาพการคำนวณอย่างมากทั้งในการฝึกและการอนุมาน
ใช้ loss-free balance routing และ sigmoid gating ในเลเยอร์ MoE
ต่างจาก DeepSeek-V3 และ Kimi K2 ตรงที่ ลดความกว้างของโมเดล (มิติ hidden, จำนวน route experts) และเพิ่มความลึก (จำนวนเลเยอร์) โดยโมเดลที่ลึกกว่ามีประสิทธิผลต่อการเติบโตของความสามารถด้านการให้เหตุผลมากกว่า
ใน Self-Attention ใช้ Grouped-Query Attention + partial RoPE และมี 96 attention heads ทำให้ hidden dimension 5120 มีสัดส่วน attention head ที่ 2.5 เท่า
พบว่าการเพิ่มจำนวน heads ไม่ส่งผลต่อ training loss แต่ส่งผลเชิงบวกต่อการให้เหตุผลจริงและประสิทธิภาพบนเบนช์มาร์ก
ใช้ QK-Norm เพื่อเพิ่มเสถียรภาพของค่า attention logits
ทั้ง GLM-4.5 และ GLM-4.5-Air เพิ่มเลเยอร์ MTP(Multi-Token Prediction) ที่อิง MoE เพื่อรองรับ speculative decoding ระหว่างการอนุมาน
ในกระบวนการรวมพารามิเตอร์ทางสถาปัตยกรรม มีการนับรวมพารามิเตอร์ของเลเยอร์ MTP แต่ไม่รวม word embedding และ output layer

บทสรุปและผลที่คาดหวัง

GLM-4.5/GLM-4.5-Air เป็นโมเดลภาษายุคถัดไปที่มีทั้ง ประสิทธิภาพสูง ประสิทธิผล และความอเนกประสงค์ ในตลาด AI โอเพนซอร์ส
โดดเด่นทั้งด้านความสามารถในการแก้ปัญหายากและบูรณาการหลายสาขา ความสามารถในการแข่งขันกับโมเดลเชิงพาณิชย์ และประสิทธิภาพเชิงพารามิเตอร์
มีศักยภาพในการขยายบทบาทเป็นฐานนวัตกรรมของโมเดลภาษาใหญ่โอเพนซอร์สในวงการวิชาการ อุตสาหกรรม และงานวิจัยของนักพัฒนาโดยรวม

2 ความคิดเห็น

xguru 2025-08-13

ทั้งในคอมเมนต์บน Hacker News และในฟอรัม LocalLLaMA ของ Reddit ก็มีเสียงประเมินว่า GLM ค่อนข้างดีอยู่เหมือนกัน
GLM 4.5 AIR IS SO FKING GOODDD

GLM 4.5 Air เร็วมากจริง ๆ และความสามารถด้าน tool calling ก็ยอดเยี่ยมด้วย (ไม่ได้ทดสอบแบบรันโลคัล แต่ทดสอบผ่าน Open Router)
เมื่อเทียบกับ GPT-5 Mini ก็สูสีกันมากพอที่ความได้เปรียบจะขึ้นอยู่กับประเภทของงาน
โมเดล GLM อื่น ๆ อย่าง GLM 4.5V ก็ล้วนดีทั้งหมด
สำหรับงานบางประเภท (เช่น การเขียนนิยาย, การเขียนโค้ด) GLM เป็นธรรมชาติกว่าและมีข้อจำกัดน้อยกว่า GPT

GN⁺ 2025-08-13

ความเห็นจาก Hacker News

ดีใจมากที่บทความนี้ต่างจากโพสต์บล็อกเปิดตัวโมเดลที่เห็นกันบ่อย ๆ เพราะลงลึกในรายละเอียดจริง ๆ
ทีม Zhipu/Tsinghua อธิบายไม่ใช่แค่ว่าเป็น "อะไร" แต่รวมถึง "ทำอย่างไร" อย่างละเอียด จึงน่าสนใจเป็นพิเศษสำหรับคนที่อยากสร้างหรือใช้งานโมเดลแบบนี้ด้วยตัวเอง
โดยเฉพาะวิธีการ post-training ใน Section 3 ที่น่าประทับใจมาก
แนวทางที่สร้าง "โมเดลผู้เชี่ยวชาญ" แยกกันสำหรับงาน reasoning/agent/chat แล้วค่อย distill ความสามารถเหล่านั้นเข้าสู่โมเดลรวมตัวสุดท้าย เป็นแนวทางที่น่าสนใจมาก
มันเป็นความพยายามที่เป็นระบบกว่ามากในการแก้ข้อจำกัดของโมเดล generalist ที่ทำได้หลายบทบาทแบบครึ่ง ๆ กลาง ๆ
แทนที่จะเอาแค่ข้อมูลมาปนกัน ก็เท่ากับออกแบบให้โมเดลทั่วไปไปเรียนรู้จากกลุ่มผู้เชี่ยวชาญ
อีกจุดที่น่าสนใจจากผลการทดลอง RL คือ การใช้ RL ทีเดียวบนทั้ง 64K context ให้ผลดีกว่า RL แบบเป็นขั้นตอน (ดู Fig 6)
หลายทีมคงคิดตรงกันข้าม แต่ผลจริงออกมาไม่เหมือนนั้น
และการเลือกใช้ XML template สำหรับฟอร์แมต function calling ก็เป็นรายละเอียดเล็ก ๆ ที่ฉลาดมาก เพราะช่วยหลีกเลี่ยงปัญหา JSON escaping (ดู Fig 4)
ในงานจริง การ escape โค้ดใน JSON เป็นเรื่องปวดหัวมาก
ผลบน SWE-bench ก็ดีมากจนเทียบได้กับโมเดลเชิงพาณิชย์หรือโมเดลขนาดใหญ่กว่ามาก
สิ่งที่อยากรู้ต่อไปคือ วิธีฝึกแบบไฮบริดนี้จะใช้ได้ผลนอกเหนือจากงานประเมินสไตล์ ARC หรือไม่
ตัวอย่างเช่น ใน workflow ซับซ้อนแบบงานจริงที่ไม่มีเอกสาร API, error เกิดบ่อย, และ input ก็คลุมเครือ ประสิทธิภาพของ agent จะยังดีอยู่หรือไม่
- ผมสงสัยว่า tweak แบบ post/mid-training ลักษณะนี้จำเป็นแค่ไหนในงานฝึกเฉพาะโดเมนที่มีข้อมูลและ label จำนวนมากและผ่านการตรวจสอบอย่างดีอยู่แล้ว
  แค่ทีมเล็ก ๆ ทำตามสแตกการเทรนแบบ scale-up ล่าสุดให้ดีก็พอหรือไม่ หรือถ้าไม่ใช้เทคนิคเหล่านี้จะต่างกันมากแค่ไหน
- กลัวว่าจะดูเหมือนจับผิดเกินไป แต่สไตล์การเขียนของบทความให้ความรู้สึกแบบ LLM ชัดมาก
  เคยเห็นคนทักเรื่องนี้มาก่อนแล้ว ลิงก์
  ผมคิดว่าการชี้ให้เห็นเรื่องแบบนี้เป็นส่วนหนึ่งของการช่วยรักษาสุขภาวะของพื้นที่ออนไลน์
ผมใช้โมเดลโค้ด GLM-4.5 มาค่อนข้างนานแล้ว และประสิทธิภาพดีมากจริง ๆ
ตอนรัน GLM-4.5 ใน Octofriend ซึ่งเป็น coding agent ที่ผมกำลังพัฒนาอยู่ ผมเคยเผลอคิดว่าเป็น Claude 4 ด้วยซ้ำ
จากประสบการณ์ของผม Claude ดูแข็งแกร่งกว่าเล็กน้อยในสถานการณ์ที่ต้องเอาทั้ง codebase มาเป็นบริบทและต้องคำนึงถึงการโต้ตอบกับระบบ
ส่วน GLM-4.5 ดู "ซื่อสัตย์" กว่า คือไม่ค่อยมีพฤติกรรมแบบที่ Claude ชอบแก้ test code เพื่อหลบปัญหาไปเฉย ๆ
ทั้งคู่เก่งมาก แต่ GLM-4.5 ก็เคยหาบั๊กที่ Claude 4 Sonnet หรือ 4.1 Opus หาไม่เจอให้ผมได้เหมือนกัน
ถ้าเจาะเรื่อง debugging อย่างเดียว Claude ชนะบ่อยกว่านิดหน่อย แต่ไม่ได้ทิ้งห่างมาก
ถ้าเทียบกับ GPT-5 แล้ว ทั้ง Claude และ GLM มีความสม่ำเสมอมากกว่า
GPT-5 บางครั้งให้ผลลัพธ์ที่น่าทึ่งจริง ๆ แต่ถ้าเริ่มออกนอกทางแล้วจะดึงกลับมาเข้าที่ได้ยากและน่าหงุดหงิดมาก
ดู Octofriend ได้ที่: https://github.com/synthetic-lab/octofriend
- เห็นคอมเมนต์นี้แล้วผมเลยไปลองทดสอบ GLM-4.5 ใน Kilocode
  วันนี้ผมใช้ Gemini CLI ทั้งวันเพื่อไล่บั๊กยาก ๆ ในโค้ดคอมไพเลอร์แต่ไม่สำเร็จ
  แต่ GLM-4.5 กลับชี้ปัญหาหลักได้ทันที
  Gemini CLI ไปสงสัยแต่ฟังก์ชันผิดตัวและวนแก้แบบครึ่ง ๆ กลาง ๆ ทั้งที่ท้ายที่สุดแล้วมันไม่เกี่ยวกันเลย
  ชัดเจนว่า GLM-4.5 โฟกัสกับปัญหาได้ดีกว่ามาก
- ผมก็เคยใช้ GLM-4.5 กับโปรเจกต์เล็ก ๆ หรือคำขอสั้น ๆ แล้วรู้สึกดีเหมือนกัน
  น่าเสียดายที่พอบริบทยาวขึ้นแล้วรู้สึกว่าประสิทธิภาพตกลง ตอนนี้เลยใช้เป็นตัวสำรองของ Sonnet 4
- ผมใช้ architect mode ใน aider อยู่
  ใช้คู่ Deepseek R1 (ดูแลงานออกแบบระดับสูง) + Qwen3 480B (ดูแลงานเขียนโค้ดระดับล่าง หรือใช้ qwen code API)
  ชุดนี้ทำงานได้ดีมากจริง ๆ
  อยู่ในระดับที่แก้ปัญหาได้เอง 99.99%
  ตอนนี้การแยกบทบาทใน aider ยังไม่สมบูรณ์ ผมเลยคิดจะทำเครื่องมือที่ปรับปรุง workflow นี้ด้วยตัวเอง
- เห็นด้วยกับประเด็นแรก
  สำหรับผมเอง Claude ยิ่งมีบริบทมากก็ยิ่งทำงานได้ดี ส่วน GLM-4.5 ถ้าอยู่ในสถานการณ์แบบนั้นผลลัพธ์จะไม่ค่อยดี
ซีรีส์ GLM-4.5 นับจำนวนพารามิเตอร์รวม/พารามิเตอร์ที่ active ด้วยวิธีที่ตัด embedding และ output layer ออก แต่รวม MTP layer เข้าไป
ซึ่งตรงกับที่ผมคำนวณไว้ (355B A32B)
ซีรีส์ GPT OSS นับทั้ง embedding/output ในพารามิเตอร์รวม และนับเฉพาะ output ในพารามิเตอร์ที่ active
ส่วนซีรีส์ Qwen3 นับทั้ง embedding และ output รวมอยู่ทั้งใน total และ active
แต่ละโมเดลนับพารามิเตอร์ไม่เหมือนกัน เลยสงสัยว่าทำไมถึงยังไม่มีมาตรฐาน และวิธีนับแบบไหนสมเหตุสมผลกว่ากัน
- จำนวนพารามิเตอร์รวมสัมพันธ์โดยตรงกับความต้องการหน่วยความจำ ดังนั้นควรนับพารามิเตอร์ทั้งหมด
  ส่วน active parameters นั้น unembedding parameters ถูกใช้ทุกครั้งที่สร้างโทเค็น แต่ embedding ใช้แค่หนึ่งคอลัมน์ จึงควรคำนวณให้สะท้อนคุณสมบัตินี้ เพื่อจะได้เข้าใจความสัมพันธ์กับ bandwidth และ latency ได้ถูกต้อง
ผมคิดว่าอีกไม่กี่ปี เราน่าจะเขียนโค้ดด้วยโมเดลเปิดแบบรันโลคัลที่ระดับ Sonnet 4 ได้บนเวิร์กสเตชันราคาแถว ๆ 2000 ดอลลาร์
โมเดลคลาวด์ในตอนนี้ก็มีประโยชน์ แต่เพราะมันเป็นเครื่องมือสำคัญต่อประสบการณ์ของนักพัฒนา ผมจึงอยากให้รันในเครื่องได้
- ผมคิดว่าไม่ใช่อีก 2 ปีหรอก น่าจะทันภายในสิ้นปีนี้ด้วยซ้ำ
- ในมุมมองโอเพนซอร์ส โมเดลแบบนี้เป็นสิ่งจำเป็น
  ไม่อย่างนั้นการพัฒนาโอเพนซอร์สเองอาจกลายเป็นสิ่งที่ยั่งยืนไม่ได้
  ที่จริงผมคาดหวังด้วยซ้ำว่าภายใน 2 ปี ประสิทธิภาพระดับสูงกว่า Sonnet 4 จะรันได้บนพีซีราคา 2,000 ดอลลาร์
โมเดลนี้ให้ความรู้สึกว่าเป็นโมเดลเปิดตัวแรกที่สามารถนำไปเทียบกับโมเดล frontier เชิงพาณิชย์ที่มีอยู่ได้แทบจะสูสีกันจริง ๆ
แค่ดูประสิทธิภาพต่อพารามิเตอร์ก็พอจะเห็นได้ว่ามีนวัตกรรมที่แท้จริงในวิธีการฝึก
ผมก็อยากเห็นผลยืนยันประสิทธิภาพแบบอิสระจาก Aider's LLM Leaderboard เช่นกัน
สำหรับคนที่อยากเริ่มจากอ่านบทคัดย่อของเปเปอร์เหมือนผม ฝากลิงก์นี้ไว้ https://www.arxiv.org/abs/2508.06471
แค่เป็น Apache license ก็ดีมากแล้ว
ดีใจจริง ๆ ที่ได้เห็นโมเดลโอเพนซอร์สเดินหน้าท้าทายขีดจำกัดอย่างต่อเนื่อง
มีสิ่งที่สังเกตได้จากเปเปอร์นี้เยอะมาก จนแต่ละประเด็นเอาไปเขียนเป็นเปเปอร์แยกได้เลย
โดยเฉพาะประสบการณ์เกี่ยวกับกระบวนการฝึกและการเก็บ/สังเคราะห์ข้อมูลที่เข้มข้นมาก
มีใครรู้ไหมว่าผู้เขียนเคยมีผลงานเปเปอร์ดีระดับนี้มาก่อนหรือเปล่า?
ตัวชี้วัดในกราฟของเปเปอร์ทำให้งงนิดหน่อย
รูปแรกดูเหมือนคะแนน swebench ของ Sonnet 4 จะอยู่แถว 53 แต่รูปถัดไปกลับเกือบ 70
ค่าจริงน่าจะใกล้ 70 มากกว่า อ้างอิง
สงสัยว่าทำไม Qwen3 ถึงไม่อยู่ใน coding benchmark แต่กลับอยู่ใน benchmark อื่น
- Qwen3-Coder อยู่ใน Section 4.3.2
- Qwen ยังไม่ค่อยเก่งเรื่องความเข้าใจ codebase ขนาดใหญ่