- GLM-4.5 เป็นโมเดลภาษาใหญ่แบบ Mixture-of-Experts (MoE) โอเพนซอร์ส ที่โดดเด่นด้าน ความเป็นเอเจนต์ การให้เหตุผล และการเขียนโค้ด
- โมเดลนี้พัฒนาขึ้นผ่านการฝึกหลายขั้นตอนด้วย 23T โทเค็น การทำซ้ำโมเดลผู้เชี่ยวชาญ และการเสริมการเรียนรู้
- ทำ ผลงานระดับแนวหน้า ในเบนช์มาร์กสำคัญหลายรายการ เช่น TAU-Bench, AIME 24, SWE-bench Verified
- ให้ประสิทธิภาพอย่างมีประสิทธิผลแม้ใช้จำนวนพารามิเตอร์น้อยกว่า และ ใกล้เคียงหรือเหนือกว่า โมเดลเชิงพาณิชย์หลักหลายตัว
- เปิดเผยทั้ง GLM-4.5 และรุ่นขนาดเล็ก GLM-4.5-Air เพื่อใช้ในการวิจัยและพัฒนาระบบ AI
ภาพรวม
- GLM-4.5 เป็นโมเดลภาษาใหญ่แบบ Mixture-of-Experts (MoE) โอเพนซอร์ส ที่มีพารามิเตอร์รวม 355 พันล้าน และพารามิเตอร์ที่ทำงานอยู่ 32 พันล้าน
- ใช้ แนวทางการให้เหตุผลแบบไฮบริด รองรับทั้งโหมดการคิดเชิงลึก (Thinking) และโหมดตอบสนองทันที (Direct Response)
- ผ่านการฝึกหลายขั้นตอนด้วย 23 ล้านล้านโทเค็น การทำซ้ำโมเดลผู้เชี่ยวชาญ และ post-training บนพื้นฐานการเสริมการเรียนรู้
- ผลลัพธ์คือทำคะแนนสูงในงานด้านความเป็นเอเจนต์ (Agentic), การให้เหตุผล (Reasoning) และการเขียนโค้ด (Coding·ARC)
- ทำได้ TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
- GLM-4.5 ใช้พารามิเตอร์น้อยกว่าคู่แข่ง แต่ได้อันดับ 3 โดยรวม และอันดับ 2 ในเบนช์มาร์กด้านเอเจนต์
- เปิดเผยทั้งรุ่นใหญ่ GLM-4.5 (355 พันล้านพารามิเตอร์) และรุ่นย่อส่วน GLM-4.5-Air (106 พันล้านพารามิเตอร์)
- โค้ดทั้งหมด โมเดล และรายละเอียดเพิ่มเติมดูได้จาก GitHub อย่างเป็นทางการ (https://github.com/zai-org/GLM-4.5)
การประเมินประสิทธิภาพ LLM: เบนช์มาร์กด้านเอเจนต์ การให้เหตุผล และการเขียนโค้ด
- ทดสอบ GLM-4.5 และโมเดลชั้นนำระดับโลกในเบนช์มาร์กตัวแทน 12 รายการ (MMLU-Pro, AIME 24, SWE-Bench Verified เป็นต้น)
- GLM-4.5 ได้อันดับเฉลี่ยรวมที่ 3 และ GLM-4.5-Air ได้อันดับ 6
- เมื่อวัดจากคะแนนด้านเอเจนต์ ได้อันดับ 2 รองจาก OpenAI o3 และได้อันดับ 3 ในเบนช์มาร์กการเขียนโค้ด โดยมีคะแนนใกล้เคียง Claude Sonnet 4
- GLM-4.5 ให้ประสิทธิภาพใกล้เคียงกันโดยใช้พารามิเตอร์เพียงครึ่งหนึ่งของ DeepSeek-R1 และหนึ่งในสามของ Kimi K2
- เมื่อเทียบจำนวนพารามิเตอร์ต่อประสิทธิภาพใน SWE-bench Verified ทั้ง GLM-4.5 และ GLM-4.5-Air อยู่บน Pareto Frontier
- ข้อมูลประสิทธิภาพอ้างอิง ณ วันที่ 28 กรกฎาคม 2025
บทนำ
- โมเดลภาษาใหญ่ (LLM) กำลังพัฒนาอย่างรวดเร็วจากคลังข้อมูลเอนกประสงค์ไปสู่ตัวแก้ปัญหาเอนกประสงค์
- AGI (Artificial General Intelligence) ซึ่งเป็นจุดหมายปลายทางของปัญญาประดิษฐ์ มุ่งสู่โมเดลที่มีความสามารถด้านการรับรู้ระดับมนุษย์ในหลายโดเมน
- เพื่อไปถึงจุดนั้น จำเป็นต้องบูรณาการความสามารถในการแก้ปัญหาซับซ้อน การทำให้ทั่วไปได้ และการพัฒนาตนเอง
- ความสามารถหลัก 3 ด้านที่สำคัญต่อการทำงานจริงและการแก้ปัญหาเฉพาะทางที่ซับซ้อนมีดังนี้:
- ความสามารถแบบเอเจนต์: การโต้ตอบกับเครื่องมือและโลกภายนอก
- การให้เหตุผลเชิงซับซ้อน: การแก้ปัญหาเป็นขั้นตอนที่ซับซ้อน เช่น คณิตศาสตร์/วิทยาศาสตร์
- การเขียนโค้ดขั้นสูง: ความสามารถในการทำงานวิศวกรรมซอฟต์แวร์จริง
- โมเดลเชิงพาณิชย์ SOTA เดิม (OpenAI, Anthropic) แสดงความเชี่ยวชาญเป็นรายด้าน แต่ในบรรดาโมเดลโอเพนซอร์สยังมีไม่มากที่เปิดเผยและทำได้ดีในทั้ง 3 ด้านพร้อมกัน
แนะนำโมเดล GLM-4.5 และ GLM-4.5-Air
- GLM-4.5/GLM-4.5-Air แสดงประสิทธิภาพระดับแนวหน้าของโอเพนซอร์สในทุกด้าน ทั้งเอเจนต์ การให้เหตุผล และการเขียนโค้ด
- ทั้งสองโมเดลรองรับโหมดการให้เหตุผลแบบไฮบริด
- Thinking Mode เด่นด้านการให้เหตุผลซับซ้อนและงานแบบเอเจนต์
- Non-thinking Mode เหมาะกับการตอบสนองรวดเร็ว
- ผลงานหลักของ GLM-4.5:
- เอเจนต์: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (เหนือกว่าโมเดลเชิงพาณิชย์คู่แข่ง)
- การให้เหตุผล: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- การเขียนโค้ด: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (เหนือกว่า GPT-4.1 และ Gemini-2.5-pro และใกล้เคียง Claude Sonnet 4)
- GLM-4.5-Air มี 106 พันล้านพารามิเตอร์ และอยู่ในระดับทัดเทียมหรือเหนือกว่า Qwen3-235B-A22B และ MiniMax-M1 ในกลุ่มโมเดลขนาด 100 พันล้าน
สถานะและจุดเด่นของประสิทธิภาพบนเบนช์มาร์ก
- ทั้ง GLM-4.5 และ GLM-4.5-Air ทำอันดับสูงในเบนช์มาร์กหลัก 12 รายการโดยรวม
- GLM-4.5 มีประสิทธิภาพสมดุลในด้านเอเจนต์ การให้เหตุผล และการเขียนโค้ด พร้อมประสิทธิภาพเชิงพารามิเตอร์ที่โดดเด่น
- บรรลุจุดประสิทธิภาพสูงสุดเมื่อเทียบจำนวนพารามิเตอร์ตามเกณฑ์ SWE-bench Verified บน Pareto Frontier
- มีการเปรียบเทียบประสิทธิภาพอย่างละเอียดกับโมเดลเชิงพาณิชย์และโอเพนซอร์สหลายตัว
การเปิดเผยและการสนับสนุนโอเพนซอร์ส
- โมเดล GLM-4.5/GLM-4.5-Air เปิดเผยบน Z.ai, BigModel.cn และ Huggingface (https://huggingface.co/zai-org/GLM-4.5)
- เพื่อความสามารถในการทำซ้ำของเบนช์มาร์ก ยังเปิดซอร์สชุดเครื่องมือประเมินผล (https://github.com/zai-org/glm-simple-evals) ด้วย
การฝึกล่วงหน้า
สถาปัตยกรรม
- ซีรีส์ GLM-4.5 ใช้ โครงสร้าง Mixture-of-Experts(MoE) ซึ่งช่วยเพิ่มประสิทธิภาพการคำนวณอย่างมากทั้งในการฝึกและการอนุมาน
- ใช้ loss-free balance routing และ sigmoid gating ในเลเยอร์ MoE
- ต่างจาก DeepSeek-V3 และ Kimi K2 ตรงที่ ลดความกว้างของโมเดล (มิติ hidden, จำนวน route experts) และเพิ่มความลึก (จำนวนเลเยอร์) โดยโมเดลที่ลึกกว่ามีประสิทธิผลต่อการเติบโตของความสามารถด้านการให้เหตุผลมากกว่า
- ใน Self-Attention ใช้ Grouped-Query Attention + partial RoPE และมี 96 attention heads ทำให้ hidden dimension 5120 มีสัดส่วน attention head ที่ 2.5 เท่า
- พบว่าการเพิ่มจำนวน heads ไม่ส่งผลต่อ training loss แต่ส่งผลเชิงบวกต่อการให้เหตุผลจริงและประสิทธิภาพบนเบนช์มาร์ก
- ใช้ QK-Norm เพื่อเพิ่มเสถียรภาพของค่า attention logits
- ทั้ง GLM-4.5 และ GLM-4.5-Air เพิ่มเลเยอร์ MTP(Multi-Token Prediction) ที่อิง MoE เพื่อรองรับ speculative decoding ระหว่างการอนุมาน
- ในกระบวนการรวมพารามิเตอร์ทางสถาปัตยกรรม มีการนับรวมพารามิเตอร์ของเลเยอร์ MTP แต่ไม่รวม word embedding และ output layer
บทสรุปและผลที่คาดหวัง
- GLM-4.5/GLM-4.5-Air เป็นโมเดลภาษายุคถัดไปที่มีทั้ง ประสิทธิภาพสูง ประสิทธิผล และความอเนกประสงค์ ในตลาด AI โอเพนซอร์ส
- โดดเด่นทั้งด้านความสามารถในการแก้ปัญหายากและบูรณาการหลายสาขา ความสามารถในการแข่งขันกับโมเดลเชิงพาณิชย์ และประสิทธิภาพเชิงพารามิเตอร์
- มีศักยภาพในการขยายบทบาทเป็นฐานนวัตกรรมของโมเดลภาษาใหญ่โอเพนซอร์สในวงการวิชาการ อุตสาหกรรม และงานวิจัยของนักพัฒนาโดยรวม
2 ความคิดเห็น
ทั้งในคอมเมนต์บน Hacker News และในฟอรัม LocalLLaMA ของ Reddit ก็มีเสียงประเมินว่า GLM ค่อนข้างดีอยู่เหมือนกัน
GLM 4.5 AIR IS SO FKING GOODDD
ความเห็นจาก Hacker News
ดีใจมากที่บทความนี้ต่างจากโพสต์บล็อกเปิดตัวโมเดลที่เห็นกันบ่อย ๆ เพราะลงลึกในรายละเอียดจริง ๆ
ทีม Zhipu/Tsinghua อธิบายไม่ใช่แค่ว่าเป็น "อะไร" แต่รวมถึง "ทำอย่างไร" อย่างละเอียด จึงน่าสนใจเป็นพิเศษสำหรับคนที่อยากสร้างหรือใช้งานโมเดลแบบนี้ด้วยตัวเอง
โดยเฉพาะวิธีการ post-training ใน Section 3 ที่น่าประทับใจมาก
แนวทางที่สร้าง "โมเดลผู้เชี่ยวชาญ" แยกกันสำหรับงาน reasoning/agent/chat แล้วค่อย distill ความสามารถเหล่านั้นเข้าสู่โมเดลรวมตัวสุดท้าย เป็นแนวทางที่น่าสนใจมาก
มันเป็นความพยายามที่เป็นระบบกว่ามากในการแก้ข้อจำกัดของโมเดล generalist ที่ทำได้หลายบทบาทแบบครึ่ง ๆ กลาง ๆ
แทนที่จะเอาแค่ข้อมูลมาปนกัน ก็เท่ากับออกแบบให้โมเดลทั่วไปไปเรียนรู้จากกลุ่มผู้เชี่ยวชาญ
อีกจุดที่น่าสนใจจากผลการทดลอง RL คือ การใช้ RL ทีเดียวบนทั้ง 64K context ให้ผลดีกว่า RL แบบเป็นขั้นตอน (ดู Fig 6)
หลายทีมคงคิดตรงกันข้าม แต่ผลจริงออกมาไม่เหมือนนั้น
และการเลือกใช้ XML template สำหรับฟอร์แมต function calling ก็เป็นรายละเอียดเล็ก ๆ ที่ฉลาดมาก เพราะช่วยหลีกเลี่ยงปัญหา JSON escaping (ดู Fig 4)
ในงานจริง การ escape โค้ดใน JSON เป็นเรื่องปวดหัวมาก
ผลบน SWE-bench ก็ดีมากจนเทียบได้กับโมเดลเชิงพาณิชย์หรือโมเดลขนาดใหญ่กว่ามาก
สิ่งที่อยากรู้ต่อไปคือ วิธีฝึกแบบไฮบริดนี้จะใช้ได้ผลนอกเหนือจากงานประเมินสไตล์ ARC หรือไม่
ตัวอย่างเช่น ใน workflow ซับซ้อนแบบงานจริงที่ไม่มีเอกสาร API, error เกิดบ่อย, และ input ก็คลุมเครือ ประสิทธิภาพของ agent จะยังดีอยู่หรือไม่
ผมสงสัยว่า tweak แบบ post/mid-training ลักษณะนี้จำเป็นแค่ไหนในงานฝึกเฉพาะโดเมนที่มีข้อมูลและ label จำนวนมากและผ่านการตรวจสอบอย่างดีอยู่แล้ว
แค่ทีมเล็ก ๆ ทำตามสแตกการเทรนแบบ scale-up ล่าสุดให้ดีก็พอหรือไม่ หรือถ้าไม่ใช้เทคนิคเหล่านี้จะต่างกันมากแค่ไหน
กลัวว่าจะดูเหมือนจับผิดเกินไป แต่สไตล์การเขียนของบทความให้ความรู้สึกแบบ LLM ชัดมาก
เคยเห็นคนทักเรื่องนี้มาก่อนแล้ว ลิงก์
ผมคิดว่าการชี้ให้เห็นเรื่องแบบนี้เป็นส่วนหนึ่งของการช่วยรักษาสุขภาวะของพื้นที่ออนไลน์
ผมใช้โมเดลโค้ด GLM-4.5 มาค่อนข้างนานแล้ว และประสิทธิภาพดีมากจริง ๆ
ตอนรัน GLM-4.5 ใน Octofriend ซึ่งเป็น coding agent ที่ผมกำลังพัฒนาอยู่ ผมเคยเผลอคิดว่าเป็น Claude 4 ด้วยซ้ำ
จากประสบการณ์ของผม Claude ดูแข็งแกร่งกว่าเล็กน้อยในสถานการณ์ที่ต้องเอาทั้ง codebase มาเป็นบริบทและต้องคำนึงถึงการโต้ตอบกับระบบ
ส่วน GLM-4.5 ดู "ซื่อสัตย์" กว่า คือไม่ค่อยมีพฤติกรรมแบบที่ Claude ชอบแก้ test code เพื่อหลบปัญหาไปเฉย ๆ
ทั้งคู่เก่งมาก แต่ GLM-4.5 ก็เคยหาบั๊กที่ Claude 4 Sonnet หรือ 4.1 Opus หาไม่เจอให้ผมได้เหมือนกัน
ถ้าเจาะเรื่อง debugging อย่างเดียว Claude ชนะบ่อยกว่านิดหน่อย แต่ไม่ได้ทิ้งห่างมาก
ถ้าเทียบกับ GPT-5 แล้ว ทั้ง Claude และ GLM มีความสม่ำเสมอมากกว่า
GPT-5 บางครั้งให้ผลลัพธ์ที่น่าทึ่งจริง ๆ แต่ถ้าเริ่มออกนอกทางแล้วจะดึงกลับมาเข้าที่ได้ยากและน่าหงุดหงิดมาก
ดู Octofriend ได้ที่: https://github.com/synthetic-lab/octofriend
เห็นคอมเมนต์นี้แล้วผมเลยไปลองทดสอบ GLM-4.5 ใน Kilocode
วันนี้ผมใช้ Gemini CLI ทั้งวันเพื่อไล่บั๊กยาก ๆ ในโค้ดคอมไพเลอร์แต่ไม่สำเร็จ
แต่ GLM-4.5 กลับชี้ปัญหาหลักได้ทันที
Gemini CLI ไปสงสัยแต่ฟังก์ชันผิดตัวและวนแก้แบบครึ่ง ๆ กลาง ๆ ทั้งที่ท้ายที่สุดแล้วมันไม่เกี่ยวกันเลย
ชัดเจนว่า GLM-4.5 โฟกัสกับปัญหาได้ดีกว่ามาก
ผมก็เคยใช้ GLM-4.5 กับโปรเจกต์เล็ก ๆ หรือคำขอสั้น ๆ แล้วรู้สึกดีเหมือนกัน
น่าเสียดายที่พอบริบทยาวขึ้นแล้วรู้สึกว่าประสิทธิภาพตกลง ตอนนี้เลยใช้เป็นตัวสำรองของ Sonnet 4
ผมใช้ architect mode ใน aider อยู่
ใช้คู่ Deepseek R1 (ดูแลงานออกแบบระดับสูง) + Qwen3 480B (ดูแลงานเขียนโค้ดระดับล่าง หรือใช้ qwen code API)
ชุดนี้ทำงานได้ดีมากจริง ๆ
อยู่ในระดับที่แก้ปัญหาได้เอง 99.99%
ตอนนี้การแยกบทบาทใน aider ยังไม่สมบูรณ์ ผมเลยคิดจะทำเครื่องมือที่ปรับปรุง workflow นี้ด้วยตัวเอง
เห็นด้วยกับประเด็นแรก
สำหรับผมเอง Claude ยิ่งมีบริบทมากก็ยิ่งทำงานได้ดี ส่วน GLM-4.5 ถ้าอยู่ในสถานการณ์แบบนั้นผลลัพธ์จะไม่ค่อยดี
ซีรีส์ GLM-4.5 นับจำนวนพารามิเตอร์รวม/พารามิเตอร์ที่ active ด้วยวิธีที่ตัด embedding และ output layer ออก แต่รวม MTP layer เข้าไป
ซึ่งตรงกับที่ผมคำนวณไว้ (355B A32B)
ซีรีส์ GPT OSS นับทั้ง embedding/output ในพารามิเตอร์รวม และนับเฉพาะ output ในพารามิเตอร์ที่ active
ส่วนซีรีส์ Qwen3 นับทั้ง embedding และ output รวมอยู่ทั้งใน total และ active
แต่ละโมเดลนับพารามิเตอร์ไม่เหมือนกัน เลยสงสัยว่าทำไมถึงยังไม่มีมาตรฐาน และวิธีนับแบบไหนสมเหตุสมผลกว่ากัน
ส่วน active parameters นั้น unembedding parameters ถูกใช้ทุกครั้งที่สร้างโทเค็น แต่ embedding ใช้แค่หนึ่งคอลัมน์ จึงควรคำนวณให้สะท้อนคุณสมบัตินี้ เพื่อจะได้เข้าใจความสัมพันธ์กับ bandwidth และ latency ได้ถูกต้อง
ผมคิดว่าอีกไม่กี่ปี เราน่าจะเขียนโค้ดด้วยโมเดลเปิดแบบรันโลคัลที่ระดับ Sonnet 4 ได้บนเวิร์กสเตชันราคาแถว ๆ 2000 ดอลลาร์
โมเดลคลาวด์ในตอนนี้ก็มีประโยชน์ แต่เพราะมันเป็นเครื่องมือสำคัญต่อประสบการณ์ของนักพัฒนา ผมจึงอยากให้รันในเครื่องได้
ผมคิดว่าไม่ใช่อีก 2 ปีหรอก น่าจะทันภายในสิ้นปีนี้ด้วยซ้ำ
ในมุมมองโอเพนซอร์ส โมเดลแบบนี้เป็นสิ่งจำเป็น
ไม่อย่างนั้นการพัฒนาโอเพนซอร์สเองอาจกลายเป็นสิ่งที่ยั่งยืนไม่ได้
ที่จริงผมคาดหวังด้วยซ้ำว่าภายใน 2 ปี ประสิทธิภาพระดับสูงกว่า Sonnet 4 จะรันได้บนพีซีราคา 2,000 ดอลลาร์
โมเดลนี้ให้ความรู้สึกว่าเป็นโมเดลเปิดตัวแรกที่สามารถนำไปเทียบกับโมเดล frontier เชิงพาณิชย์ที่มีอยู่ได้แทบจะสูสีกันจริง ๆ
แค่ดูประสิทธิภาพต่อพารามิเตอร์ก็พอจะเห็นได้ว่ามีนวัตกรรมที่แท้จริงในวิธีการฝึก
ผมก็อยากเห็นผลยืนยันประสิทธิภาพแบบอิสระจาก Aider's LLM Leaderboard เช่นกัน
สำหรับคนที่อยากเริ่มจากอ่านบทคัดย่อของเปเปอร์เหมือนผม ฝากลิงก์นี้ไว้ https://www.arxiv.org/abs/2508.06471
แค่เป็น Apache license ก็ดีมากแล้ว
ดีใจจริง ๆ ที่ได้เห็นโมเดลโอเพนซอร์สเดินหน้าท้าทายขีดจำกัดอย่างต่อเนื่อง
มีสิ่งที่สังเกตได้จากเปเปอร์นี้เยอะมาก จนแต่ละประเด็นเอาไปเขียนเป็นเปเปอร์แยกได้เลย
โดยเฉพาะประสบการณ์เกี่ยวกับกระบวนการฝึกและการเก็บ/สังเคราะห์ข้อมูลที่เข้มข้นมาก
มีใครรู้ไหมว่าผู้เขียนเคยมีผลงานเปเปอร์ดีระดับนี้มาก่อนหรือเปล่า?
ตัวชี้วัดในกราฟของเปเปอร์ทำให้งงนิดหน่อย
รูปแรกดูเหมือนคะแนน swebench ของ Sonnet 4 จะอยู่แถว 53 แต่รูปถัดไปกลับเกือบ 70
ค่าจริงน่าจะใกล้ 70 มากกว่า อ้างอิง
สงสัยว่าทำไม Qwen3 ถึงไม่อยู่ใน coding benchmark แต่กลับอยู่ใน benchmark อื่น
Qwen3-Coder อยู่ใน Section 4.3.2
Qwen ยังไม่ค่อยเก่งเรื่องความเข้าใจ codebase ขนาดใหญ่