4 คะแนน โดย GN⁺ 2025-08-13 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • GLM-4.5 เป็นโมเดลภาษาใหญ่แบบ Mixture-of-Experts (MoE) โอเพนซอร์ส ที่โดดเด่นด้าน ความเป็นเอเจนต์ การให้เหตุผล และการเขียนโค้ด
  • โมเดลนี้พัฒนาขึ้นผ่านการฝึกหลายขั้นตอนด้วย 23T โทเค็น การทำซ้ำโมเดลผู้เชี่ยวชาญ และการเสริมการเรียนรู้
  • ทำ ผลงานระดับแนวหน้า ในเบนช์มาร์กสำคัญหลายรายการ เช่น TAU-Bench, AIME 24, SWE-bench Verified
  • ให้ประสิทธิภาพอย่างมีประสิทธิผลแม้ใช้จำนวนพารามิเตอร์น้อยกว่า และ ใกล้เคียงหรือเหนือกว่า โมเดลเชิงพาณิชย์หลักหลายตัว
  • เปิดเผยทั้ง GLM-4.5 และรุ่นขนาดเล็ก GLM-4.5-Air เพื่อใช้ในการวิจัยและพัฒนาระบบ AI

ภาพรวม

  • GLM-4.5 เป็นโมเดลภาษาใหญ่แบบ Mixture-of-Experts (MoE) โอเพนซอร์ส ที่มีพารามิเตอร์รวม 355 พันล้าน และพารามิเตอร์ที่ทำงานอยู่ 32 พันล้าน
  • ใช้ แนวทางการให้เหตุผลแบบไฮบริด รองรับทั้งโหมดการคิดเชิงลึก (Thinking) และโหมดตอบสนองทันที (Direct Response)
  • ผ่านการฝึกหลายขั้นตอนด้วย 23 ล้านล้านโทเค็น การทำซ้ำโมเดลผู้เชี่ยวชาญ และ post-training บนพื้นฐานการเสริมการเรียนรู้
  • ผลลัพธ์คือทำคะแนนสูงในงานด้านความเป็นเอเจนต์ (Agentic), การให้เหตุผล (Reasoning) และการเขียนโค้ด (Coding·ARC)
    • ทำได้ TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
  • GLM-4.5 ใช้พารามิเตอร์น้อยกว่าคู่แข่ง แต่ได้อันดับ 3 โดยรวม และอันดับ 2 ในเบนช์มาร์กด้านเอเจนต์
  • เปิดเผยทั้งรุ่นใหญ่ GLM-4.5 (355 พันล้านพารามิเตอร์) และรุ่นย่อส่วน GLM-4.5-Air (106 พันล้านพารามิเตอร์)
  • โค้ดทั้งหมด โมเดล และรายละเอียดเพิ่มเติมดูได้จาก GitHub อย่างเป็นทางการ (https://github.com/zai-org/GLM-4.5)

การประเมินประสิทธิภาพ LLM: เบนช์มาร์กด้านเอเจนต์ การให้เหตุผล และการเขียนโค้ด

  • ทดสอบ GLM-4.5 และโมเดลชั้นนำระดับโลกในเบนช์มาร์กตัวแทน 12 รายการ (MMLU-Pro, AIME 24, SWE-Bench Verified เป็นต้น)
  • GLM-4.5 ได้อันดับเฉลี่ยรวมที่ 3 และ GLM-4.5-Air ได้อันดับ 6
  • เมื่อวัดจากคะแนนด้านเอเจนต์ ได้อันดับ 2 รองจาก OpenAI o3 และได้อันดับ 3 ในเบนช์มาร์กการเขียนโค้ด โดยมีคะแนนใกล้เคียง Claude Sonnet 4
  • GLM-4.5 ให้ประสิทธิภาพใกล้เคียงกันโดยใช้พารามิเตอร์เพียงครึ่งหนึ่งของ DeepSeek-R1 และหนึ่งในสามของ Kimi K2
  • เมื่อเทียบจำนวนพารามิเตอร์ต่อประสิทธิภาพใน SWE-bench Verified ทั้ง GLM-4.5 และ GLM-4.5-Air อยู่บน Pareto Frontier
  • ข้อมูลประสิทธิภาพอ้างอิง ณ วันที่ 28 กรกฎาคม 2025

บทนำ

  • โมเดลภาษาใหญ่ (LLM) กำลังพัฒนาอย่างรวดเร็วจากคลังข้อมูลเอนกประสงค์ไปสู่ตัวแก้ปัญหาเอนกประสงค์
  • AGI (Artificial General Intelligence) ซึ่งเป็นจุดหมายปลายทางของปัญญาประดิษฐ์ มุ่งสู่โมเดลที่มีความสามารถด้านการรับรู้ระดับมนุษย์ในหลายโดเมน
  • เพื่อไปถึงจุดนั้น จำเป็นต้องบูรณาการความสามารถในการแก้ปัญหาซับซ้อน การทำให้ทั่วไปได้ และการพัฒนาตนเอง
  • ความสามารถหลัก 3 ด้านที่สำคัญต่อการทำงานจริงและการแก้ปัญหาเฉพาะทางที่ซับซ้อนมีดังนี้:
    • ความสามารถแบบเอเจนต์: การโต้ตอบกับเครื่องมือและโลกภายนอก
    • การให้เหตุผลเชิงซับซ้อน: การแก้ปัญหาเป็นขั้นตอนที่ซับซ้อน เช่น คณิตศาสตร์/วิทยาศาสตร์
    • การเขียนโค้ดขั้นสูง: ความสามารถในการทำงานวิศวกรรมซอฟต์แวร์จริง
  • โมเดลเชิงพาณิชย์ SOTA เดิม (OpenAI, Anthropic) แสดงความเชี่ยวชาญเป็นรายด้าน แต่ในบรรดาโมเดลโอเพนซอร์สยังมีไม่มากที่เปิดเผยและทำได้ดีในทั้ง 3 ด้านพร้อมกัน

แนะนำโมเดล GLM-4.5 และ GLM-4.5-Air

  • GLM-4.5/GLM-4.5-Air แสดงประสิทธิภาพระดับแนวหน้าของโอเพนซอร์สในทุกด้าน ทั้งเอเจนต์ การให้เหตุผล และการเขียนโค้ด
  • ทั้งสองโมเดลรองรับโหมดการให้เหตุผลแบบไฮบริด
    • Thinking Mode เด่นด้านการให้เหตุผลซับซ้อนและงานแบบเอเจนต์
    • Non-thinking Mode เหมาะกับการตอบสนองรวดเร็ว
  • ผลงานหลักของ GLM-4.5:
    • เอเจนต์: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (เหนือกว่าโมเดลเชิงพาณิชย์คู่แข่ง)
    • การให้เหตุผล: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
    • การเขียนโค้ด: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (เหนือกว่า GPT-4.1 และ Gemini-2.5-pro และใกล้เคียง Claude Sonnet 4)
  • GLM-4.5-Air มี 106 พันล้านพารามิเตอร์ และอยู่ในระดับทัดเทียมหรือเหนือกว่า Qwen3-235B-A22B และ MiniMax-M1 ในกลุ่มโมเดลขนาด 100 พันล้าน

สถานะและจุดเด่นของประสิทธิภาพบนเบนช์มาร์ก

  • ทั้ง GLM-4.5 และ GLM-4.5-Air ทำอันดับสูงในเบนช์มาร์กหลัก 12 รายการโดยรวม
  • GLM-4.5 มีประสิทธิภาพสมดุลในด้านเอเจนต์ การให้เหตุผล และการเขียนโค้ด พร้อมประสิทธิภาพเชิงพารามิเตอร์ที่โดดเด่น
  • บรรลุจุดประสิทธิภาพสูงสุดเมื่อเทียบจำนวนพารามิเตอร์ตามเกณฑ์ SWE-bench Verified บน Pareto Frontier
  • มีการเปรียบเทียบประสิทธิภาพอย่างละเอียดกับโมเดลเชิงพาณิชย์และโอเพนซอร์สหลายตัว

การเปิดเผยและการสนับสนุนโอเพนซอร์ส

  • โมเดล GLM-4.5/GLM-4.5-Air เปิดเผยบน Z.ai, BigModel.cn และ Huggingface (https://huggingface.co/zai-org/GLM-4.5)
  • เพื่อความสามารถในการทำซ้ำของเบนช์มาร์ก ยังเปิดซอร์สชุดเครื่องมือประเมินผล (https://github.com/zai-org/glm-simple-evals) ด้วย

การฝึกล่วงหน้า

สถาปัตยกรรม

  • ซีรีส์ GLM-4.5 ใช้ โครงสร้าง Mixture-of-Experts(MoE) ซึ่งช่วยเพิ่มประสิทธิภาพการคำนวณอย่างมากทั้งในการฝึกและการอนุมาน
  • ใช้ loss-free balance routing และ sigmoid gating ในเลเยอร์ MoE
  • ต่างจาก DeepSeek-V3 และ Kimi K2 ตรงที่ ลดความกว้างของโมเดล (มิติ hidden, จำนวน route experts) และเพิ่มความลึก (จำนวนเลเยอร์) โดยโมเดลที่ลึกกว่ามีประสิทธิผลต่อการเติบโตของความสามารถด้านการให้เหตุผลมากกว่า
  • ใน Self-Attention ใช้ Grouped-Query Attention + partial RoPE และมี 96 attention heads ทำให้ hidden dimension 5120 มีสัดส่วน attention head ที่ 2.5 เท่า
  • พบว่าการเพิ่มจำนวน heads ไม่ส่งผลต่อ training loss แต่ส่งผลเชิงบวกต่อการให้เหตุผลจริงและประสิทธิภาพบนเบนช์มาร์ก
  • ใช้ QK-Norm เพื่อเพิ่มเสถียรภาพของค่า attention logits
  • ทั้ง GLM-4.5 และ GLM-4.5-Air เพิ่มเลเยอร์ MTP(Multi-Token Prediction) ที่อิง MoE เพื่อรองรับ speculative decoding ระหว่างการอนุมาน
  • ในกระบวนการรวมพารามิเตอร์ทางสถาปัตยกรรม มีการนับรวมพารามิเตอร์ของเลเยอร์ MTP แต่ไม่รวม word embedding และ output layer

บทสรุปและผลที่คาดหวัง

  • GLM-4.5/GLM-4.5-Air เป็นโมเดลภาษายุคถัดไปที่มีทั้ง ประสิทธิภาพสูง ประสิทธิผล และความอเนกประสงค์ ในตลาด AI โอเพนซอร์ส
  • โดดเด่นทั้งด้านความสามารถในการแก้ปัญหายากและบูรณาการหลายสาขา ความสามารถในการแข่งขันกับโมเดลเชิงพาณิชย์ และประสิทธิภาพเชิงพารามิเตอร์
  • มีศักยภาพในการขยายบทบาทเป็นฐานนวัตกรรมของโมเดลภาษาใหญ่โอเพนซอร์สในวงการวิชาการ อุตสาหกรรม และงานวิจัยของนักพัฒนาโดยรวม

2 ความคิดเห็น

 
xguru 2025-08-13

ทั้งในคอมเมนต์บน Hacker News และในฟอรัม LocalLLaMA ของ Reddit ก็มีเสียงประเมินว่า GLM ค่อนข้างดีอยู่เหมือนกัน
GLM 4.5 AIR IS SO FKING GOODDD

  • GLM 4.5 Air เร็วมากจริง ๆ และความสามารถด้าน tool calling ก็ยอดเยี่ยมด้วย (ไม่ได้ทดสอบแบบรันโลคัล แต่ทดสอบผ่าน Open Router)
  • เมื่อเทียบกับ GPT-5 Mini ก็สูสีกันมากพอที่ความได้เปรียบจะขึ้นอยู่กับประเภทของงาน
  • โมเดล GLM อื่น ๆ อย่าง GLM 4.5V ก็ล้วนดีทั้งหมด
  • สำหรับงานบางประเภท (เช่น การเขียนนิยาย, การเขียนโค้ด) GLM เป็นธรรมชาติกว่าและมีข้อจำกัดน้อยกว่า GPT
 
GN⁺ 2025-08-13
ความเห็นจาก Hacker News
  • ดีใจมากที่บทความนี้ต่างจากโพสต์บล็อกเปิดตัวโมเดลที่เห็นกันบ่อย ๆ เพราะลงลึกในรายละเอียดจริง ๆ
    ทีม Zhipu/Tsinghua อธิบายไม่ใช่แค่ว่าเป็น "อะไร" แต่รวมถึง "ทำอย่างไร" อย่างละเอียด จึงน่าสนใจเป็นพิเศษสำหรับคนที่อยากสร้างหรือใช้งานโมเดลแบบนี้ด้วยตัวเอง
    โดยเฉพาะวิธีการ post-training ใน Section 3 ที่น่าประทับใจมาก
    แนวทางที่สร้าง "โมเดลผู้เชี่ยวชาญ" แยกกันสำหรับงาน reasoning/agent/chat แล้วค่อย distill ความสามารถเหล่านั้นเข้าสู่โมเดลรวมตัวสุดท้าย เป็นแนวทางที่น่าสนใจมาก
    มันเป็นความพยายามที่เป็นระบบกว่ามากในการแก้ข้อจำกัดของโมเดล generalist ที่ทำได้หลายบทบาทแบบครึ่ง ๆ กลาง ๆ
    แทนที่จะเอาแค่ข้อมูลมาปนกัน ก็เท่ากับออกแบบให้โมเดลทั่วไปไปเรียนรู้จากกลุ่มผู้เชี่ยวชาญ
    อีกจุดที่น่าสนใจจากผลการทดลอง RL คือ การใช้ RL ทีเดียวบนทั้ง 64K context ให้ผลดีกว่า RL แบบเป็นขั้นตอน (ดู Fig 6)
    หลายทีมคงคิดตรงกันข้าม แต่ผลจริงออกมาไม่เหมือนนั้น
    และการเลือกใช้ XML template สำหรับฟอร์แมต function calling ก็เป็นรายละเอียดเล็ก ๆ ที่ฉลาดมาก เพราะช่วยหลีกเลี่ยงปัญหา JSON escaping (ดู Fig 4)
    ในงานจริง การ escape โค้ดใน JSON เป็นเรื่องปวดหัวมาก
    ผลบน SWE-bench ก็ดีมากจนเทียบได้กับโมเดลเชิงพาณิชย์หรือโมเดลขนาดใหญ่กว่ามาก
    สิ่งที่อยากรู้ต่อไปคือ วิธีฝึกแบบไฮบริดนี้จะใช้ได้ผลนอกเหนือจากงานประเมินสไตล์ ARC หรือไม่
    ตัวอย่างเช่น ใน workflow ซับซ้อนแบบงานจริงที่ไม่มีเอกสาร API, error เกิดบ่อย, และ input ก็คลุมเครือ ประสิทธิภาพของ agent จะยังดีอยู่หรือไม่

    • ผมสงสัยว่า tweak แบบ post/mid-training ลักษณะนี้จำเป็นแค่ไหนในงานฝึกเฉพาะโดเมนที่มีข้อมูลและ label จำนวนมากและผ่านการตรวจสอบอย่างดีอยู่แล้ว
      แค่ทีมเล็ก ๆ ทำตามสแตกการเทรนแบบ scale-up ล่าสุดให้ดีก็พอหรือไม่ หรือถ้าไม่ใช้เทคนิคเหล่านี้จะต่างกันมากแค่ไหน

    • กลัวว่าจะดูเหมือนจับผิดเกินไป แต่สไตล์การเขียนของบทความให้ความรู้สึกแบบ LLM ชัดมาก
      เคยเห็นคนทักเรื่องนี้มาก่อนแล้ว ลิงก์
      ผมคิดว่าการชี้ให้เห็นเรื่องแบบนี้เป็นส่วนหนึ่งของการช่วยรักษาสุขภาวะของพื้นที่ออนไลน์

  • ผมใช้โมเดลโค้ด GLM-4.5 มาค่อนข้างนานแล้ว และประสิทธิภาพดีมากจริง ๆ
    ตอนรัน GLM-4.5 ใน Octofriend ซึ่งเป็น coding agent ที่ผมกำลังพัฒนาอยู่ ผมเคยเผลอคิดว่าเป็น Claude 4 ด้วยซ้ำ
    จากประสบการณ์ของผม Claude ดูแข็งแกร่งกว่าเล็กน้อยในสถานการณ์ที่ต้องเอาทั้ง codebase มาเป็นบริบทและต้องคำนึงถึงการโต้ตอบกับระบบ
    ส่วน GLM-4.5 ดู "ซื่อสัตย์" กว่า คือไม่ค่อยมีพฤติกรรมแบบที่ Claude ชอบแก้ test code เพื่อหลบปัญหาไปเฉย ๆ
    ทั้งคู่เก่งมาก แต่ GLM-4.5 ก็เคยหาบั๊กที่ Claude 4 Sonnet หรือ 4.1 Opus หาไม่เจอให้ผมได้เหมือนกัน
    ถ้าเจาะเรื่อง debugging อย่างเดียว Claude ชนะบ่อยกว่านิดหน่อย แต่ไม่ได้ทิ้งห่างมาก
    ถ้าเทียบกับ GPT-5 แล้ว ทั้ง Claude และ GLM มีความสม่ำเสมอมากกว่า
    GPT-5 บางครั้งให้ผลลัพธ์ที่น่าทึ่งจริง ๆ แต่ถ้าเริ่มออกนอกทางแล้วจะดึงกลับมาเข้าที่ได้ยากและน่าหงุดหงิดมาก
    ดู Octofriend ได้ที่: https://github.com/synthetic-lab/octofriend

    • เห็นคอมเมนต์นี้แล้วผมเลยไปลองทดสอบ GLM-4.5 ใน Kilocode
      วันนี้ผมใช้ Gemini CLI ทั้งวันเพื่อไล่บั๊กยาก ๆ ในโค้ดคอมไพเลอร์แต่ไม่สำเร็จ
      แต่ GLM-4.5 กลับชี้ปัญหาหลักได้ทันที
      Gemini CLI ไปสงสัยแต่ฟังก์ชันผิดตัวและวนแก้แบบครึ่ง ๆ กลาง ๆ ทั้งที่ท้ายที่สุดแล้วมันไม่เกี่ยวกันเลย
      ชัดเจนว่า GLM-4.5 โฟกัสกับปัญหาได้ดีกว่ามาก

    • ผมก็เคยใช้ GLM-4.5 กับโปรเจกต์เล็ก ๆ หรือคำขอสั้น ๆ แล้วรู้สึกดีเหมือนกัน
      น่าเสียดายที่พอบริบทยาวขึ้นแล้วรู้สึกว่าประสิทธิภาพตกลง ตอนนี้เลยใช้เป็นตัวสำรองของ Sonnet 4

    • ผมใช้ architect mode ใน aider อยู่
      ใช้คู่ Deepseek R1 (ดูแลงานออกแบบระดับสูง) + Qwen3 480B (ดูแลงานเขียนโค้ดระดับล่าง หรือใช้ qwen code API)
      ชุดนี้ทำงานได้ดีมากจริง ๆ
      อยู่ในระดับที่แก้ปัญหาได้เอง 99.99%
      ตอนนี้การแยกบทบาทใน aider ยังไม่สมบูรณ์ ผมเลยคิดจะทำเครื่องมือที่ปรับปรุง workflow นี้ด้วยตัวเอง

    • เห็นด้วยกับประเด็นแรก
      สำหรับผมเอง Claude ยิ่งมีบริบทมากก็ยิ่งทำงานได้ดี ส่วน GLM-4.5 ถ้าอยู่ในสถานการณ์แบบนั้นผลลัพธ์จะไม่ค่อยดี

  • ซีรีส์ GLM-4.5 นับจำนวนพารามิเตอร์รวม/พารามิเตอร์ที่ active ด้วยวิธีที่ตัด embedding และ output layer ออก แต่รวม MTP layer เข้าไป
    ซึ่งตรงกับที่ผมคำนวณไว้ (355B A32B)
    ซีรีส์ GPT OSS นับทั้ง embedding/output ในพารามิเตอร์รวม และนับเฉพาะ output ในพารามิเตอร์ที่ active
    ส่วนซีรีส์ Qwen3 นับทั้ง embedding และ output รวมอยู่ทั้งใน total และ active
    แต่ละโมเดลนับพารามิเตอร์ไม่เหมือนกัน เลยสงสัยว่าทำไมถึงยังไม่มีมาตรฐาน และวิธีนับแบบไหนสมเหตุสมผลกว่ากัน

    • จำนวนพารามิเตอร์รวมสัมพันธ์โดยตรงกับความต้องการหน่วยความจำ ดังนั้นควรนับพารามิเตอร์ทั้งหมด
      ส่วน active parameters นั้น unembedding parameters ถูกใช้ทุกครั้งที่สร้างโทเค็น แต่ embedding ใช้แค่หนึ่งคอลัมน์ จึงควรคำนวณให้สะท้อนคุณสมบัตินี้ เพื่อจะได้เข้าใจความสัมพันธ์กับ bandwidth และ latency ได้ถูกต้อง
  • ผมคิดว่าอีกไม่กี่ปี เราน่าจะเขียนโค้ดด้วยโมเดลเปิดแบบรันโลคัลที่ระดับ Sonnet 4 ได้บนเวิร์กสเตชันราคาแถว ๆ 2000 ดอลลาร์
    โมเดลคลาวด์ในตอนนี้ก็มีประโยชน์ แต่เพราะมันเป็นเครื่องมือสำคัญต่อประสบการณ์ของนักพัฒนา ผมจึงอยากให้รันในเครื่องได้

    • ผมคิดว่าไม่ใช่อีก 2 ปีหรอก น่าจะทันภายในสิ้นปีนี้ด้วยซ้ำ

    • ในมุมมองโอเพนซอร์ส โมเดลแบบนี้เป็นสิ่งจำเป็น
      ไม่อย่างนั้นการพัฒนาโอเพนซอร์สเองอาจกลายเป็นสิ่งที่ยั่งยืนไม่ได้
      ที่จริงผมคาดหวังด้วยซ้ำว่าภายใน 2 ปี ประสิทธิภาพระดับสูงกว่า Sonnet 4 จะรันได้บนพีซีราคา 2,000 ดอลลาร์

  • โมเดลนี้ให้ความรู้สึกว่าเป็นโมเดลเปิดตัวแรกที่สามารถนำไปเทียบกับโมเดล frontier เชิงพาณิชย์ที่มีอยู่ได้แทบจะสูสีกันจริง ๆ
    แค่ดูประสิทธิภาพต่อพารามิเตอร์ก็พอจะเห็นได้ว่ามีนวัตกรรมที่แท้จริงในวิธีการฝึก
    ผมก็อยากเห็นผลยืนยันประสิทธิภาพแบบอิสระจาก Aider's LLM Leaderboard เช่นกัน

  • สำหรับคนที่อยากเริ่มจากอ่านบทคัดย่อของเปเปอร์เหมือนผม ฝากลิงก์นี้ไว้ https://www.arxiv.org/abs/2508.06471

  • แค่เป็น Apache license ก็ดีมากแล้ว
    ดีใจจริง ๆ ที่ได้เห็นโมเดลโอเพนซอร์สเดินหน้าท้าทายขีดจำกัดอย่างต่อเนื่อง

  • มีสิ่งที่สังเกตได้จากเปเปอร์นี้เยอะมาก จนแต่ละประเด็นเอาไปเขียนเป็นเปเปอร์แยกได้เลย
    โดยเฉพาะประสบการณ์เกี่ยวกับกระบวนการฝึกและการเก็บ/สังเคราะห์ข้อมูลที่เข้มข้นมาก
    มีใครรู้ไหมว่าผู้เขียนเคยมีผลงานเปเปอร์ดีระดับนี้มาก่อนหรือเปล่า?

  • ตัวชี้วัดในกราฟของเปเปอร์ทำให้งงนิดหน่อย
    รูปแรกดูเหมือนคะแนน swebench ของ Sonnet 4 จะอยู่แถว 53 แต่รูปถัดไปกลับเกือบ 70
    ค่าจริงน่าจะใกล้ 70 มากกว่า อ้างอิง

  • สงสัยว่าทำไม Qwen3 ถึงไม่อยู่ใน coding benchmark แต่กลับอยู่ใน benchmark อื่น

    • Qwen3-Coder อยู่ใน Section 4.3.2

    • Qwen ยังไม่ค่อยเก่งเรื่องความเข้าใจ codebase ขนาดใหญ่