- GLM-5.1 โมเดล agentic engineering รุ่นถัดไป เป็นเวอร์ชันเรือธงที่ยกระดับความสามารถด้านการเขียนโค้ดและการแก้ปัญหาอย่างมาก โดยออกแบบโดยมี การเพิ่มประสิทธิภาพระยะยาวและการปรับปรุงอย่างต่อเนื่อง เป็นแกนหลัก
- ทำผลงานระดับแนวหน้าในเบนช์มาร์กสำคัญอย่าง SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0 และยังคง ความต่อเนื่องเชิงผลิตภาพ ได้แม้รันซ้ำเป็นเวลานาน
- ใน VectorDBBench, KernelBench, และ สถานการณ์การสร้างเว็บแอป โมเดลยังคงพัฒนาประสิทธิภาพต่อไปผ่านการทำซ้ำตั้งแต่หลายร้อยถึงหลายพันครั้ง โดยวิเคราะห์ล็อกของตนเองและปรับกลยุทธ์เพื่อลดคอขวด
- โมเดลทำงานได้อย่างมีประสิทธิภาพแม้กับงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน ผ่าน การประเมินตนเองและการเปลี่ยนโครงสร้างการทำงาน และคุณภาพของผลลัพธ์ยังดีขึ้นอย่างสม่ำเสมอเมื่อรันระยะยาว
- เปิดซอร์สภายใต้ สัญญาอนุญาต MIT ใช้งานได้บนหลายแพลตฟอร์มและเฟรมเวิร์ก และถูกนำเสนอในฐานะ มาตรฐานใหม่ของโมเดล AI ที่เน้นการเพิ่มประสิทธิภาพระยะยาว
ภาพรวมของ GLM-5.1
- GLM-5.1 เป็นโมเดล agentic engineering รุ่นถัดไป และเป็น โมเดลเรือธงที่ประสิทธิภาพการเขียนโค้ดดีขึ้นอย่างมาก เมื่อเทียบกับเวอร์ชันก่อนหน้า
- ทำสถิติสูงสุดใน SWE-Bench Pro และทิ้งห่าง GLM-5 อย่างชัดเจนใน NL2Repo (การสร้างรีโพซิทอรี) และ Terminal-Bench 2.0 (งานเทอร์มินัลจริง)
- ไม่ได้เน้นเพียงประสิทธิภาพของการรันครั้งเดียว แต่ถูกออกแบบโดยให้ความสำคัญกับ ความสามารถในการเพิ่มประสิทธิภาพระยะยาว และ ความสามารถในการแก้ปัญหาอย่างต่อเนื่อง
- ตัดสินปัญหาที่คลุมเครือได้ดีขึ้น รักษาผลิตภาพได้แม้ในเซสชันยาว ๆ และยังคง ปรับปรุงประสิทธิภาพได้ต่อเนื่องแม้ทำซ้ำหลายร้อยครั้ง ผ่านการทดลองซ้ำและการปรับกลยุทธ์
- มีโครงสร้างที่ยิ่งรันนานผลลัพธ์ยิ่งดีขึ้น โดยมี ความสามารถในการทำงานระยะยาว (long-horizon capability) เป็นจุดเด่นหลัก
งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน
- GLM-5.1 บรรลุประสิทธิภาพระดับแนวหน้าใน งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน
- โมเดลก่อนหน้าแม้จะดีขึ้นในช่วงแรก แต่จะตันอย่างรวดเร็ว ขณะที่ GLM-5.1 ยัง คงประสิทธิภาพได้แม้ในงาน agentic ระยะยาว
- โมเดลจะแยกปัญหาออกเป็นส่วนย่อย ทำการทดลอง วิเคราะห์ผลเพื่อระบุคอขวด และปรับกลยุทธ์ผ่านการให้เหตุผลแบบวนซ้ำ
- สิ่งนี้ถูกพิสูจน์ผ่าน 3 งานที่ค่อย ๆ มีโครงสร้างน้อยลง
- ปัญหาการเพิ่มประสิทธิภาพการค้นหาเวกเตอร์ (อิงตัวชี้วัดเชิงตัวเลขตัวเดียว)
- GPU kernel benchmark (วัดการเร่งความเร็วแยกตามโจทย์)
- การสร้างเว็บแอปพลิเคชัน (ปรับปรุงจากการตัดสินของโมเดลเองโดยไม่มีตัวชี้วัดชัดเจน)
สถานการณ์ที่ 1: เพิ่มประสิทธิภาพเวกเตอร์ดาต้าเบสด้วยการทำซ้ำ 600 ครั้ง
- VectorDBBench เป็นชาเลนจ์โอเพนซอร์สที่ประเมินความสามารถในการเขียนโค้ดของโมเดลในการสร้างฐานข้อมูลประสิทธิภาพสูงสำหรับการค้นหา approximate nearest neighbor
- โมเดลได้รับ skeleton code บนพื้นฐาน Rust และ HTTP API endpoint พร้อมสิทธิ์ทำการอ่าน/เขียนไฟล์ คอมไพล์ ทดสอบ และโปรไฟล์ ภายใน 50 tool-call
- สถิติเดิมที่ดีที่สุดคือ 3,547 QPS ของ Claude Opus 4.6 (Recall ≥ 95%)
- GLM-5.1 เพิ่มลูปการเพิ่มประสิทธิภาพภายนอก ทำการ ซ้ำมากกว่า 600 รอบ (มากกว่า 6,000 tool-call) และทำได้ถึง 21.5k QPS ในที่สุด
- คิดเป็นการเพิ่มขึ้นประมาณ 6 เท่า เมื่อเทียบกับเซสชันเดี่ยว 50 ครั้ง
- กระบวนการเพิ่มประสิทธิภาพมีลักษณะเป็น แพตเทิร์นแบบขั้นบันได (staircase) โดยการจูนแบบค่อยเป็นค่อยไปสลับกับการเปลี่ยนโครงสร้าง
- ราวครั้งที่ 90: เพิ่ม IVF cluster probing + การบีบอัดเวกเตอร์แบบ f16 → 6.4k QPS
- ราวครั้งที่ 240: เพิ่ม pipeline สองขั้น u8 pre-scoring + f16 re-ranking → 13.4k QPS
- เกิดการเปลี่ยนโครงสร้างทั้งหมด 6 ครั้ง ซึ่งแต่ละครั้งเป็นผลจากการที่โมเดลวิเคราะห์ล็อกของตนเองเพื่อระบุคอขวด
- จุดที่ Recall ต่ำกว่า 95% มักกระจุกอยู่ในช่วงที่กำลังสำรวจกลยุทธ์ใหม่
สถานการณ์ที่ 2: เพิ่มประสิทธิภาพเวิร์กโหลดแมชชีนเลิร์นนิงด้วยการทำซ้ำมากกว่า 1,000 ครั้ง
- KernelBench ใช้ประเมินความสามารถของโมเดลในการแปลง implementation อ้างอิงของ PyTorch ให้เป็น GPU kernel ที่เร็วขึ้นแต่ให้ผลลัพธ์เหมือนเดิม
- แบ่งเป็น 3 ระดับ (Level 1~3) โดย Level 3 รวมถึงการเพิ่มประสิทธิภาพทั้งโมเดล เช่น MobileNet, VGG, MiniGPT, Mamba
- การตั้งค่าพื้นฐานของ
torch.compileทำได้ 1.15× และ max-autotune ทำได้ 1.49× - GLM-5.1 ทำได้ เร่งความเร็ว 3.6× ใน Level 3 และยังคงทำ optimization ที่มีผลได้ยาวนานกว่า GLM-5 อย่างมาก
- GLM-5 พุ่งขึ้นแรงในช่วงแรกก่อนจะนิ่ง ส่วน Claude Opus 4.5 อยู่ได้นานกว่าแต่เริ่มชะลอในช่วงท้าย
- Claude Opus 4.6 ทำได้สูงสุดที่ 4.2× ในตอนท้าย และยังมีช่องให้ปรับปรุงเพิ่มเติม
สถานการณ์ที่ 3: สร้างเว็บแอปเดสก์ท็อป Linux ตลอด 8 ชั่วโมง
- การสร้างเว็บไซต์เป็น งานเชิงอัตวิสัย ที่ไม่มีตัวชี้วัดเชิงตัวเลขชัดเจน โดยประเมินจากความสมบูรณ์ คุณภาพด้านภาพ และคุณภาพของปฏิสัมพันธ์
- พรอมป์ททดสอบ: “สร้างสภาพแวดล้อมเดสก์ท็อปสไตล์ Linux เป็นเว็บแอปพลิเคชัน”
- เริ่มต้นโดยไม่มีโค้ดตั้งต้น ดีไซน์ หรือฟีดแบ็กระหว่างทาง
- โมเดลส่วนใหญ่มักสร้าง UI พื้นฐานแล้วจบ แต่ GLM-5.1 พัฒนาต่อเนื่องผ่าน ลูปตรวจทานและปรับปรุงผลลัพธ์ด้วยตนเอง
- รันซ้ำต่อเนื่องเป็นเวลา 8 ชั่วโมง จากเลย์เอาต์เรียบง่ายในช่วงแรก ค่อย ๆ ขยายเป็นสภาพแวดล้อมเดสก์ท็อปเต็มรูปแบบ
- เพิ่ม file browser, terminal, text editor, system monitor, calculator, game เป็นต้น
- แต่ละฟังก์ชันถูก ผสานเข้ากับ UI ที่สอดคล้องกัน และสไตล์รวมถึงคุณภาพการโต้ตอบก็ดีขึ้นทีละน้อย
- ผลลัพธ์สุดท้ายคือ สภาพแวดล้อมเดสก์ท็อปที่สมบูรณ์และมีความสอดคล้องด้านภาพ ซึ่งทำงานได้ภายในเบราว์เซอร์
ความหมายและโจทย์ของการเพิ่มประสิทธิภาพระยะยาว
- ในทั้ง 3 สถานการณ์ ตัวแปรสำคัญไม่ใช่ เวลาในการรันเพียงอย่างเดียว แต่คือเวลาที่เพิ่มขึ้นนั้นยังให้ผลจริงหรือไม่
- GLM-5.1 ขยาย productive horizon ได้อย่างมากเมื่อเทียบกับ GLM-5
- อย่างไรก็ตาม ในบางโจทย์อย่าง KernelBench ก็ยังมีพื้นที่ให้ปรับปรุง
- โจทย์ที่ยังเหลือ
- หลุดออกจาก local optimum เมื่อการจูนแบบค่อยเป็นค่อยไปถึงขีดจำกัด
- รักษาความสม่ำเสมอ ตลอดหลายพัน tool-call
- การประเมินตนเองที่เชื่อถือได้ (self-evaluation) ในโจทย์ที่ไม่มีตัวชี้วัดเชิงตัวเลขชัดเจน
- GLM-5.1 ถูกนำเสนอในฐานะ ก้าวแรก สู่ทิศทางของการเพิ่มประสิทธิภาพระยะยาวเช่นนี้
สรุปการเปรียบเทียบเบนช์มาร์ก
- GLM-5.1 เหนือกว่า GLM-5 ในเบนช์มาร์กด้านโค้ดหลักหลายรายการ เช่น SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5
- อยู่ในกลุ่มบนเมื่อเทียบกับโมเดลคู่แข่งทั้งด้าน Reasoning, Coding, Agentic
- เมื่อเทียบกับโมเดลล่าสุดอย่าง Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 ก็ยังทำได้ใกล้เคียงหรือเหนือกว่าในหลายรายการ
การเปิดเผยและวิธีใช้งาน
- เปิดซอร์สภายใต้ สัญญาอนุญาต MIT
- ใช้งานได้บน api.z.ai, BigModel.cn และเข้ากันได้กับ Claude Code และ OpenClaw
- ผู้สมัครสมาชิก GLM Coding Plan สามารถใช้งานได้ทันทีโดยเปลี่ยนชื่อโมเดลเป็น
"GLM-5.1"- ช่วงพีก (UTC+8 14:00–18:00) ใช้โควตา 3× และช่วงนอกพีกใช้ 2×
- ช่วงนอกพีกมีโปรโมชันคิด 1× จนถึงสิ้นเดือนเมษายน
- มี Z Code ให้ใช้งานในสภาพแวดล้อม GUI พร้อมรองรับการพัฒนาระยะไกลผ่าน SSH และการทำงานบนมือถือ
- น้ำหนักโมเดลเปิดเผยบน HuggingFace และ ModelScope
- รองรับเฟรมเวิร์ก inference หลักอย่าง vLLM, SGLang และมีคู่มือการดีพลอยบน GitHub
- เร็ว ๆ นี้จะสามารถใช้งานได้บน แพลตฟอร์มแชต Z.ai เช่นกัน
การตั้งค่าการประเมินและหมายเหตุ
- HLE และงาน reasoning อื่น ๆ: สร้างได้สูงสุด 163,840 โทเคน และใช้ GPT-5.2 เป็นโมเดลตัดสิน
- SWE-Bench Pro: context window 200K และรันบนพื้นฐาน OpenHands
- NL2Repo: รวมการตรวจจับและบล็อกคำสั่งอันตราย
- Terminal-Bench 2.0: จำกัดที่ 16 CPU, RAM 32GB และ timeout 3 ชั่วโมง
- KernelBench Level 3: ใช้สภาพแวดล้อม GPU H100 จำกัด 1,200 tool-call และมีการตรวจสอบอิสระ
- มีการประเมินอิสระในเบนช์มาร์กภายนอกหลายรายการ เช่น CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2
1 ความคิดเห็น
ความเห็นจาก Hacker News
ทุกวันมีอยู่สามอย่างที่ยิ่งชัดเจนขึ้นเรื่อย ๆ
(1) OpenAI และ Anthropic ตอนนี้แทบไม่มีความสามารถในการแข่งขันแล้ว
(2) มั่นใจว่า การอนุมานแบบโลคัล/ส่วนตัว คืออนาคตของ AI
(3) ยังไม่มี ‘ผลิตภัณฑ์ระดับพลิกเกม’ ปรากฏขึ้น ดังนั้นถึงเวลาที่ต้องสร้างของจริงแล้ว
เพิ่งเห็นโพสต์เกี่ยวกับ Claude Mythos ไป แล้วรอบนี้มันไม่ใช่แค่การปรับปรุงธรรมดา แต่รู้สึกเหมือนเป็น การก้าวกระโดด จริง ๆ ยังไม่รู้ว่าจะเปิดตัวเมื่อไร แต่ก็กำลังรอ GLM รุ่นถัดไป ที่สเปกดูทรงพลังแบบบ้าคลั่งเช่นกัน
มีการปล่อยเวอร์ชัน Unsloth quantization ออกมาด้วย โมเดล GLM-5.1-GGUF รุ่น IQ4_XS มีขนาด 754B พารามิเตอร์และ 361GB ซึ่งเกินกำลังสำหรับแฟน local LLM ทั่วไปที่จะรันได้
โมเดลนี้ไม่เพียงวาด ภาพนกกระทุง ที่ยอดเยี่ยมให้ฉันเท่านั้น แต่ยังทำมันเป็น แอนิเมชัน ได้ด้วย
ลิงก์ที่เกี่ยวข้อง
พูดตรง ๆ ว่าผิดหวังนิดหน่อย GLM 5.1 สร้าง TypeScript ได้ดีกว่า Opus หรือ Codex มาก แต่พอคอนเท็กซ์ยาว ๆ บางครั้งมันจะหลุดเข้า โหมดแปลก ๆ ถึงอย่างนั้นก็ยังมีเซสชันที่ทำงานได้เสถียรเกิน 200k โทเค็น
/compactGLM-5.0 เป็นตัวเก่งจริงในบรรดาโมเดลโอเพนซอร์ส ใน benchmark ภายในก็ติดอันดับต้น ๆ ตลอด และอยู่ในระดับใกล้เคียง GPT-5.2 ตอนนี้ฉันใช้มันกับ งานที่ไม่มีโครงสร้างตายตัว มากกว่างานเขียนโค้ด
ในการทดสอบของฉัน GLM 5.1 ทำผลงานได้แย่กว่า GLM 5
ลิงก์เปรียบเทียบ
ดูเหมือนว่าโมเดลตอนนี้จะถูกจูนไปทาง เอเจนต์/เน้นการเขียนโค้ด
น่าสนใจที่มีแนวทางประเมินคุณภาพของโมเดลจาก ความเร็วในการรันโค้ดที่เอเจนต์สร้างขึ้น ฉันทดสอบด้วยวิธีอย่าง สร้าง benchmark, ตั้ง baseline แล้วปรับปรุงให้ได้มากกว่า 1.4 เท่า โดย Opus 4.6 สามารถหา low-level optimization ในโค้ด Rust ได้จนทำให้เร็วขึ้น 6 เท่าเมื่อเทียบกับเดิม และยังผ่านเทสต์ทั้งหมด วิธีนี้ทำให้เปรียบเทียบสมรรถนะจริงได้อย่างใช้งานได้จริงมากขึ้น
อ่านคอมเมนต์แล้วเหมือนทุกคนพูดราวกับว่าใช้โมเดลนี้กันมานาน เลยสงสัยว่าจริงไหม
ตอนนี้ฉันใช้ GLM 4.7 Flash บนเครื่องตัวเองเป็นหลักสำหรับงาน agent coding และมันยอดเยี่ยมมาก รอบนี้ก็หวังว่าจะมี รุ่น Flash ออกมาด้วย แต่เสียดายที่ใน release note ไม่ได้พูดถึง ถึงอย่างนั้นก็เชื่อว่าเดี๋ยวก็คงมา