GLM-5.1: วิวัฒนาการสู่การทำงานกับโจทย์ระยะยาว

(z.ai)

8 คะแนน โดย GN⁺ 23 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GLM-5.1 โมเดล agentic engineering รุ่นถัดไป เป็นเวอร์ชันเรือธงที่ยกระดับความสามารถด้านการเขียนโค้ดและการแก้ปัญหาอย่างมาก โดยออกแบบโดยมี การเพิ่มประสิทธิภาพระยะยาวและการปรับปรุงอย่างต่อเนื่อง เป็นแกนหลัก
ทำผลงานระดับแนวหน้าในเบนช์มาร์กสำคัญอย่าง SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0 และยังคง ความต่อเนื่องเชิงผลิตภาพ ได้แม้รันซ้ำเป็นเวลานาน
ใน VectorDBBench, KernelBench, และ สถานการณ์การสร้างเว็บแอป โมเดลยังคงพัฒนาประสิทธิภาพต่อไปผ่านการทำซ้ำตั้งแต่หลายร้อยถึงหลายพันครั้ง โดยวิเคราะห์ล็อกของตนเองและปรับกลยุทธ์เพื่อลดคอขวด
โมเดลทำงานได้อย่างมีประสิทธิภาพแม้กับงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน ผ่าน การประเมินตนเองและการเปลี่ยนโครงสร้างการทำงาน และคุณภาพของผลลัพธ์ยังดีขึ้นอย่างสม่ำเสมอเมื่อรันระยะยาว
เปิดซอร์สภายใต้ สัญญาอนุญาต MIT ใช้งานได้บนหลายแพลตฟอร์มและเฟรมเวิร์ก และถูกนำเสนอในฐานะ มาตรฐานใหม่ของโมเดล AI ที่เน้นการเพิ่มประสิทธิภาพระยะยาว

ภาพรวมของ GLM-5.1

GLM-5.1 เป็นโมเดล agentic engineering รุ่นถัดไป และเป็น โมเดลเรือธงที่ประสิทธิภาพการเขียนโค้ดดีขึ้นอย่างมาก เมื่อเทียบกับเวอร์ชันก่อนหน้า
ทำสถิติสูงสุดใน SWE-Bench Pro และทิ้งห่าง GLM-5 อย่างชัดเจนใน NL2Repo (การสร้างรีโพซิทอรี) และ Terminal-Bench 2.0 (งานเทอร์มินัลจริง)
ไม่ได้เน้นเพียงประสิทธิภาพของการรันครั้งเดียว แต่ถูกออกแบบโดยให้ความสำคัญกับ ความสามารถในการเพิ่มประสิทธิภาพระยะยาว และ ความสามารถในการแก้ปัญหาอย่างต่อเนื่อง
ตัดสินปัญหาที่คลุมเครือได้ดีขึ้น รักษาผลิตภาพได้แม้ในเซสชันยาว ๆ และยังคง ปรับปรุงประสิทธิภาพได้ต่อเนื่องแม้ทำซ้ำหลายร้อยครั้ง ผ่านการทดลองซ้ำและการปรับกลยุทธ์
มีโครงสร้างที่ยิ่งรันนานผลลัพธ์ยิ่งดีขึ้น โดยมี ความสามารถในการทำงานระยะยาว (long-horizon capability) เป็นจุดเด่นหลัก

งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน

GLM-5.1 บรรลุประสิทธิภาพระดับแนวหน้าใน งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน
โมเดลก่อนหน้าแม้จะดีขึ้นในช่วงแรก แต่จะตันอย่างรวดเร็ว ขณะที่ GLM-5.1 ยัง คงประสิทธิภาพได้แม้ในงาน agentic ระยะยาว
โมเดลจะแยกปัญหาออกเป็นส่วนย่อย ทำการทดลอง วิเคราะห์ผลเพื่อระบุคอขวด และปรับกลยุทธ์ผ่านการให้เหตุผลแบบวนซ้ำ
สิ่งนี้ถูกพิสูจน์ผ่าน 3 งานที่ค่อย ๆ มีโครงสร้างน้อยลง
- ปัญหาการเพิ่มประสิทธิภาพการค้นหาเวกเตอร์ (อิงตัวชี้วัดเชิงตัวเลขตัวเดียว)
- GPU kernel benchmark (วัดการเร่งความเร็วแยกตามโจทย์)
- การสร้างเว็บแอปพลิเคชัน (ปรับปรุงจากการตัดสินของโมเดลเองโดยไม่มีตัวชี้วัดชัดเจน)

สถานการณ์ที่ 1: เพิ่มประสิทธิภาพเวกเตอร์ดาต้าเบสด้วยการทำซ้ำ 600 ครั้ง

VectorDBBench เป็นชาเลนจ์โอเพนซอร์สที่ประเมินความสามารถในการเขียนโค้ดของโมเดลในการสร้างฐานข้อมูลประสิทธิภาพสูงสำหรับการค้นหา approximate nearest neighbor
โมเดลได้รับ skeleton code บนพื้นฐาน Rust และ HTTP API endpoint พร้อมสิทธิ์ทำการอ่าน/เขียนไฟล์ คอมไพล์ ทดสอบ และโปรไฟล์ ภายใน 50 tool-call
สถิติเดิมที่ดีที่สุดคือ 3,547 QPS ของ Claude Opus 4.6 (Recall ≥ 95%)
GLM-5.1 เพิ่มลูปการเพิ่มประสิทธิภาพภายนอก ทำการ ซ้ำมากกว่า 600 รอบ (มากกว่า 6,000 tool-call) และทำได้ถึง 21.5k QPS ในที่สุด
- คิดเป็นการเพิ่มขึ้นประมาณ 6 เท่า เมื่อเทียบกับเซสชันเดี่ยว 50 ครั้ง
กระบวนการเพิ่มประสิทธิภาพมีลักษณะเป็น แพตเทิร์นแบบขั้นบันได (staircase) โดยการจูนแบบค่อยเป็นค่อยไปสลับกับการเปลี่ยนโครงสร้าง
- ราวครั้งที่ 90: เพิ่ม IVF cluster probing + การบีบอัดเวกเตอร์แบบ f16 → 6.4k QPS
- ราวครั้งที่ 240: เพิ่ม pipeline สองขั้น u8 pre-scoring + f16 re-ranking → 13.4k QPS
เกิดการเปลี่ยนโครงสร้างทั้งหมด 6 ครั้ง ซึ่งแต่ละครั้งเป็นผลจากการที่โมเดลวิเคราะห์ล็อกของตนเองเพื่อระบุคอขวด
จุดที่ Recall ต่ำกว่า 95% มักกระจุกอยู่ในช่วงที่กำลังสำรวจกลยุทธ์ใหม่

สถานการณ์ที่ 2: เพิ่มประสิทธิภาพเวิร์กโหลดแมชชีนเลิร์นนิงด้วยการทำซ้ำมากกว่า 1,000 ครั้ง

KernelBench ใช้ประเมินความสามารถของโมเดลในการแปลง implementation อ้างอิงของ PyTorch ให้เป็น GPU kernel ที่เร็วขึ้นแต่ให้ผลลัพธ์เหมือนเดิม
แบ่งเป็น 3 ระดับ (Level 1~3) โดย Level 3 รวมถึงการเพิ่มประสิทธิภาพทั้งโมเดล เช่น MobileNet, VGG, MiniGPT, Mamba
การตั้งค่าพื้นฐานของ torch.compile ทำได้ 1.15× และ max-autotune ทำได้ 1.49×
GLM-5.1 ทำได้ เร่งความเร็ว 3.6× ใน Level 3 และยังคงทำ optimization ที่มีผลได้ยาวนานกว่า GLM-5 อย่างมาก
GLM-5 พุ่งขึ้นแรงในช่วงแรกก่อนจะนิ่ง ส่วน Claude Opus 4.5 อยู่ได้นานกว่าแต่เริ่มชะลอในช่วงท้าย
Claude Opus 4.6 ทำได้สูงสุดที่ 4.2× ในตอนท้าย และยังมีช่องให้ปรับปรุงเพิ่มเติม

สถานการณ์ที่ 3: สร้างเว็บแอปเดสก์ท็อป Linux ตลอด 8 ชั่วโมง

การสร้างเว็บไซต์เป็น งานเชิงอัตวิสัย ที่ไม่มีตัวชี้วัดเชิงตัวเลขชัดเจน โดยประเมินจากความสมบูรณ์ คุณภาพด้านภาพ และคุณภาพของปฏิสัมพันธ์
พรอมป์ททดสอบ: “สร้างสภาพแวดล้อมเดสก์ท็อปสไตล์ Linux เป็นเว็บแอปพลิเคชัน”
- เริ่มต้นโดยไม่มีโค้ดตั้งต้น ดีไซน์ หรือฟีดแบ็กระหว่างทาง
โมเดลส่วนใหญ่มักสร้าง UI พื้นฐานแล้วจบ แต่ GLM-5.1 พัฒนาต่อเนื่องผ่าน ลูปตรวจทานและปรับปรุงผลลัพธ์ด้วยตนเอง
รันซ้ำต่อเนื่องเป็นเวลา 8 ชั่วโมง จากเลย์เอาต์เรียบง่ายในช่วงแรก ค่อย ๆ ขยายเป็นสภาพแวดล้อมเดสก์ท็อปเต็มรูปแบบ
- เพิ่ม file browser, terminal, text editor, system monitor, calculator, game เป็นต้น
- แต่ละฟังก์ชันถูก ผสานเข้ากับ UI ที่สอดคล้องกัน และสไตล์รวมถึงคุณภาพการโต้ตอบก็ดีขึ้นทีละน้อย
ผลลัพธ์สุดท้ายคือ สภาพแวดล้อมเดสก์ท็อปที่สมบูรณ์และมีความสอดคล้องด้านภาพ ซึ่งทำงานได้ภายในเบราว์เซอร์

ความหมายและโจทย์ของการเพิ่มประสิทธิภาพระยะยาว

ในทั้ง 3 สถานการณ์ ตัวแปรสำคัญไม่ใช่ เวลาในการรันเพียงอย่างเดียว แต่คือเวลาที่เพิ่มขึ้นนั้นยังให้ผลจริงหรือไม่
GLM-5.1 ขยาย productive horizon ได้อย่างมากเมื่อเทียบกับ GLM-5
อย่างไรก็ตาม ในบางโจทย์อย่าง KernelBench ก็ยังมีพื้นที่ให้ปรับปรุง
โจทย์ที่ยังเหลือ
- หลุดออกจาก local optimum เมื่อการจูนแบบค่อยเป็นค่อยไปถึงขีดจำกัด
- รักษาความสม่ำเสมอ ตลอดหลายพัน tool-call
- การประเมินตนเองที่เชื่อถือได้ (self-evaluation) ในโจทย์ที่ไม่มีตัวชี้วัดเชิงตัวเลขชัดเจน
GLM-5.1 ถูกนำเสนอในฐานะ ก้าวแรก สู่ทิศทางของการเพิ่มประสิทธิภาพระยะยาวเช่นนี้

สรุปการเปรียบเทียบเบนช์มาร์ก

GLM-5.1 เหนือกว่า GLM-5 ในเบนช์มาร์กด้านโค้ดหลักหลายรายการ เช่น SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5
อยู่ในกลุ่มบนเมื่อเทียบกับโมเดลคู่แข่งทั้งด้าน Reasoning, Coding, Agentic
เมื่อเทียบกับโมเดลล่าสุดอย่าง Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 ก็ยังทำได้ใกล้เคียงหรือเหนือกว่าในหลายรายการ

การเปิดเผยและวิธีใช้งาน

เปิดซอร์สภายใต้ สัญญาอนุญาต MIT
ใช้งานได้บน api.z.ai, BigModel.cn และเข้ากันได้กับ Claude Code และ OpenClaw
ผู้สมัครสมาชิก GLM Coding Plan สามารถใช้งานได้ทันทีโดยเปลี่ยนชื่อโมเดลเป็น "GLM-5.1"
- ช่วงพีก (UTC+8 14:00–18:00) ใช้โควตา 3× และช่วงนอกพีกใช้ 2×
- ช่วงนอกพีกมีโปรโมชันคิด 1× จนถึงสิ้นเดือนเมษายน
มี Z Code ให้ใช้งานในสภาพแวดล้อม GUI พร้อมรองรับการพัฒนาระยะไกลผ่าน SSH และการทำงานบนมือถือ
น้ำหนักโมเดลเปิดเผยบน HuggingFace และ ModelScope
รองรับเฟรมเวิร์ก inference หลักอย่าง vLLM, SGLang และมีคู่มือการดีพลอยบน GitHub
เร็ว ๆ นี้จะสามารถใช้งานได้บน แพลตฟอร์มแชต Z.ai เช่นกัน

การตั้งค่าการประเมินและหมายเหตุ

HLE และงาน reasoning อื่น ๆ: สร้างได้สูงสุด 163,840 โทเคน และใช้ GPT-5.2 เป็นโมเดลตัดสิน
SWE-Bench Pro: context window 200K และรันบนพื้นฐาน OpenHands
NL2Repo: รวมการตรวจจับและบล็อกคำสั่งอันตราย
Terminal-Bench 2.0: จำกัดที่ 16 CPU, RAM 32GB และ timeout 3 ชั่วโมง
KernelBench Level 3: ใช้สภาพแวดล้อม GPU H100 จำกัด 1,200 tool-call และมีการตรวจสอบอิสระ
มีการประเมินอิสระในเบนช์มาร์กภายนอกหลายรายการ เช่น CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2

1 ความคิดเห็น

GN⁺ 23 일 전

ความเห็นจาก Hacker News

ทุกวันมีอยู่สามอย่างที่ยิ่งชัดเจนขึ้นเรื่อย ๆ
(1) OpenAI และ Anthropic ตอนนี้แทบไม่มีความสามารถในการแข่งขันแล้ว
(2) มั่นใจว่า การอนุมานแบบโลคัล/ส่วนตัว คืออนาคตของ AI
(3) ยังไม่มี ‘ผลิตภัณฑ์ระดับพลิกเกม’ ปรากฏขึ้น ดังนั้นถึงเวลาที่ต้องสร้างของจริงแล้ว
- ไม่เห็นด้วยกับคำพูดที่ว่า ‘ยังไม่มีผลิตภัณฑ์ระดับพลิกเกม’ ผู้ช่วยเขียนโค้ดและ LLM คือความสำเร็จทางเทคโนโลยีที่น่าอัศจรรย์ที่สุดในชีวิตของฉัน เช่นเดียวกับที่มีโลกก่อนและหลังการปฏิวัติอุตสาหกรรม ฉันคิดว่าอีกไม่นานประวัติศาสตร์มนุษยชาติก็จะแบ่งเป็น ก่อน AI และหลัง AI
- ผู้ช่วยเขียนโค้ดด้วย AI เป็นหนึ่งในเทคโนโลยีที่มีประโยชน์ที่สุดเท่าที่เคยถูกสร้างมา คุณภาพ ของโมเดลสำคัญที่สุด ดังนั้นตราบใดที่ฮาร์ดแวร์ยังไม่เปลี่ยนแปลงในระดับพื้นฐาน ก็มองว่า local inference คงยากที่จะกลายเป็นกระแสหลัก
- สงสัยว่าการที่คนทั่วไปยอมจ่าย 50,000 ดอลลาร์กับ GPU เพื่อรันเองนั้น นอกจากจะเป็นโปรเจกต์งานอดิเรกเท่ ๆ แล้ว มีข้อดีที่เป็นรูปธรรมอะไรอีกบ้าง
เพิ่งเห็นโพสต์เกี่ยวกับ Claude Mythos ไป แล้วรอบนี้มันไม่ใช่แค่การปรับปรุงธรรมดา แต่รู้สึกเหมือนเป็น การก้าวกระโดด จริง ๆ ยังไม่รู้ว่าจะเปิดตัวเมื่อไร แต่ก็กำลังรอ GLM รุ่นถัดไป ที่สเปกดูทรงพลังแบบบ้าคลั่งเช่นกัน
มีการปล่อยเวอร์ชัน Unsloth quantization ออกมาด้วย โมเดล GLM-5.1-GGUF รุ่น IQ4_XS มีขนาด 754B พารามิเตอร์และ 361GB ซึ่งเกินกำลังสำหรับแฟน local LLM ทั่วไปที่จะรันได้
- ถ้ามีซอฟต์แวร์ซัพพอร์ตดี ๆ ก็สามารถทำ SSD offloading ได้ แน่นอนว่าตอนนั้นคงไม่ใช่ระดับ ‘รัน’ แต่เป็นระดับ ‘คลาน’ มากกว่า แต่ยังไงก็ยังได้คำตอบจากการรันบนเครื่องตัวเอง ช่วงหลังเริ่มมีความพยายามออกแบบโครงสร้าง n-gram, internal embedding parameter โดยคำนึงถึง SSD offloading ตั้งแต่ต้นด้วย
โมเดลนี้ไม่เพียงวาด ภาพนกกระทุง ที่ยอดเยี่ยมให้ฉันเท่านั้น แต่ยังทำมันเป็น แอนิเมชัน ได้ด้วย
ลิงก์ที่เกี่ยวข้อง
- มันดูสมจริงกว่ามาก นกกระทุงบินอยู่บนฟ้าย่อมเป็นธรรมชาติกว่าการปั่นจักรยาน
- Simon ถึงเวลาต้องสร้าง benchmark ที่ดีกว่านี้แล้ว
พูดตรง ๆ ว่าผิดหวังนิดหน่อย GLM 5.1 สร้าง TypeScript ได้ดีกว่า Opus หรือ Codex มาก แต่พอคอนเท็กซ์ยาว ๆ บางครั้งมันจะหลุดเข้า โหมดแปลก ๆ ถึงอย่างนั้นก็ยังมีเซสชันที่ทำงานได้เสถียรเกิน 200k โทเค็น
- ถ้ามันทำงานได้ดีและความเร็วโอเคก็น่าประทับใจมาก เมื่อวานมันแก้ปัญหาที่ Kimi K2.5 แก้ไม่ได้ แต่บางครั้งก็ยังช้าอยู่ ให้ความรู้สึกว่าใกล้ ระดับ Opus 4.5
- ฉันตั้ง context window ไว้ที่ 100k แล้วคอย compact เป็นระยะ หรือไม่ก็บันทึกสถานะเป็นเอกสารแล้วเริ่มเซสชันใหม่ ช่วงนี้ Opus 4.6 ไม่นิ่ง ก็เลยใช้ GLM 5.1 เป็นหลัก รู้สึกทึ่งที่คุณภาพของโมเดลโอเพนดีขึ้นขนาดนี้
- ที่โมเดลโอเพนซอร์สทำได้ดีกว่าโมเดลปิด สำหรับผู้ใช้แล้วถือเป็น กำไรล้วน ๆ
- พอถึงราว ๆ 100k โทเค็น ก็ควรเปิดเซสชันใหม่หรือใช้คำสั่ง /compact
- ยังติดนิสัยมาจากสมัย Claude และ Codex เลยยังคอยจัดระเบียบคอนเท็กซ์บ่อย ๆ ต่อให้เป็นโมเดลใหม่แค่ไหน ฉันก็ยังไม่ไว้ใจคอนเท็กซ์ขนาดมหึมาอยู่ดี
GLM-5.0 เป็นตัวเก่งจริงในบรรดาโมเดลโอเพนซอร์ส ใน benchmark ภายในก็ติดอันดับต้น ๆ ตลอด และอยู่ในระดับใกล้เคียง GPT-5.2 ตอนนี้ฉันใช้มันกับ งานที่ไม่มีโครงสร้างตายตัว มากกว่างานเขียนโค้ด
- ยังไม่ได้ลอง 5.1 แต่สำหรับการเขียนโค้ด PHP มันให้ผลลัพธ์คล้าย Sonnet/Opus/GPT-5 ถึง 99% แถมยังรันบนเครื่องตัวเองได้ด้วย
- ฉันกำลังสร้าง ชุดข้อมูลสำหรับการแปลง Python ↔ Cython และมันมีอัตราการยอมรับสูงเป็นอันดับสองรองจาก Gemini Pro 3.1 ที่ 16% ส่วนโมเดลระดับกลาง ๆ อยู่แค่ราว 6~7% เท่านั้น เทียบกันไม่ติด
- use case ของฉันไม่ได้เน้นเขียนโค้ด แต่เป็นด้าน การทำความเข้าใจ codebase และการวิเคราะห์เอกสาร ซึ่งโมเดลนี้ทำได้ดีกว่าโมเดลอเมริกันในราคาครึ่งเดียว
ในการทดสอบของฉัน GLM 5.1 ทำผลงานได้แย่กว่า GLM 5
ลิงก์เปรียบเทียบ
ดูเหมือนว่าโมเดลตอนนี้จะถูกจูนไปทาง เอเจนต์/เน้นการเขียนโค้ด
- โดยเฉพาะเวอร์ชัน (none) ที่ประสิทธิภาพลดลงชัดเจน
น่าสนใจที่มีแนวทางประเมินคุณภาพของโมเดลจาก ความเร็วในการรันโค้ดที่เอเจนต์สร้างขึ้น ฉันทดสอบด้วยวิธีอย่าง สร้าง benchmark, ตั้ง baseline แล้วปรับปรุงให้ได้มากกว่า 1.4 เท่า โดย Opus 4.6 สามารถหา low-level optimization ในโค้ด Rust ได้จนทำให้เร็วขึ้น 6 เท่าเมื่อเทียบกับเดิม และยังผ่านเทสต์ทั้งหมด วิธีนี้ทำให้เปรียบเทียบสมรรถนะจริงได้อย่างใช้งานได้จริงมากขึ้น
อ่านคอมเมนต์แล้วเหมือนทุกคนพูดราวกับว่าใช้โมเดลนี้กันมานาน เลยสงสัยว่าจริงไหม
- บทความในบล็อกเพิ่งโพสต์ใหม่ แต่ตัวโมเดล เปิดให้ใช้มาตั้งแต่ 2 สัปดาห์ก่อน แล้ว
- เว็บไซต์จองคอร์ทเทนนิสในพื้นที่ของฉันเสีย เลยให้ GLM-5.1 ช่วยวิเคราะห์ API ปรากฏว่าภายใน 5 นาทีมันหาเอนด์พอยต์ /cancel.php เจอและดึง reservation ID ออกมาด้วย blind SQL injection มันกระตือรือร้นเกินไปหน่อย แต่ก็น่าทึ่งมาก
- เปิดให้ใช้มานานพอสมควรแล้ว
ตอนนี้ฉันใช้ GLM 4.7 Flash บนเครื่องตัวเองเป็นหลักสำหรับงาน agent coding และมันยอดเยี่ยมมาก รอบนี้ก็หวังว่าจะมี รุ่น Flash ออกมาด้วย แต่เสียดายที่ใน release note ไม่ได้พูดถึง ถึงอย่างนั้นก็เชื่อว่าเดี๋ยวก็คงมา

GLM-5.1: วิวัฒนาการสู่การทำงานกับโจทย์ระยะยาว

ภาพรวมของ GLM-5.1

งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน

สถานการณ์ที่ 1: เพิ่มประสิทธิภาพเวกเตอร์ดาต้าเบสด้วยการทำซ้ำ 600 ครั้ง

สถานการณ์ที่ 2: เพิ่มประสิทธิภาพเวิร์กโหลดแมชชีนเลิร์นนิงด้วยการทำซ้ำมากกว่า 1,000 ครั้ง

สถานการณ์ที่ 3: สร้างเว็บแอปเดสก์ท็อป Linux ตลอด 8 ชั่วโมง

ความหมายและโจทย์ของการเพิ่มประสิทธิภาพระยะยาว

สรุปการเปรียบเทียบเบนช์มาร์ก

การเปิดเผยและวิธีใช้งาน

การตั้งค่าการประเมินและหมายเหตุ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News