8 คะแนน โดย GN⁺ 22 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GLM-5.1 โมเดล agentic engineering รุ่นถัดไป เป็นเวอร์ชันเรือธงที่ยกระดับความสามารถด้านการเขียนโค้ดและการแก้ปัญหาอย่างมาก โดยออกแบบโดยมี การเพิ่มประสิทธิภาพระยะยาวและการปรับปรุงอย่างต่อเนื่อง เป็นแกนหลัก
  • ทำผลงานระดับแนวหน้าในเบนช์มาร์กสำคัญอย่าง SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0 และยังคง ความต่อเนื่องเชิงผลิตภาพ ได้แม้รันซ้ำเป็นเวลานาน
  • ใน VectorDBBench, KernelBench, และ สถานการณ์การสร้างเว็บแอป โมเดลยังคงพัฒนาประสิทธิภาพต่อไปผ่านการทำซ้ำตั้งแต่หลายร้อยถึงหลายพันครั้ง โดยวิเคราะห์ล็อกของตนเองและปรับกลยุทธ์เพื่อลดคอขวด
  • โมเดลทำงานได้อย่างมีประสิทธิภาพแม้กับงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน ผ่าน การประเมินตนเองและการเปลี่ยนโครงสร้างการทำงาน และคุณภาพของผลลัพธ์ยังดีขึ้นอย่างสม่ำเสมอเมื่อรันระยะยาว
  • เปิดซอร์สภายใต้ สัญญาอนุญาต MIT ใช้งานได้บนหลายแพลตฟอร์มและเฟรมเวิร์ก และถูกนำเสนอในฐานะ มาตรฐานใหม่ของโมเดล AI ที่เน้นการเพิ่มประสิทธิภาพระยะยาว

ภาพรวมของ GLM-5.1

  • GLM-5.1 เป็นโมเดล agentic engineering รุ่นถัดไป และเป็น โมเดลเรือธงที่ประสิทธิภาพการเขียนโค้ดดีขึ้นอย่างมาก เมื่อเทียบกับเวอร์ชันก่อนหน้า
  • ทำสถิติสูงสุดใน SWE-Bench Pro และทิ้งห่าง GLM-5 อย่างชัดเจนใน NL2Repo (การสร้างรีโพซิทอรี) และ Terminal-Bench 2.0 (งานเทอร์มินัลจริง)
  • ไม่ได้เน้นเพียงประสิทธิภาพของการรันครั้งเดียว แต่ถูกออกแบบโดยให้ความสำคัญกับ ความสามารถในการเพิ่มประสิทธิภาพระยะยาว และ ความสามารถในการแก้ปัญหาอย่างต่อเนื่อง
  • ตัดสินปัญหาที่คลุมเครือได้ดีขึ้น รักษาผลิตภาพได้แม้ในเซสชันยาว ๆ และยังคง ปรับปรุงประสิทธิภาพได้ต่อเนื่องแม้ทำซ้ำหลายร้อยครั้ง ผ่านการทดลองซ้ำและการปรับกลยุทธ์
  • มีโครงสร้างที่ยิ่งรันนานผลลัพธ์ยิ่งดีขึ้น โดยมี ความสามารถในการทำงานระยะยาว (long-horizon capability) เป็นจุดเด่นหลัก

งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน

  • GLM-5.1 บรรลุประสิทธิภาพระดับแนวหน้าใน งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน
  • โมเดลก่อนหน้าแม้จะดีขึ้นในช่วงแรก แต่จะตันอย่างรวดเร็ว ขณะที่ GLM-5.1 ยัง คงประสิทธิภาพได้แม้ในงาน agentic ระยะยาว
  • โมเดลจะแยกปัญหาออกเป็นส่วนย่อย ทำการทดลอง วิเคราะห์ผลเพื่อระบุคอขวด และปรับกลยุทธ์ผ่านการให้เหตุผลแบบวนซ้ำ
  • สิ่งนี้ถูกพิสูจน์ผ่าน 3 งานที่ค่อย ๆ มีโครงสร้างน้อยลง
    • ปัญหาการเพิ่มประสิทธิภาพการค้นหาเวกเตอร์ (อิงตัวชี้วัดเชิงตัวเลขตัวเดียว)
    • GPU kernel benchmark (วัดการเร่งความเร็วแยกตามโจทย์)
    • การสร้างเว็บแอปพลิเคชัน (ปรับปรุงจากการตัดสินของโมเดลเองโดยไม่มีตัวชี้วัดชัดเจน)

สถานการณ์ที่ 1: เพิ่มประสิทธิภาพเวกเตอร์ดาต้าเบสด้วยการทำซ้ำ 600 ครั้ง

  • VectorDBBench เป็นชาเลนจ์โอเพนซอร์สที่ประเมินความสามารถในการเขียนโค้ดของโมเดลในการสร้างฐานข้อมูลประสิทธิภาพสูงสำหรับการค้นหา approximate nearest neighbor
  • โมเดลได้รับ skeleton code บนพื้นฐาน Rust และ HTTP API endpoint พร้อมสิทธิ์ทำการอ่าน/เขียนไฟล์ คอมไพล์ ทดสอบ และโปรไฟล์ ภายใน 50 tool-call
  • สถิติเดิมที่ดีที่สุดคือ 3,547 QPS ของ Claude Opus 4.6 (Recall ≥ 95%)
  • GLM-5.1 เพิ่มลูปการเพิ่มประสิทธิภาพภายนอก ทำการ ซ้ำมากกว่า 600 รอบ (มากกว่า 6,000 tool-call) และทำได้ถึง 21.5k QPS ในที่สุด
    • คิดเป็นการเพิ่มขึ้นประมาณ 6 เท่า เมื่อเทียบกับเซสชันเดี่ยว 50 ครั้ง
  • กระบวนการเพิ่มประสิทธิภาพมีลักษณะเป็น แพตเทิร์นแบบขั้นบันได (staircase) โดยการจูนแบบค่อยเป็นค่อยไปสลับกับการเปลี่ยนโครงสร้าง
    • ราวครั้งที่ 90: เพิ่ม IVF cluster probing + การบีบอัดเวกเตอร์แบบ f16 → 6.4k QPS
    • ราวครั้งที่ 240: เพิ่ม pipeline สองขั้น u8 pre-scoring + f16 re-ranking → 13.4k QPS
  • เกิดการเปลี่ยนโครงสร้างทั้งหมด 6 ครั้ง ซึ่งแต่ละครั้งเป็นผลจากการที่โมเดลวิเคราะห์ล็อกของตนเองเพื่อระบุคอขวด
  • จุดที่ Recall ต่ำกว่า 95% มักกระจุกอยู่ในช่วงที่กำลังสำรวจกลยุทธ์ใหม่

สถานการณ์ที่ 2: เพิ่มประสิทธิภาพเวิร์กโหลดแมชชีนเลิร์นนิงด้วยการทำซ้ำมากกว่า 1,000 ครั้ง

  • KernelBench ใช้ประเมินความสามารถของโมเดลในการแปลง implementation อ้างอิงของ PyTorch ให้เป็น GPU kernel ที่เร็วขึ้นแต่ให้ผลลัพธ์เหมือนเดิม
  • แบ่งเป็น 3 ระดับ (Level 1~3) โดย Level 3 รวมถึงการเพิ่มประสิทธิภาพทั้งโมเดล เช่น MobileNet, VGG, MiniGPT, Mamba
  • การตั้งค่าพื้นฐานของ torch.compile ทำได้ 1.15× และ max-autotune ทำได้ 1.49×
  • GLM-5.1 ทำได้ เร่งความเร็ว 3.6× ใน Level 3 และยังคงทำ optimization ที่มีผลได้ยาวนานกว่า GLM-5 อย่างมาก
  • GLM-5 พุ่งขึ้นแรงในช่วงแรกก่อนจะนิ่ง ส่วน Claude Opus 4.5 อยู่ได้นานกว่าแต่เริ่มชะลอในช่วงท้าย
  • Claude Opus 4.6 ทำได้สูงสุดที่ 4.2× ในตอนท้าย และยังมีช่องให้ปรับปรุงเพิ่มเติม

สถานการณ์ที่ 3: สร้างเว็บแอปเดสก์ท็อป Linux ตลอด 8 ชั่วโมง

  • การสร้างเว็บไซต์เป็น งานเชิงอัตวิสัย ที่ไม่มีตัวชี้วัดเชิงตัวเลขชัดเจน โดยประเมินจากความสมบูรณ์ คุณภาพด้านภาพ และคุณภาพของปฏิสัมพันธ์
  • พรอมป์ททดสอบ: “สร้างสภาพแวดล้อมเดสก์ท็อปสไตล์ Linux เป็นเว็บแอปพลิเคชัน
    • เริ่มต้นโดยไม่มีโค้ดตั้งต้น ดีไซน์ หรือฟีดแบ็กระหว่างทาง
  • โมเดลส่วนใหญ่มักสร้าง UI พื้นฐานแล้วจบ แต่ GLM-5.1 พัฒนาต่อเนื่องผ่าน ลูปตรวจทานและปรับปรุงผลลัพธ์ด้วยตนเอง
  • รันซ้ำต่อเนื่องเป็นเวลา 8 ชั่วโมง จากเลย์เอาต์เรียบง่ายในช่วงแรก ค่อย ๆ ขยายเป็นสภาพแวดล้อมเดสก์ท็อปเต็มรูปแบบ
    • เพิ่ม file browser, terminal, text editor, system monitor, calculator, game เป็นต้น
    • แต่ละฟังก์ชันถูก ผสานเข้ากับ UI ที่สอดคล้องกัน และสไตล์รวมถึงคุณภาพการโต้ตอบก็ดีขึ้นทีละน้อย
  • ผลลัพธ์สุดท้ายคือ สภาพแวดล้อมเดสก์ท็อปที่สมบูรณ์และมีความสอดคล้องด้านภาพ ซึ่งทำงานได้ภายในเบราว์เซอร์

ความหมายและโจทย์ของการเพิ่มประสิทธิภาพระยะยาว

  • ในทั้ง 3 สถานการณ์ ตัวแปรสำคัญไม่ใช่ เวลาในการรันเพียงอย่างเดียว แต่คือเวลาที่เพิ่มขึ้นนั้นยังให้ผลจริงหรือไม่
  • GLM-5.1 ขยาย productive horizon ได้อย่างมากเมื่อเทียบกับ GLM-5
  • อย่างไรก็ตาม ในบางโจทย์อย่าง KernelBench ก็ยังมีพื้นที่ให้ปรับปรุง
  • โจทย์ที่ยังเหลือ
    • หลุดออกจาก local optimum เมื่อการจูนแบบค่อยเป็นค่อยไปถึงขีดจำกัด
    • รักษาความสม่ำเสมอ ตลอดหลายพัน tool-call
    • การประเมินตนเองที่เชื่อถือได้ (self-evaluation) ในโจทย์ที่ไม่มีตัวชี้วัดเชิงตัวเลขชัดเจน
  • GLM-5.1 ถูกนำเสนอในฐานะ ก้าวแรก สู่ทิศทางของการเพิ่มประสิทธิภาพระยะยาวเช่นนี้

สรุปการเปรียบเทียบเบนช์มาร์ก

  • GLM-5.1 เหนือกว่า GLM-5 ในเบนช์มาร์กด้านโค้ดหลักหลายรายการ เช่น SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5
  • อยู่ในกลุ่มบนเมื่อเทียบกับโมเดลคู่แข่งทั้งด้าน Reasoning, Coding, Agentic
  • เมื่อเทียบกับโมเดลล่าสุดอย่าง Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 ก็ยังทำได้ใกล้เคียงหรือเหนือกว่าในหลายรายการ

การเปิดเผยและวิธีใช้งาน

  • เปิดซอร์สภายใต้ สัญญาอนุญาต MIT
  • ใช้งานได้บน api.z.ai, BigModel.cn และเข้ากันได้กับ Claude Code และ OpenClaw
  • ผู้สมัครสมาชิก GLM Coding Plan สามารถใช้งานได้ทันทีโดยเปลี่ยนชื่อโมเดลเป็น "GLM-5.1"
    • ช่วงพีก (UTC+8 14:00–18:00) ใช้โควตา 3× และช่วงนอกพีกใช้ 2×
    • ช่วงนอกพีกมีโปรโมชันคิด 1× จนถึงสิ้นเดือนเมษายน
  • มี Z Code ให้ใช้งานในสภาพแวดล้อม GUI พร้อมรองรับการพัฒนาระยะไกลผ่าน SSH และการทำงานบนมือถือ
  • น้ำหนักโมเดลเปิดเผยบน HuggingFace และ ModelScope
  • รองรับเฟรมเวิร์ก inference หลักอย่าง vLLM, SGLang และมีคู่มือการดีพลอยบน GitHub
  • เร็ว ๆ นี้จะสามารถใช้งานได้บน แพลตฟอร์มแชต Z.ai เช่นกัน

การตั้งค่าการประเมินและหมายเหตุ

  • HLE และงาน reasoning อื่น ๆ: สร้างได้สูงสุด 163,840 โทเคน และใช้ GPT-5.2 เป็นโมเดลตัดสิน
  • SWE-Bench Pro: context window 200K และรันบนพื้นฐาน OpenHands
  • NL2Repo: รวมการตรวจจับและบล็อกคำสั่งอันตราย
  • Terminal-Bench 2.0: จำกัดที่ 16 CPU, RAM 32GB และ timeout 3 ชั่วโมง
  • KernelBench Level 3: ใช้สภาพแวดล้อม GPU H100 จำกัด 1,200 tool-call และมีการตรวจสอบอิสระ
  • มีการประเมินอิสระในเบนช์มาร์กภายนอกหลายรายการ เช่น CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2

1 ความคิดเห็น

 
GN⁺ 22 일 전
ความเห็นจาก Hacker News
  • ทุกวันมีอยู่สามอย่างที่ยิ่งชัดเจนขึ้นเรื่อย ๆ
    (1) OpenAI และ Anthropic ตอนนี้แทบไม่มีความสามารถในการแข่งขันแล้ว
    (2) มั่นใจว่า การอนุมานแบบโลคัล/ส่วนตัว คืออนาคตของ AI
    (3) ยังไม่มี ‘ผลิตภัณฑ์ระดับพลิกเกม’ ปรากฏขึ้น ดังนั้นถึงเวลาที่ต้องสร้างของจริงแล้ว

    • ไม่เห็นด้วยกับคำพูดที่ว่า ‘ยังไม่มีผลิตภัณฑ์ระดับพลิกเกม’ ผู้ช่วยเขียนโค้ดและ LLM คือความสำเร็จทางเทคโนโลยีที่น่าอัศจรรย์ที่สุดในชีวิตของฉัน เช่นเดียวกับที่มีโลกก่อนและหลังการปฏิวัติอุตสาหกรรม ฉันคิดว่าอีกไม่นานประวัติศาสตร์มนุษยชาติก็จะแบ่งเป็น ก่อน AI และหลัง AI
    • ผู้ช่วยเขียนโค้ดด้วย AI เป็นหนึ่งในเทคโนโลยีที่มีประโยชน์ที่สุดเท่าที่เคยถูกสร้างมา คุณภาพ ของโมเดลสำคัญที่สุด ดังนั้นตราบใดที่ฮาร์ดแวร์ยังไม่เปลี่ยนแปลงในระดับพื้นฐาน ก็มองว่า local inference คงยากที่จะกลายเป็นกระแสหลัก
    • สงสัยว่าการที่คนทั่วไปยอมจ่าย 50,000 ดอลลาร์กับ GPU เพื่อรันเองนั้น นอกจากจะเป็นโปรเจกต์งานอดิเรกเท่ ๆ แล้ว มีข้อดีที่เป็นรูปธรรมอะไรอีกบ้าง
  • เพิ่งเห็นโพสต์เกี่ยวกับ Claude Mythos ไป แล้วรอบนี้มันไม่ใช่แค่การปรับปรุงธรรมดา แต่รู้สึกเหมือนเป็น การก้าวกระโดด จริง ๆ ยังไม่รู้ว่าจะเปิดตัวเมื่อไร แต่ก็กำลังรอ GLM รุ่นถัดไป ที่สเปกดูทรงพลังแบบบ้าคลั่งเช่นกัน

  • มีการปล่อยเวอร์ชัน Unsloth quantization ออกมาด้วย โมเดล GLM-5.1-GGUF รุ่น IQ4_XS มีขนาด 754B พารามิเตอร์และ 361GB ซึ่งเกินกำลังสำหรับแฟน local LLM ทั่วไปที่จะรันได้

    • ถ้ามีซอฟต์แวร์ซัพพอร์ตดี ๆ ก็สามารถทำ SSD offloading ได้ แน่นอนว่าตอนนั้นคงไม่ใช่ระดับ ‘รัน’ แต่เป็นระดับ ‘คลาน’ มากกว่า แต่ยังไงก็ยังได้คำตอบจากการรันบนเครื่องตัวเอง ช่วงหลังเริ่มมีความพยายามออกแบบโครงสร้าง n-gram, internal embedding parameter โดยคำนึงถึง SSD offloading ตั้งแต่ต้นด้วย
  • โมเดลนี้ไม่เพียงวาด ภาพนกกระทุง ที่ยอดเยี่ยมให้ฉันเท่านั้น แต่ยังทำมันเป็น แอนิเมชัน ได้ด้วย
    ลิงก์ที่เกี่ยวข้อง

    • มันดูสมจริงกว่ามาก นกกระทุงบินอยู่บนฟ้าย่อมเป็นธรรมชาติกว่าการปั่นจักรยาน
    • Simon ถึงเวลาต้องสร้าง benchmark ที่ดีกว่านี้แล้ว
  • พูดตรง ๆ ว่าผิดหวังนิดหน่อย GLM 5.1 สร้าง TypeScript ได้ดีกว่า Opus หรือ Codex มาก แต่พอคอนเท็กซ์ยาว ๆ บางครั้งมันจะหลุดเข้า โหมดแปลก ๆ ถึงอย่างนั้นก็ยังมีเซสชันที่ทำงานได้เสถียรเกิน 200k โทเค็น

    • ถ้ามันทำงานได้ดีและความเร็วโอเคก็น่าประทับใจมาก เมื่อวานมันแก้ปัญหาที่ Kimi K2.5 แก้ไม่ได้ แต่บางครั้งก็ยังช้าอยู่ ให้ความรู้สึกว่าใกล้ ระดับ Opus 4.5
    • ฉันตั้ง context window ไว้ที่ 100k แล้วคอย compact เป็นระยะ หรือไม่ก็บันทึกสถานะเป็นเอกสารแล้วเริ่มเซสชันใหม่ ช่วงนี้ Opus 4.6 ไม่นิ่ง ก็เลยใช้ GLM 5.1 เป็นหลัก รู้สึกทึ่งที่คุณภาพของโมเดลโอเพนดีขึ้นขนาดนี้
    • ที่โมเดลโอเพนซอร์สทำได้ดีกว่าโมเดลปิด สำหรับผู้ใช้แล้วถือเป็น กำไรล้วน ๆ
    • พอถึงราว ๆ 100k โทเค็น ก็ควรเปิดเซสชันใหม่หรือใช้คำสั่ง /compact
    • ยังติดนิสัยมาจากสมัย Claude และ Codex เลยยังคอยจัดระเบียบคอนเท็กซ์บ่อย ๆ ต่อให้เป็นโมเดลใหม่แค่ไหน ฉันก็ยังไม่ไว้ใจคอนเท็กซ์ขนาดมหึมาอยู่ดี
  • GLM-5.0 เป็นตัวเก่งจริงในบรรดาโมเดลโอเพนซอร์ส ใน benchmark ภายในก็ติดอันดับต้น ๆ ตลอด และอยู่ในระดับใกล้เคียง GPT-5.2 ตอนนี้ฉันใช้มันกับ งานที่ไม่มีโครงสร้างตายตัว มากกว่างานเขียนโค้ด

    • ยังไม่ได้ลอง 5.1 แต่สำหรับการเขียนโค้ด PHP มันให้ผลลัพธ์คล้าย Sonnet/Opus/GPT-5 ถึง 99% แถมยังรันบนเครื่องตัวเองได้ด้วย
    • ฉันกำลังสร้าง ชุดข้อมูลสำหรับการแปลง Python ↔ Cython และมันมีอัตราการยอมรับสูงเป็นอันดับสองรองจาก Gemini Pro 3.1 ที่ 16% ส่วนโมเดลระดับกลาง ๆ อยู่แค่ราว 6~7% เท่านั้น เทียบกันไม่ติด
    • use case ของฉันไม่ได้เน้นเขียนโค้ด แต่เป็นด้าน การทำความเข้าใจ codebase และการวิเคราะห์เอกสาร ซึ่งโมเดลนี้ทำได้ดีกว่าโมเดลอเมริกันในราคาครึ่งเดียว
  • ในการทดสอบของฉัน GLM 5.1 ทำผลงานได้แย่กว่า GLM 5
    ลิงก์เปรียบเทียบ
    ดูเหมือนว่าโมเดลตอนนี้จะถูกจูนไปทาง เอเจนต์/เน้นการเขียนโค้ด

    • โดยเฉพาะเวอร์ชัน (none) ที่ประสิทธิภาพลดลงชัดเจน
  • น่าสนใจที่มีแนวทางประเมินคุณภาพของโมเดลจาก ความเร็วในการรันโค้ดที่เอเจนต์สร้างขึ้น ฉันทดสอบด้วยวิธีอย่าง สร้าง benchmark, ตั้ง baseline แล้วปรับปรุงให้ได้มากกว่า 1.4 เท่า โดย Opus 4.6 สามารถหา low-level optimization ในโค้ด Rust ได้จนทำให้เร็วขึ้น 6 เท่าเมื่อเทียบกับเดิม และยังผ่านเทสต์ทั้งหมด วิธีนี้ทำให้เปรียบเทียบสมรรถนะจริงได้อย่างใช้งานได้จริงมากขึ้น

  • อ่านคอมเมนต์แล้วเหมือนทุกคนพูดราวกับว่าใช้โมเดลนี้กันมานาน เลยสงสัยว่าจริงไหม

    • บทความในบล็อกเพิ่งโพสต์ใหม่ แต่ตัวโมเดล เปิดให้ใช้มาตั้งแต่ 2 สัปดาห์ก่อน แล้ว
    • เว็บไซต์จองคอร์ทเทนนิสในพื้นที่ของฉันเสีย เลยให้ GLM-5.1 ช่วยวิเคราะห์ API ปรากฏว่าภายใน 5 นาทีมันหาเอนด์พอยต์ /cancel.php เจอและดึง reservation ID ออกมาด้วย blind SQL injection มันกระตือรือร้นเกินไปหน่อย แต่ก็น่าทึ่งมาก
    • เปิดให้ใช้มานานพอสมควรแล้ว
  • ตอนนี้ฉันใช้ GLM 4.7 Flash บนเครื่องตัวเองเป็นหลักสำหรับงาน agent coding และมันยอดเยี่ยมมาก รอบนี้ก็หวังว่าจะมี รุ่น Flash ออกมาด้วย แต่เสียดายที่ใน release note ไม่ได้พูดถึง ถึงอย่างนั้นก็เชื่อว่าเดี๋ยวก็คงมา