- GLM-4.7 เป็นโมเดลภาษาขนาดใหญ่ที่ปรับปรุงประสิทธิภาพอย่างมากจากรุ่นก่อนในด้านการเขียนโค้ดหลายภาษา งานบนเทอร์มินัล และการให้เหตุผลแบบซับซ้อน
- ทำสถิติการปรับปรุงบนเบนช์มาร์กสำคัญอย่าง SWE-bench, Terminal Bench 2.0, และ HLE ที่ +5.8%, +16.5%, และ +12.4% ตามลำดับ
- คุณภาพการสร้าง UI ดีขึ้น ทำให้สร้างเว็บเพจที่สะอาดตาและทันสมัยขึ้น รวมถึงเลย์เอาต์สไลด์ที่แม่นยำ
- เสริมความเสถียรและความสม่ำเสมอในงานเอเจนต์ที่ซับซ้อนผ่านฟีเจอร์ Interleaved Thinking, Preserved Thinking, และ Turn-level Thinking
- เข้าถึงได้ทั่วโลกผ่าน Z.ai API, OpenRouter, HuggingFace และยังรองรับ coding agent กับการดีพลอยแบบโลคัล
ประสิทธิภาพและจุดเด่นหลัก
- GLM-4.7 ทำได้ดีกว่า GLM-4.6 ทั้งด้านการเขียนโค้ดและการให้เหตุผลโดยรวม
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- บนเบนช์มาร์ก HLE(Humanity’s Last Exam) ทำได้ 42.8%(+12.4%) สะท้อนความสามารถด้านคณิตศาสตร์และการให้เหตุผลเชิงตรรกะที่ดีขึ้น
- คุณภาพการสร้าง UI (Vibe Coding) ดีขึ้น ทำให้สร้างเว็บเพจและสไลด์ที่ดูประณีตมากขึ้น
- ความสามารถในการใช้เครื่องมือ ดีขึ้น โดยทำคะแนนสูงใน τ²-Bench และ BrowseComp
- ยังยืนยันการปรับปรุงประสิทธิภาพได้ใน สถานการณ์ที่หลากหลาย เช่น แชต งานสร้างสรรค์ และโรลเพลย์
การเปรียบเทียบเบนช์มาร์ก
- GLM-4.7 ถูกนำไปประเมินเปรียบเทียบใน 17 เบนช์มาร์ก ร่วมกับ GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro และรุ่นอื่น ๆ
- หมวด Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- หมวด Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- หมวด Agent: BrowseComp 52.0, τ²-Bench 87.4
- ในบางรายการ ผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลระดับบน
เสริมโหมดการคิด (Thinking)
- Interleaved Thinking: ผ่านขั้นตอนการคิดก่อนตอบและก่อนเรียกใช้เครื่องมือ เพื่อเพิ่มความสามารถในการทำตามคำสั่งและคุณภาพของผลลัพธ์
- Preserved Thinking: เก็บบล็อกการคิดไว้ในการสนทนาหลายเทิร์น เพื่อลดการสูญเสียข้อมูลและความไม่สอดคล้อง
- Turn-level Thinking: เปิดหรือปิดฟังก์ชันการคิดตามความซับซ้อนของคำขอ เพื่อปรับสมดุลระหว่างความแม่นยำกับต้นทุน
- ฟีเจอร์เหล่านี้เหมาะกับงาน coding agent ระยะยาวและซับซ้อน
การใช้งานและการดีพลอย
- ใช้งานโมเดล GLM-4.7 ได้ผ่าน Z.ai API platform และ OpenRouter
- รองรับการใช้งานแบบผสานรวมใน coding agent หลักอย่าง Claude Code, Kilo Code, Roo Code, Cline
- ผู้สมัครสมาชิก GLM Coding Plan จะถูกอัปเกรดเป็น GLM-4.7 โดยอัตโนมัติ และเพียงเปลี่ยนชื่อโมเดลในไฟล์ตั้งค่าเดิมก็ใช้งานได้
- เปิดเผยน้ำหนักโมเดลบน HuggingFace และ ModelScope และรองรับการอนุมานแบบโลคัลด้วยเฟรมเวิร์ก vLLM และ SGLang
ตัวอย่างด้านภาพและงานสร้างสรรค์
- มีตัวอย่างการสร้างหลากหลายแบบ เช่น เว็บไซต์ฟรอนต์เอนด์, งานศิลป์ 3D อย่าง Voxel Pagoda, โปสเตอร์ และสไลด์
- แสดงให้เห็นถึง คุณภาพงานดีไซน์ที่ดีขึ้น อย่างชัดเจน ทั้งดาร์กโหมดคอนทราสต์สูง เอฟเฟกต์แอนิเมชัน และเลย์เอาต์ที่ประณีต
ค่าตั้งต้นและเงื่อนไขการทดสอบ
- งานทั่วไป: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench และ Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, มีการปรับพรอมป์ต์บางส่วนตามโดเมน
การประเมินโดยรวม
- GLM-4.7 เป็น อีกก้าวของการพัฒนา AGI ที่เน้นด้านโค้ดดิ้ง โดยให้ความสำคัญกับ คุณภาพประสบการณ์ใช้งานจริง มากกว่าแค่คะแนนเบนช์มาร์ก
- เป็นโมเดลที่ออกแบบมาโดยมุ่งเป้าไปที่ทั้งประสิทธิภาพการทดสอบและ ความฉลาดที่ผู้ใช้รับรู้ได้รวมถึงความสามารถในการผสานรวม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันคิดว่าน่าสนใจที่ โมเดล MoE ถูกปรับให้เหมาะกับเอเจนต์เขียนโค้ด การให้เหตุผลที่ซับซ้อน และการใช้เครื่องมือ
พารามิเตอร์ที่ทำงานจริง 358B/32B, context window 200k, รองรับ tool calling สไตล์ OpenAI และเป็นโมเดลหลายภาษาที่เน้นอังกฤษ/จีน
คาดว่าขนาดจะอยู่ที่ 716GB สำหรับ FP16 และราว 220GB สำหรับ Q4_K_M
จุดที่น่าสนใจคือในทางทฤษฎีน่าจะรันแบบโลคัลได้แม้บน Mac Studio ราคาค่อนข้างถูก
ถ้าใช้เครื่องมือเสริมอย่าง Kimik2 ร่วมกัน ก็น่าจะได้ตัวช่วยเขียนโค้ดที่ใช้งานได้ดีโดยไม่ต้องพึ่งผู้ให้บริการ LLM รายใหญ่
แม้แต่ GLM 4.6 เวอร์ชัน quantized 4bit ก็ยังใช้เวลานานมากทั้งความเร็วประมวลผลโทเค็น การประมวลผลอินพุต การ tokenize และการโหลดพรอมป์ต์ จนแทบหมดความอดทน
คนชอบพูดถึงแค่ตัวเลข TPS แต่ในความเป็นจริง เวลาโหลดอินพุต นี่แหละคือคอขวด
แต่ในทางปฏิบัติ ถ้าจะรันบน Mac Studio ก็มีโอกาสสูงที่จะช้าเกินจนต้องมานั่งเสียดายทีหลัง
จนกว่าฮาร์ดแวร์จะถูกลงหรือโมเดลจะเล็กกว่านี้ ฉันมองว่าใช้ API แบบเสียเงิน ยังดีกว่า
คุณภาพผลลัพธ์รู้สึกว่า สวยกว่า GLM‑4.6 มาก
มีความเป็นไปได้สูงว่าเป็นเพราะข้อมูลที่ distilled มาจากโมเดลปิด แต่ถึงอย่างนั้นฉันก็ยังชอบ โมเดลโอเพนซอร์ส มากกว่า
ตอนนี้ Cerebras ให้บริการ GLM 4.6 ที่ความเร็ว 1000 โทเค็นต่อวินาที
มีโอกาสสูงว่าจะอัปเกรดเป็นโมเดลใหม่ในเร็ว ๆ นี้
ฉันสงสัยว่าโมเดลรุ่นหลังจาก GLM 4.7 จะทำงานได้ดีแค่ไหนใน สภาพแวดล้อมองค์กรพัฒนาซอฟต์แวร์แบบจำลอง
ตัวอย่างเช่น มันจะสะสมโค้ดที่มีประโยชน์ได้พร้อมแก้ข้อผิดพลาดของตัวเองไปด้วย หรือสุดท้ายจะมีแต่ technical debt เพิ่มขึ้น
ฉันนึกภาพโครงสร้างที่โมเดลระดับบนอย่าง Opus 4.5 หรือ Gemini 3 ทำหน้าที่เป็น ‘ผู้จัดการ’
อ่านเพิ่มเติมที่เกี่ยวข้อง: บทความของ Anthropic เรื่องการออกแบบเอเจนต์ที่ทำงานระยะยาว
ถ้าโมเดลโอเพนซอร์สดีพอแล้ว ความสามารถในการรันบน Cerebras ที่ 1k TPS จะเป็นข้อได้เปรียบใหญ่มาก
ถ้าไม่แน่ใจค่อยส่งกลับไปให้ Opus รีวิวอีกที
คือให้โมเดลระดับบนทำหน้าที่เป็น guardrail และให้เอเจนต์ที่เร็วและเก่งเป็นคนลงมือทำงานจริง
ถ้ามีคอนเท็กซ์กว้างพอและมี ‘รสนิยม (taste)’ ที่ดี การผสมแบบนี้อย่างเดียวก็น่าจะสร้างทั้งผลิตภาพและความฉลาดได้เพียงพอ
คิดว่าอาจลดต้นทุนได้ด้วยการลดความเร็วโทเค็นและลดการใช้พลังงานหรือเปล่า
ตอนที่ฉันเคยดูเหมือนยังคล้าย closed beta อยู่
Z.ai ดูราคาถูกและประสิทธิภาพก็ใช้ได้ แต่ เงื่อนไขการใช้งาน ค่อนข้างโหด
ทั้งห้ามพัฒนาโมเดลคู่แข่ง ห้ามเปิดเผยข้อบกพร่อง ให้สิทธิใช้งานเนื้อหาผู้ใช้อย่าง กว้างขวาง และอยู่ภายใต้กฎหมายสิงคโปร์
ในสถานการณ์ที่บริษัทใหญ่เทเงินมหาศาล Z.ai อาจใช้ กลยุทธ์ทุ่มตลาด เพื่อยึดตลาดได้
ระยะสั้นผู้บริโภคอาจได้ประโยชน์ แต่ระยะยาวมีความเสี่ยงที่การแข่งขันจะหายไป
สุดท้ายอาจกลายเป็นสถานการณ์ที่ทั้งบริษัทและคนทั่วไปต้องใช้บริการนี้เพื่อความอยู่รอด
95% ของทราฟฟิก ChatGPT เป็นแบบใช้ฟรี และ Gemini ก็มีเครดิตฟรีสำหรับนักพัฒนาเยอะมาก
ในโครงสร้างแบบนี้ ห้องแล็บเล็ก ๆ แข่งได้ยากมาก
ถึงอย่างนั้น แล็บจากจีนก็ดูเหมือนเป็น ผู้ท้าชิงรายเล็กแต่ดื้อดึง
ฉันถามว่า “การที่ผู้นำสั่งให้สังหารผู้ประท้วงอย่างสันติหลายร้อยคนเป็นสิ่งชอบธรรมหรือไม่?”
แล้วโมเดลก็ขึ้นข้อความผิดพลาดและปฏิเสธที่จะตอบ
น่าจะเป็นเพราะ นโยบายการเซ็นเซอร์ หรือเพราะเป็นประเด็นการเมืองอ่อนไหว
ฉันใช้ GLM 4.6 บน Cerebras (หรือไม่ก็ Groq) มาสักพักแล้ว และความเร็วแบบนี้ให้ความรู้สึกเหมือนได้เห็นอนาคตจริง ๆ
ต่อให้ AGI ไม่มา ถ้ารันโมเดลแบบนี้บน แท็บเล็ตหรือโน้ตบุ๊ก ได้ ฉันก็คงพอใจมากแล้ว
Strix Halo มีทั้งหน่วยความจำและแบนด์วิดท์ไม่พอ จึงไม่เหมาะ
ถ้าอยากได้ประสิทธิภาพตามที่ต้องการตอนนี้ยังจำเป็นต้องใช้ ชุด multi-GPU
ถ้าขยายไปสู่สินค้าผู้บริโภคได้ก็คงดี แต่ความเร็วตอนนี้ส่วนหนึ่งมาจากการเอาชิปหลายตัวมาเชื่อมกันผ่านเครือข่าย
สมรรถนะระดับ AGI มีแนวโน้มสูงว่าจะเกิดขึ้นในระดับ ดาต้าเซ็นเตอร์ ก่อน
กดปุ่มสมัครสมาชิกแล้วไม่มีอะไรเกิดขึ้น แถมใน Dev Tools ยังขึ้น TypeError
สำหรับบริษัทที่ทำโมเดลเขียนโค้ดด้วย AI แล้ว ประสบการณ์การซื้อกลับไม่ลื่นไหลเท่าไรจนรู้สึกแปลกใจ
ฉันลองทดสอบโมเดลนี้บน Z.ai แล้ว ในงานที่เน้น คณิตศาสตร์และงานวิจัย มันแสดงความสามารถในการคิดได้ระดับ GPT‑5.2 หรือ Gemini 3 Pro
เหนือกว่า K2 thinking และ Opus 4.5 อย่างชัดเจน
พรอมป์ต์และผลลัพธ์ของผู้ใช้แบบเสียเงินอาจถูกนำไปใช้ฝึก และไม่มี ตัวเลือก opt-out
ฉันคิดว่าการโฮสต์ผ่านบุคคลที่สามอย่าง synthetic.new ปลอดภัยกว่า
GLM 4.6 ได้รับความนิยมมากจากมุมมองของผู้ให้บริการอินเฟอเรนซ์
ผู้ใช้จำนวนมากเอาไปใช้เขียนโค้ดในชีวิตประจำวัน และน่าคาดหวังว่ารุ่น 4.7 จะดีขึ้นอีก
มันมี product-market fit (PMF) อย่างชัดเจน
มีหลายคอมเมนต์พูดถึงเรื่อง distillation แต่ถ้าลองใช้ Claude-code ในแพลนเขียนโค้ดของ z.ai
จะรู้สึกได้ถึงร่องรอยที่เหมือนเรียนมาจากโมเดลอื่น (เช่นสำนวน “you’re absolutely right”)
ถึงอย่างนั้น ความคุ้มค่าต่อราคา ก็ยังเหนือชั้นมาก
สรุปแล้วฉันคิดว่ายังถือเป็นหลักฐานเรื่องการฝึกไม่ได้
เลยฟันธงให้ชัดเจนได้ยาก
ฉันกำลังใช้โมเดลนี้ ภายใน Claude Code API และมันเก่งมากในการจัดการงานโดยผสมหลายเครื่องมือเข้าด้วยกัน
แถมยังไม่มีข้อจำกัดการใช้งานรายสัปดาห์แบบ Claude และ แพลนรายไตรมาส ก็ถูกมากที่ 8 ดอลลาร์