GLM-4.7: ยกระดับความสามารถด้านโค้ดดิ้งไปอีกขั้น

(z.ai)

7 คะแนน โดย GN⁺ 2025-12-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GLM-4.7 เป็นโมเดลภาษาขนาดใหญ่ที่ปรับปรุงประสิทธิภาพอย่างมากจากรุ่นก่อนในด้านการเขียนโค้ดหลายภาษา งานบนเทอร์มินัล และการให้เหตุผลแบบซับซ้อน
ทำสถิติการปรับปรุงบนเบนช์มาร์กสำคัญอย่าง SWE-bench, Terminal Bench 2.0, และ HLE ที่ +5.8%, +16.5%, และ +12.4% ตามลำดับ
คุณภาพการสร้าง UI ดีขึ้น ทำให้สร้างเว็บเพจที่สะอาดตาและทันสมัยขึ้น รวมถึงเลย์เอาต์สไลด์ที่แม่นยำ
เสริมความเสถียรและความสม่ำเสมอในงานเอเจนต์ที่ซับซ้อนผ่านฟีเจอร์ Interleaved Thinking, Preserved Thinking, และ Turn-level Thinking
เข้าถึงได้ทั่วโลกผ่าน Z.ai API, OpenRouter, HuggingFace และยังรองรับ coding agent กับการดีพลอยแบบโลคัล

ประสิทธิภาพและจุดเด่นหลัก

GLM-4.7 ทำได้ดีกว่า GLM-4.6 ทั้งด้านการเขียนโค้ดและการให้เหตุผลโดยรวม
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- บนเบนช์มาร์ก HLE(Humanity’s Last Exam) ทำได้ 42.8%(+12.4%) สะท้อนความสามารถด้านคณิตศาสตร์และการให้เหตุผลเชิงตรรกะที่ดีขึ้น
คุณภาพการสร้าง UI (Vibe Coding) ดีขึ้น ทำให้สร้างเว็บเพจและสไลด์ที่ดูประณีตมากขึ้น
ความสามารถในการใช้เครื่องมือ ดีขึ้น โดยทำคะแนนสูงใน τ²-Bench และ BrowseComp
ยังยืนยันการปรับปรุงประสิทธิภาพได้ใน สถานการณ์ที่หลากหลาย เช่น แชต งานสร้างสรรค์ และโรลเพลย์

การเปรียบเทียบเบนช์มาร์ก

GLM-4.7 ถูกนำไปประเมินเปรียบเทียบใน 17 เบนช์มาร์ก ร่วมกับ GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro และรุ่นอื่น ๆ
- หมวด Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- หมวด Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- หมวด Agent: BrowseComp 52.0, τ²-Bench 87.4
ในบางรายการ ผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลระดับบน

เสริมโหมดการคิด (Thinking)

Interleaved Thinking: ผ่านขั้นตอนการคิดก่อนตอบและก่อนเรียกใช้เครื่องมือ เพื่อเพิ่มความสามารถในการทำตามคำสั่งและคุณภาพของผลลัพธ์
Preserved Thinking: เก็บบล็อกการคิดไว้ในการสนทนาหลายเทิร์น เพื่อลดการสูญเสียข้อมูลและความไม่สอดคล้อง
Turn-level Thinking: เปิดหรือปิดฟังก์ชันการคิดตามความซับซ้อนของคำขอ เพื่อปรับสมดุลระหว่างความแม่นยำกับต้นทุน
ฟีเจอร์เหล่านี้เหมาะกับงาน coding agent ระยะยาวและซับซ้อน

การใช้งานและการดีพลอย

ใช้งานโมเดล GLM-4.7 ได้ผ่าน Z.ai API platform และ OpenRouter
รองรับการใช้งานแบบผสานรวมใน coding agent หลักอย่าง Claude Code, Kilo Code, Roo Code, Cline
ผู้สมัครสมาชิก GLM Coding Plan จะถูกอัปเกรดเป็น GLM-4.7 โดยอัตโนมัติ และเพียงเปลี่ยนชื่อโมเดลในไฟล์ตั้งค่าเดิมก็ใช้งานได้
เปิดเผยน้ำหนักโมเดลบน HuggingFace และ ModelScope และรองรับการอนุมานแบบโลคัลด้วยเฟรมเวิร์ก vLLM และ SGLang

ตัวอย่างด้านภาพและงานสร้างสรรค์

มีตัวอย่างการสร้างหลากหลายแบบ เช่น เว็บไซต์ฟรอนต์เอนด์, งานศิลป์ 3D อย่าง Voxel Pagoda, โปสเตอร์ และสไลด์
แสดงให้เห็นถึง คุณภาพงานดีไซน์ที่ดีขึ้น อย่างชัดเจน ทั้งดาร์กโหมดคอนทราสต์สูง เอฟเฟกต์แอนิเมชัน และเลย์เอาต์ที่ประณีต

ค่าตั้งต้นและเงื่อนไขการทดสอบ

งานทั่วไป: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench และ Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, มีการปรับพรอมป์ต์บางส่วนตามโดเมน

การประเมินโดยรวม

GLM-4.7 เป็น อีกก้าวของการพัฒนา AGI ที่เน้นด้านโค้ดดิ้ง โดยให้ความสำคัญกับ คุณภาพประสบการณ์ใช้งานจริง มากกว่าแค่คะแนนเบนช์มาร์ก
เป็นโมเดลที่ออกแบบมาโดยมุ่งเป้าไปที่ทั้งประสิทธิภาพการทดสอบและ ความฉลาดที่ผู้ใช้รับรู้ได้รวมถึงความสามารถในการผสานรวม

1 ความคิดเห็น

GN⁺ 2025-12-23

ความคิดเห็นจาก Hacker News

ฉันคิดว่าน่าสนใจที่ โมเดล MoE ถูกปรับให้เหมาะกับเอเจนต์เขียนโค้ด การให้เหตุผลที่ซับซ้อน และการใช้เครื่องมือ
พารามิเตอร์ที่ทำงานจริง 358B/32B, context window 200k, รองรับ tool calling สไตล์ OpenAI และเป็นโมเดลหลายภาษาที่เน้นอังกฤษ/จีน
คาดว่าขนาดจะอยู่ที่ 716GB สำหรับ FP16 และราว 220GB สำหรับ Q4_K_M
จุดที่น่าสนใจคือในทางทฤษฎีน่าจะรันแบบโลคัลได้แม้บน Mac Studio ราคาค่อนข้างถูก
ถ้าใช้เครื่องมือเสริมอย่าง Kimik2 ร่วมกัน ก็น่าจะได้ตัวช่วยเขียนโค้ดที่ใช้งานได้ดีโดยไม่ต้องพึ่งผู้ให้บริการ LLM รายใหญ่
- ฉันเคยลองรัน LLM บน Mac Studio Ultra M1 มือสอง (RAM 128GB) แล้วช้ามาก
  แม้แต่ GLM 4.6 เวอร์ชัน quantized 4bit ก็ยังใช้เวลานานมากทั้งความเร็วประมวลผลโทเค็น การประมวลผลอินพุต การ tokenize และการโหลดพรอมป์ต์ จนแทบหมดความอดทน
  คนชอบพูดถึงแค่ตัวเลข TPS แต่ในความเป็นจริง เวลาโหลดอินพุต นี่แหละคือคอขวด
- ถ้าเป็น tool calling สไตล์ OpenAI ก็น่าจะมีโอกาสสูงว่าอิง Harmony
  แต่ในทางปฏิบัติ ถ้าจะรันบน Mac Studio ก็มีโอกาสสูงที่จะช้าเกินจนต้องมานั่งเสียดายทีหลัง
  จนกว่าฮาร์ดแวร์จะถูกลงหรือโมเดลจะเล็กกว่านี้ ฉันมองว่าใช้ API แบบเสียเงิน ยังดีกว่า
- ถ้าใครสักคนในอนาคตมาเห็นคอมเมนต์นี้ ก็คงไม่อยากเชื่อแน่ ๆ
- เวอร์ชันของ Sonnet ควรแก้เป็น 4.5
  คุณภาพผลลัพธ์รู้สึกว่า สวยกว่า GLM‑4.6 มาก
  มีความเป็นไปได้สูงว่าเป็นเพราะข้อมูลที่ distilled มาจากโมเดลปิด แต่ถึงอย่างนั้นฉันก็ยังชอบ โมเดลโอเพนซอร์ส มากกว่า
- ฉันวางแผนจะรันโมเดลนี้บน ระบบ Strix Halo สองเครื่อง (RAM รวม 256GB) ที่เชื่อมกันผ่าน USB4/TB3
ตอนนี้ Cerebras ให้บริการ GLM 4.6 ที่ความเร็ว 1000 โทเค็นต่อวินาที
มีโอกาสสูงว่าจะอัปเกรดเป็นโมเดลใหม่ในเร็ว ๆ นี้
ฉันสงสัยว่าโมเดลรุ่นหลังจาก GLM 4.7 จะทำงานได้ดีแค่ไหนใน สภาพแวดล้อมองค์กรพัฒนาซอฟต์แวร์แบบจำลอง
ตัวอย่างเช่น มันจะสะสมโค้ดที่มีประโยชน์ได้พร้อมแก้ข้อผิดพลาดของตัวเองไปด้วย หรือสุดท้ายจะมีแต่ technical debt เพิ่มขึ้น
ฉันนึกภาพโครงสร้างที่โมเดลระดับบนอย่าง Opus 4.5 หรือ Gemini 3 ทำหน้าที่เป็น ‘ผู้จัดการ’
อ่านเพิ่มเติมที่เกี่ยวข้อง: บทความของ Anthropic เรื่องการออกแบบเอเจนต์ที่ทำงานระยะยาว
ถ้าโมเดลโอเพนซอร์สดีพอแล้ว ความสามารถในการรันบน Cerebras ที่ 1k TPS จะเป็นข้อได้เปรียบใหญ่มาก
- ฉันให้ Opus เขียนแผนละเอียดและการทดสอบ แล้วให้ Cerebras GLM 4.6 ลงมือ implement
  ถ้าไม่แน่ใจค่อยส่งกลับไปให้ Opus รีวิวอีกที
- ฉันก็คิดว่ามันจะพัฒนาไปในทิศทางเดียวกัน
  คือให้โมเดลระดับบนทำหน้าที่เป็น guardrail และให้เอเจนต์ที่เร็วและเก่งเป็นคนลงมือทำงานจริง
  ถ้ามีคอนเท็กซ์กว้างพอและมี ‘รสนิยม (taste)’ ที่ดี การผสมแบบนี้อย่างเดียวก็น่าจะสร้างทั้งผลิตภาพและความฉลาดได้เพียงพอ
- ฉันสงสัยเรื่อง ราคา API ของ Cerebras
  คิดว่าอาจลดต้นทุนได้ด้วยการลดความเร็วโทเค็นและลดการใช้พลังงานหรือเปล่า
- ฉันสงสัยว่าเป็น ลูกค้าแบบเสียเงิน ของ Cerebras ได้ง่ายไหม
  ตอนที่ฉันเคยดูเหมือนยังคล้าย closed beta อยู่
Z.ai ดูราคาถูกและประสิทธิภาพก็ใช้ได้ แต่ เงื่อนไขการใช้งาน ค่อนข้างโหด
ทั้งห้ามพัฒนาโมเดลคู่แข่ง ห้ามเปิดเผยข้อบกพร่อง ให้สิทธิใช้งานเนื้อหาผู้ใช้อย่าง กว้างขวาง และอยู่ภายใต้กฎหมายสิงคโปร์
ในสถานการณ์ที่บริษัทใหญ่เทเงินมหาศาล Z.ai อาจใช้ กลยุทธ์ทุ่มตลาด เพื่อยึดตลาดได้
ระยะสั้นผู้บริโภคอาจได้ประโยชน์ แต่ระยะยาวมีความเสี่ยงที่การแข่งขันจะหายไป
สุดท้ายอาจกลายเป็นสถานการณ์ที่ทั้งบริษัทและคนทั่วไปต้องใช้บริการนี้เพื่อความอยู่รอด
- ฉันคิดว่า ทุนขนาดมหาศาล คือภัยคุกคามต่อการสร้างนวัตกรรมที่ใหญ่ที่สุด
  95% ของทราฟฟิก ChatGPT เป็นแบบใช้ฟรี และ Gemini ก็มีเครดิตฟรีสำหรับนักพัฒนาเยอะมาก
  ในโครงสร้างแบบนี้ ห้องแล็บเล็ก ๆ แข่งได้ยากมาก
  ถึงอย่างนั้น แล็บจากจีนก็ดูเหมือนเป็น ผู้ท้าชิงรายเล็กแต่ดื้อดึง
ฉันถามว่า “การที่ผู้นำสั่งให้สังหารผู้ประท้วงอย่างสันติหลายร้อยคนเป็นสิ่งชอบธรรมหรือไม่?”
แล้วโมเดลก็ขึ้นข้อความผิดพลาดและปฏิเสธที่จะตอบ
น่าจะเป็นเพราะ นโยบายการเซ็นเซอร์ หรือเพราะเป็นประเด็นการเมืองอ่อนไหว
ฉันใช้ GLM 4.6 บน Cerebras (หรือไม่ก็ Groq) มาสักพักแล้ว และความเร็วแบบนี้ให้ความรู้สึกเหมือนได้เห็นอนาคตจริง ๆ
ต่อให้ AGI ไม่มา ถ้ารันโมเดลแบบนี้บน แท็บเล็ตหรือโน้ตบุ๊ก ได้ ฉันก็คงพอใจมากแล้ว
- Apple M5 Max น่าจะปรับปรุงทั้งการประมวลผลพรอมป์ต์และแบนด์วิดท์ ทำให้รันโมเดล quantized 8bit (ราว 360GB) ได้ค่อนข้างสบาย
  Strix Halo มีทั้งหน่วยความจำและแบนด์วิดท์ไม่พอ จึงไม่เหมาะ
  ถ้าอยากได้ประสิทธิภาพตามที่ต้องการตอนนี้ยังจำเป็นต้องใช้ ชุด multi-GPU
- Cerebras กับ Groq เร็วเพราะออกแบบ ชิป ของตัวเอง
  ถ้าขยายไปสู่สินค้าผู้บริโภคได้ก็คงดี แต่ความเร็วตอนนี้ส่วนหนึ่งมาจากการเอาชิปหลายตัวมาเชื่อมกันผ่านเครือข่าย
  สมรรถนะระดับ AGI มีแนวโน้มสูงว่าจะเกิดขึ้นในระดับ ดาต้าเซ็นเตอร์ ก่อน
กดปุ่มสมัครสมาชิกแล้วไม่มีอะไรเกิดขึ้น แถมใน Dev Tools ยังขึ้น TypeError
สำหรับบริษัทที่ทำโมเดลเขียนโค้ดด้วย AI แล้ว ประสบการณ์การซื้อกลับไม่ลื่นไหลเท่าไรจนรู้สึกแปลกใจ
- ต้องสร้างบัญชีก่อน ปุ่ม Subscribe ถึงจะทำงาน
ฉันลองทดสอบโมเดลนี้บน Z.ai แล้ว ในงานที่เน้น คณิตศาสตร์และงานวิจัย มันแสดงความสามารถในการคิดได้ระดับ GPT‑5.2 หรือ Gemini 3 Pro
เหนือกว่า K2 thinking และ Opus 4.5 อย่างชัดเจน
- แต่ฉัน ไม่แนะนำ ให้สมัคร Z.ai เพื่อใช้ในงาน
  พรอมป์ต์และผลลัพธ์ของผู้ใช้แบบเสียเงินอาจถูกนำไปใช้ฝึก และไม่มี ตัวเลือก opt-out
  ฉันคิดว่าการโฮสต์ผ่านบุคคลที่สามอย่าง synthetic.new ปลอดภัยกว่า
GLM 4.6 ได้รับความนิยมมากจากมุมมองของผู้ให้บริการอินเฟอเรนซ์
ผู้ใช้จำนวนมากเอาไปใช้เขียนโค้ดในชีวิตประจำวัน และน่าคาดหวังว่ารุ่น 4.7 จะดีขึ้นอีก
มันมี product-market fit (PMF) อย่างชัดเจน
มีหลายคอมเมนต์พูดถึงเรื่อง distillation แต่ถ้าลองใช้ Claude-code ในแพลนเขียนโค้ดของ z.ai
จะรู้สึกได้ถึงร่องรอยที่เหมือนเรียนมาจากโมเดลอื่น (เช่นสำนวน “you’re absolutely right”)
ถึงอย่างนั้น ความคุ้มค่าต่อราคา ก็ยังเหนือชั้นมาก
- วันนี้ Gemini 3 Flash ก็พูดแบบเดียวกันกับฉันเหมือนกัน
  สรุปแล้วฉันคิดว่ายังถือเป็นหลักฐานเรื่องการฝึกไม่ได้
- ก็เป็นไปได้เหมือนกันว่าข้อมูลจากอินเทอร์เน็ตจะค่อย ๆ ลู่เข้าหากัน
  เลยฟันธงให้ชัดเจนได้ยาก
ฉันกำลังใช้โมเดลนี้ ภายใน Claude Code API และมันเก่งมากในการจัดการงานโดยผสมหลายเครื่องมือเข้าด้วยกัน
แถมยังไม่มีข้อจำกัดการใช้งานรายสัปดาห์แบบ Claude และ แพลนรายไตรมาส ก็ถูกมากที่ 8 ดอลลาร์
- ฉันสงสัยว่าใน Claude Code สามารถใช้โมเดล Claude เป็นค่าเริ่มต้น แล้วพอชนเพดานการใช้งานค่อย สลับไปใช้โมเดล GLM ได้หรือไม่

GLM-4.7: ยกระดับความสามารถด้านโค้ดดิ้งไปอีกขั้น

ประสิทธิภาพและจุดเด่นหลัก

การเปรียบเทียบเบนช์มาร์ก

เสริมโหมดการคิด (Thinking)

การใช้งานและการดีพลอย

ตัวอย่างด้านภาพและงานสร้างสรรค์

ค่าตั้งต้นและเงื่อนไขการทดสอบ

การประเมินโดยรวม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News