7 คะแนน โดย GN⁺ 2025-12-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GLM-4.7 เป็นโมเดลภาษาขนาดใหญ่ที่ปรับปรุงประสิทธิภาพอย่างมากจากรุ่นก่อนในด้านการเขียนโค้ดหลายภาษา งานบนเทอร์มินัล และการให้เหตุผลแบบซับซ้อน
  • ทำสถิติการปรับปรุงบนเบนช์มาร์กสำคัญอย่าง SWE-bench, Terminal Bench 2.0, และ HLE ที่ +5.8%, +16.5%, และ +12.4% ตามลำดับ
  • คุณภาพการสร้าง UI ดีขึ้น ทำให้สร้างเว็บเพจที่สะอาดตาและทันสมัยขึ้น รวมถึงเลย์เอาต์สไลด์ที่แม่นยำ
  • เสริมความเสถียรและความสม่ำเสมอในงานเอเจนต์ที่ซับซ้อนผ่านฟีเจอร์ Interleaved Thinking, Preserved Thinking, และ Turn-level Thinking
  • เข้าถึงได้ทั่วโลกผ่าน Z.ai API, OpenRouter, HuggingFace และยังรองรับ coding agent กับการดีพลอยแบบโลคัล

ประสิทธิภาพและจุดเด่นหลัก

  • GLM-4.7 ทำได้ดีกว่า GLM-4.6 ทั้งด้านการเขียนโค้ดและการให้เหตุผลโดยรวม
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • บนเบนช์มาร์ก HLE(Humanity’s Last Exam) ทำได้ 42.8%(+12.4%) สะท้อนความสามารถด้านคณิตศาสตร์และการให้เหตุผลเชิงตรรกะที่ดีขึ้น
  • คุณภาพการสร้าง UI (Vibe Coding) ดีขึ้น ทำให้สร้างเว็บเพจและสไลด์ที่ดูประณีตมากขึ้น
  • ความสามารถในการใช้เครื่องมือ ดีขึ้น โดยทำคะแนนสูงใน τ²-Bench และ BrowseComp
  • ยังยืนยันการปรับปรุงประสิทธิภาพได้ใน สถานการณ์ที่หลากหลาย เช่น แชต งานสร้างสรรค์ และโรลเพลย์

การเปรียบเทียบเบนช์มาร์ก

  • GLM-4.7 ถูกนำไปประเมินเปรียบเทียบใน 17 เบนช์มาร์ก ร่วมกับ GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro และรุ่นอื่น ๆ
    • หมวด Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • หมวด Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • หมวด Agent: BrowseComp 52.0, τ²-Bench 87.4
  • ในบางรายการ ผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลระดับบน

เสริมโหมดการคิด (Thinking)

  • Interleaved Thinking: ผ่านขั้นตอนการคิดก่อนตอบและก่อนเรียกใช้เครื่องมือ เพื่อเพิ่มความสามารถในการทำตามคำสั่งและคุณภาพของผลลัพธ์
  • Preserved Thinking: เก็บบล็อกการคิดไว้ในการสนทนาหลายเทิร์น เพื่อลดการสูญเสียข้อมูลและความไม่สอดคล้อง
  • Turn-level Thinking: เปิดหรือปิดฟังก์ชันการคิดตามความซับซ้อนของคำขอ เพื่อปรับสมดุลระหว่างความแม่นยำกับต้นทุน
  • ฟีเจอร์เหล่านี้เหมาะกับงาน coding agent ระยะยาวและซับซ้อน

การใช้งานและการดีพลอย

  • ใช้งานโมเดล GLM-4.7 ได้ผ่าน Z.ai API platform และ OpenRouter
  • รองรับการใช้งานแบบผสานรวมใน coding agent หลักอย่าง Claude Code, Kilo Code, Roo Code, Cline
  • ผู้สมัครสมาชิก GLM Coding Plan จะถูกอัปเกรดเป็น GLM-4.7 โดยอัตโนมัติ และเพียงเปลี่ยนชื่อโมเดลในไฟล์ตั้งค่าเดิมก็ใช้งานได้
  • เปิดเผยน้ำหนักโมเดลบน HuggingFace และ ModelScope และรองรับการอนุมานแบบโลคัลด้วยเฟรมเวิร์ก vLLM และ SGLang

ตัวอย่างด้านภาพและงานสร้างสรรค์

  • มีตัวอย่างการสร้างหลากหลายแบบ เช่น เว็บไซต์ฟรอนต์เอนด์, งานศิลป์ 3D อย่าง Voxel Pagoda, โปสเตอร์ และสไลด์
  • แสดงให้เห็นถึง คุณภาพงานดีไซน์ที่ดีขึ้น อย่างชัดเจน ทั้งดาร์กโหมดคอนทราสต์สูง เอฟเฟกต์แอนิเมชัน และเลย์เอาต์ที่ประณีต

ค่าตั้งต้นและเงื่อนไขการทดสอบ

  • งานทั่วไป: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench และ Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, มีการปรับพรอมป์ต์บางส่วนตามโดเมน

การประเมินโดยรวม

  • GLM-4.7 เป็น อีกก้าวของการพัฒนา AGI ที่เน้นด้านโค้ดดิ้ง โดยให้ความสำคัญกับ คุณภาพประสบการณ์ใช้งานจริง มากกว่าแค่คะแนนเบนช์มาร์ก
  • เป็นโมเดลที่ออกแบบมาโดยมุ่งเป้าไปที่ทั้งประสิทธิภาพการทดสอบและ ความฉลาดที่ผู้ใช้รับรู้ได้รวมถึงความสามารถในการผสานรวม

1 ความคิดเห็น

 
GN⁺ 2025-12-23
ความคิดเห็นจาก Hacker News
  • ฉันคิดว่าน่าสนใจที่ โมเดล MoE ถูกปรับให้เหมาะกับเอเจนต์เขียนโค้ด การให้เหตุผลที่ซับซ้อน และการใช้เครื่องมือ
    พารามิเตอร์ที่ทำงานจริง 358B/32B, context window 200k, รองรับ tool calling สไตล์ OpenAI และเป็นโมเดลหลายภาษาที่เน้นอังกฤษ/จีน
    คาดว่าขนาดจะอยู่ที่ 716GB สำหรับ FP16 และราว 220GB สำหรับ Q4_K_M
    จุดที่น่าสนใจคือในทางทฤษฎีน่าจะรันแบบโลคัลได้แม้บน Mac Studio ราคาค่อนข้างถูก
    ถ้าใช้เครื่องมือเสริมอย่าง Kimik2 ร่วมกัน ก็น่าจะได้ตัวช่วยเขียนโค้ดที่ใช้งานได้ดีโดยไม่ต้องพึ่งผู้ให้บริการ LLM รายใหญ่

    • ฉันเคยลองรัน LLM บน Mac Studio Ultra M1 มือสอง (RAM 128GB) แล้วช้ามาก
      แม้แต่ GLM 4.6 เวอร์ชัน quantized 4bit ก็ยังใช้เวลานานมากทั้งความเร็วประมวลผลโทเค็น การประมวลผลอินพุต การ tokenize และการโหลดพรอมป์ต์ จนแทบหมดความอดทน
      คนชอบพูดถึงแค่ตัวเลข TPS แต่ในความเป็นจริง เวลาโหลดอินพุต นี่แหละคือคอขวด
    • ถ้าเป็น tool calling สไตล์ OpenAI ก็น่าจะมีโอกาสสูงว่าอิง Harmony
      แต่ในทางปฏิบัติ ถ้าจะรันบน Mac Studio ก็มีโอกาสสูงที่จะช้าเกินจนต้องมานั่งเสียดายทีหลัง
      จนกว่าฮาร์ดแวร์จะถูกลงหรือโมเดลจะเล็กกว่านี้ ฉันมองว่าใช้ API แบบเสียเงิน ยังดีกว่า
    • ถ้าใครสักคนในอนาคตมาเห็นคอมเมนต์นี้ ก็คงไม่อยากเชื่อแน่ ๆ
    • เวอร์ชันของ Sonnet ควรแก้เป็น 4.5
      คุณภาพผลลัพธ์รู้สึกว่า สวยกว่า GLM‑4.6 มาก
      มีความเป็นไปได้สูงว่าเป็นเพราะข้อมูลที่ distilled มาจากโมเดลปิด แต่ถึงอย่างนั้นฉันก็ยังชอบ โมเดลโอเพนซอร์ส มากกว่า
    • ฉันวางแผนจะรันโมเดลนี้บน ระบบ Strix Halo สองเครื่อง (RAM รวม 256GB) ที่เชื่อมกันผ่าน USB4/TB3
  • ตอนนี้ Cerebras ให้บริการ GLM 4.6 ที่ความเร็ว 1000 โทเค็นต่อวินาที
    มีโอกาสสูงว่าจะอัปเกรดเป็นโมเดลใหม่ในเร็ว ๆ นี้
    ฉันสงสัยว่าโมเดลรุ่นหลังจาก GLM 4.7 จะทำงานได้ดีแค่ไหนใน สภาพแวดล้อมองค์กรพัฒนาซอฟต์แวร์แบบจำลอง
    ตัวอย่างเช่น มันจะสะสมโค้ดที่มีประโยชน์ได้พร้อมแก้ข้อผิดพลาดของตัวเองไปด้วย หรือสุดท้ายจะมีแต่ technical debt เพิ่มขึ้น
    ฉันนึกภาพโครงสร้างที่โมเดลระดับบนอย่าง Opus 4.5 หรือ Gemini 3 ทำหน้าที่เป็น ‘ผู้จัดการ’
    อ่านเพิ่มเติมที่เกี่ยวข้อง: บทความของ Anthropic เรื่องการออกแบบเอเจนต์ที่ทำงานระยะยาว
    ถ้าโมเดลโอเพนซอร์สดีพอแล้ว ความสามารถในการรันบน Cerebras ที่ 1k TPS จะเป็นข้อได้เปรียบใหญ่มาก

    • ฉันให้ Opus เขียนแผนละเอียดและการทดสอบ แล้วให้ Cerebras GLM 4.6 ลงมือ implement
      ถ้าไม่แน่ใจค่อยส่งกลับไปให้ Opus รีวิวอีกที
    • ฉันก็คิดว่ามันจะพัฒนาไปในทิศทางเดียวกัน
      คือให้โมเดลระดับบนทำหน้าที่เป็น guardrail และให้เอเจนต์ที่เร็วและเก่งเป็นคนลงมือทำงานจริง
      ถ้ามีคอนเท็กซ์กว้างพอและมี ‘รสนิยม (taste)’ ที่ดี การผสมแบบนี้อย่างเดียวก็น่าจะสร้างทั้งผลิตภาพและความฉลาดได้เพียงพอ
    • ฉันสงสัยเรื่อง ราคา API ของ Cerebras
      คิดว่าอาจลดต้นทุนได้ด้วยการลดความเร็วโทเค็นและลดการใช้พลังงานหรือเปล่า
    • ฉันสงสัยว่าเป็น ลูกค้าแบบเสียเงิน ของ Cerebras ได้ง่ายไหม
      ตอนที่ฉันเคยดูเหมือนยังคล้าย closed beta อยู่
  • Z.ai ดูราคาถูกและประสิทธิภาพก็ใช้ได้ แต่ เงื่อนไขการใช้งาน ค่อนข้างโหด
    ทั้งห้ามพัฒนาโมเดลคู่แข่ง ห้ามเปิดเผยข้อบกพร่อง ให้สิทธิใช้งานเนื้อหาผู้ใช้อย่าง กว้างขวาง และอยู่ภายใต้กฎหมายสิงคโปร์
    ในสถานการณ์ที่บริษัทใหญ่เทเงินมหาศาล Z.ai อาจใช้ กลยุทธ์ทุ่มตลาด เพื่อยึดตลาดได้
    ระยะสั้นผู้บริโภคอาจได้ประโยชน์ แต่ระยะยาวมีความเสี่ยงที่การแข่งขันจะหายไป
    สุดท้ายอาจกลายเป็นสถานการณ์ที่ทั้งบริษัทและคนทั่วไปต้องใช้บริการนี้เพื่อความอยู่รอด

    • ฉันคิดว่า ทุนขนาดมหาศาล คือภัยคุกคามต่อการสร้างนวัตกรรมที่ใหญ่ที่สุด
      95% ของทราฟฟิก ChatGPT เป็นแบบใช้ฟรี และ Gemini ก็มีเครดิตฟรีสำหรับนักพัฒนาเยอะมาก
      ในโครงสร้างแบบนี้ ห้องแล็บเล็ก ๆ แข่งได้ยากมาก
      ถึงอย่างนั้น แล็บจากจีนก็ดูเหมือนเป็น ผู้ท้าชิงรายเล็กแต่ดื้อดึง
  • ฉันถามว่า “การที่ผู้นำสั่งให้สังหารผู้ประท้วงอย่างสันติหลายร้อยคนเป็นสิ่งชอบธรรมหรือไม่?”
    แล้วโมเดลก็ขึ้นข้อความผิดพลาดและปฏิเสธที่จะตอบ
    น่าจะเป็นเพราะ นโยบายการเซ็นเซอร์ หรือเพราะเป็นประเด็นการเมืองอ่อนไหว

  • ฉันใช้ GLM 4.6 บน Cerebras (หรือไม่ก็ Groq) มาสักพักแล้ว และความเร็วแบบนี้ให้ความรู้สึกเหมือนได้เห็นอนาคตจริง ๆ
    ต่อให้ AGI ไม่มา ถ้ารันโมเดลแบบนี้บน แท็บเล็ตหรือโน้ตบุ๊ก ได้ ฉันก็คงพอใจมากแล้ว

    • Apple M5 Max น่าจะปรับปรุงทั้งการประมวลผลพรอมป์ต์และแบนด์วิดท์ ทำให้รันโมเดล quantized 8bit (ราว 360GB) ได้ค่อนข้างสบาย
      Strix Halo มีทั้งหน่วยความจำและแบนด์วิดท์ไม่พอ จึงไม่เหมาะ
      ถ้าอยากได้ประสิทธิภาพตามที่ต้องการตอนนี้ยังจำเป็นต้องใช้ ชุด multi-GPU
    • Cerebras กับ Groq เร็วเพราะออกแบบ ชิป ของตัวเอง
      ถ้าขยายไปสู่สินค้าผู้บริโภคได้ก็คงดี แต่ความเร็วตอนนี้ส่วนหนึ่งมาจากการเอาชิปหลายตัวมาเชื่อมกันผ่านเครือข่าย
      สมรรถนะระดับ AGI มีแนวโน้มสูงว่าจะเกิดขึ้นในระดับ ดาต้าเซ็นเตอร์ ก่อน
  • กดปุ่มสมัครสมาชิกแล้วไม่มีอะไรเกิดขึ้น แถมใน Dev Tools ยังขึ้น TypeError
    สำหรับบริษัทที่ทำโมเดลเขียนโค้ดด้วย AI แล้ว ประสบการณ์การซื้อกลับไม่ลื่นไหลเท่าไรจนรู้สึกแปลกใจ

    • ต้องสร้างบัญชีก่อน ปุ่ม Subscribe ถึงจะทำงาน
  • ฉันลองทดสอบโมเดลนี้บน Z.ai แล้ว ในงานที่เน้น คณิตศาสตร์และงานวิจัย มันแสดงความสามารถในการคิดได้ระดับ GPT‑5.2 หรือ Gemini 3 Pro
    เหนือกว่า K2 thinking และ Opus 4.5 อย่างชัดเจน

    • แต่ฉัน ไม่แนะนำ ให้สมัคร Z.ai เพื่อใช้ในงาน
      พรอมป์ต์และผลลัพธ์ของผู้ใช้แบบเสียเงินอาจถูกนำไปใช้ฝึก และไม่มี ตัวเลือก opt-out
      ฉันคิดว่าการโฮสต์ผ่านบุคคลที่สามอย่าง synthetic.new ปลอดภัยกว่า
  • GLM 4.6 ได้รับความนิยมมากจากมุมมองของผู้ให้บริการอินเฟอเรนซ์
    ผู้ใช้จำนวนมากเอาไปใช้เขียนโค้ดในชีวิตประจำวัน และน่าคาดหวังว่ารุ่น 4.7 จะดีขึ้นอีก
    มันมี product-market fit (PMF) อย่างชัดเจน

  • มีหลายคอมเมนต์พูดถึงเรื่อง distillation แต่ถ้าลองใช้ Claude-code ในแพลนเขียนโค้ดของ z.ai
    จะรู้สึกได้ถึงร่องรอยที่เหมือนเรียนมาจากโมเดลอื่น (เช่นสำนวน “you’re absolutely right”)
    ถึงอย่างนั้น ความคุ้มค่าต่อราคา ก็ยังเหนือชั้นมาก

    • วันนี้ Gemini 3 Flash ก็พูดแบบเดียวกันกับฉันเหมือนกัน
      สรุปแล้วฉันคิดว่ายังถือเป็นหลักฐานเรื่องการฝึกไม่ได้
    • ก็เป็นไปได้เหมือนกันว่าข้อมูลจากอินเทอร์เน็ตจะค่อย ๆ ลู่เข้าหากัน
      เลยฟันธงให้ชัดเจนได้ยาก
  • ฉันกำลังใช้โมเดลนี้ ภายใน Claude Code API และมันเก่งมากในการจัดการงานโดยผสมหลายเครื่องมือเข้าด้วยกัน
    แถมยังไม่มีข้อจำกัดการใช้งานรายสัปดาห์แบบ Claude และ แพลนรายไตรมาส ก็ถูกมากที่ 8 ดอลลาร์

    • ฉันสงสัยว่าใน Claude Code สามารถใช้โมเดล Claude เป็นค่าเริ่มต้น แล้วพอชนเพดานการใช้งานค่อย สลับไปใช้โมเดล GLM ได้หรือไม่