GLM-5.2 ขึ้นอันดับ 1 โมเดลโอเพนเวตส์บน Artificial Analysis

(artificialanalysis.ai)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GLM-5.2 ของ Z ai ทำคะแนนได้ 51 คะแนนใน Artificial Analysis Intelligence Index v4.1 ขึ้นเป็นผู้นำในกลุ่มโมเดลโอเพนเวตส์ และอยู่บน Pareto frontier ในด้านประสิทธิภาพต่อราคา
ขนาดโมเดลยังคงเท่าเดิมกับ GLM-5.1 ที่ พารามิเตอร์รวม 744B / พารามิเตอร์ที่แอ็กทีฟ 40B แต่คะแนนสูงขึ้น 11 คะแนน แซง MiniMax-M3, DeepSeek V4 Pro(max) และ Kimi K2.6
การปรับปรุงปรากฏในเกือบทุกการประเมิน โดยเฉพาะด้าน การให้เหตุผลทางวิทยาศาสตร์ ที่ CritPt และ HLE เพิ่มขึ้นอย่างชัดเจน
ใน GDPval-AA v2 ทำได้ 1524 คะแนน เหนือกว่า MiniMax-M3 และ DeepSeek V4 Pro(max) และอยู่ในระดับใกล้เคียงกับ GPT-5.5(xhigh reasoning)
แม้จะใช้ โทเค็นเอาต์พุต 43k ต่อหนึ่งงาน ทำให้ประสิทธิภาพด้านโทเค็นค่อนข้างต่ำ แต่ในกลุ่มโมเดลที่มีระดับสติปัญญาใกล้กัน ต้นทุนต่องานยังอยู่ในกลุ่มที่ต่ำที่สุด

ผู้นำโอเพนเวตส์บน Intelligence Index v4.1

GLM-5.2 ทำได้ 51 คะแนนใน Artificial Analysis Intelligence Index v4.1 ขึ้นอันดับ 1 ในกลุ่มโมเดลโอเพนเวตส์
คะแนนของโมเดลโอเพนเวตส์หลักมีดังนี้
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2 มีขนาด พารามิเตอร์รวม 744B / พารามิเตอร์ที่แอ็กทีฟ 40B เท่ากับ GLM-5.1 แต่คะแนนบน Intelligence Index v4.1 สูงกว่า 11 คะแนน

ประสิทธิภาพที่ดีขึ้นในแต่ละการประเมิน

GLM-5.2 มีคะแนนเพิ่มขึ้นจาก GLM-5.1 ในการประเมินส่วนใหญ่
โดยเฉพาะการประเมินที่เกี่ยวข้องกับ การให้เหตุผลทางวิทยาศาสตร์ ซึ่งดีขึ้นมาก
- CritPt: +16 คะแนน, 21%
- HLE: +12 คะแนน, 40%
- GPQA Diamond: +3 คะแนน, 89%
การประเมินอื่น ๆ ก็ปรับดีขึ้นอย่างทั่วถึง
- AA-LCR: +9 คะแนน, 71%
- tau3 banking: +15 คะแนน, 27%
- SciCode: +7 คะแนน, 50%
- TerminalBench v2.1: +16 คะแนน, 78%

GDPval-AA v2 และความสามารถแบบเอเจนต์

GLM-5.2 ทำได้ 1524 คะแนนใน GDPval-AA v2 ซึ่งเป็นตัวชี้วัดความสามารถของเอเจนต์ในโลกจริง
เมื่อเทียบในกลุ่มโมเดลโอเพนเวตส์ ถือว่าสูงที่สุด
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
ผลลัพธ์นี้อยู่ในระดับใกล้เคียงอย่างมีนัยสำคัญกับ GPT-5.5(xhigh reasoning) ที่ได้ 1514 คะแนน
GDPval-AA v2 เปลี่ยนวิธีประเมินจาก GDPval-AA เดิม
- ตั้งค่าเส้นฐาน Elo เป็น สมรรถนะของมนุษย์ 1000
- ใช้ คณะผู้ตัดสินแบบหมุนเวียน ของ frontier-model judge
- เพิ่มลิมิตจำนวนเทิร์นจาก 100 เป็น 250 เพื่อรองรับเส้นทางการทำงานของเอเจนต์ที่ยาวขึ้น

ต้นทุน ราคา และการใช้โทเค็น

GLM-5.2 อยู่บน Pareto frontier ในกราฟ Intelligence vs Cost per Task และในกลุ่มโมเดลที่มีระดับสติปัญญาใกล้กัน ต้นทุนต่องานอยู่ในฝั่งที่ต่ำที่สุด
ต้นทุนต่องานสูงกว่า GLM-5.1 แต่เมื่อคำนึงถึงคะแนน Intelligence ที่สูงขึ้น ตำแหน่งด้านความคุ้มค่ายังได้เปรียบ
- GLM-5.2: ประมาณ $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
ราคา first-party API อยู่ในระดับเดียวกับ GLM-5.1
- $1.4 ต่อ 1M โทเค็นอินพุต
- $4.4 ต่อ 1M โทเค็นเอาต์พุต
- $0.26 ต่อ 1M cache hit token
ใช้ โทเค็นเอาต์พุต 43k ต่อหนึ่งงาน ใน Intelligence Index โดยในจำนวนนี้ 37k เป็น reasoning token
ปริมาณโทเค็นเอาต์พุตสูงกว่าโมเดลโอเพนเวตส์หลักรุ่นอื่น ๆ
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
ในกลุ่มโมเดลโอเพนเวตส์ที่มีระดับสติปัญญาใกล้กัน ประสิทธิภาพด้านโทเค็นค่อนข้างต่ำ และไม่ได้อยู่ในควอดแรนต์ที่น่าสนใจที่สุดบนกราฟ Intelligence vs Output Tokens

รายละเอียดโมเดลและการเข้าถึง

ไลเซนส์ของ GLM-5.2 คือ MIT
คอนเท็กซ์วินโดว์อยู่ที่ 1M โทเค็น เพิ่มจาก 200K ของ GLM-5.1
ใช้งานได้ผ่าน first-party API ของ Z ai และผู้ให้บริการ third-party หลายราย
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 ทำได้ 4 คะแนนใน AA-Omniscience Index สูงกว่า 2 คะแนนของ GLM-5.1
  - ความแม่นยำอยู่ที่ 25.1% สูงกว่า 24.2% ของ GLM-5.1
  - hallucination rate อยู่ที่ 28.1% ต่ำกว่า 29.4% ของ GLM-5.1
  - attempt rate อยู่ที่ 47% เท่าเดิม
  - ดูการเปรียบเทียบโมเดลได้ที่ หน้า GLM-5.2 ของ Artificial Analysis

1 ความคิดเห็น

GN⁺ 4 시간 전

ความคิดเห็นจาก Hacker News

นี่เป็น การก้าวขึ้นอีกขั้น ที่ค่อนข้างดีและดูเหมือนจะเข้าใกล้แนวหน้ามากแล้ว แต่ตอนนี้อยากให้โฟกัสเรื่องประสิทธิภาพของการให้เหตุผลมากขึ้น
ผมใช้แบบทดสอบที่ให้เขียนไลบรารีประเมินนิพจน์ทางคณิตศาสตร์แบบง่าย ๆ ด้วย Nim สำหรับประเมิน LLM และ GLM 5.2 xhigh ใช้เวลาให้เหตุผลเกิน 15 นาทีและใช้ไปประมาณ 45k โทเคนกว่าจะเขียนไฟล์แรก
อ้างอิงจาก https://artificialanalysis.ai/#output-tokens GPT 5.5 xhigh ใช้เฉลี่ยรวม 16k โทเคน, high ใช้ 10k, Fable 5 ใช้ 33k, Opus 4.8 ใช้ 41k, และ GLM 5.2 ใช้ 42k ดังนั้น ประสิทธิภาพการให้เหตุผลของ GPT 5.5 จึงเหนือกว่ามาก
ถ้าคิดเป็นต้นทุนต่อคำขอจริง GLM 5.2 น่าจะถูกกว่า GPT 5.5/Opus 4.8 แต่สำหรับหลายคน ความเร็วก็สำคัญเหมือนกัน
- GLM 5.2 Max ดูเหมือนจะมีวิธีคิดแบบเดียวกับ Opus 4.8 Max และการใช้ chain of thought กับเอาต์พุตโทเคนก็ใกล้เคียงกันมาก
  ถ้าต้องการการใช้โทเคนที่สมเหตุสมผล ควรรัน GLM 5.2 ที่ระดับ High และสำหรับงานส่วนใหญ่ ต่อให้ลดจาก Max ลงมา High คุณภาพก็แทบไม่ตก ขณะที่การใช้โทเคนลดลง 2~2.5 เท่า
  สุดท้ายแล้ว GLM 5.2 ก็เหมือนน้องชายของ Opus 4.8 ที่ถูกกว่ามาก และถึงขั้นมีมุกว่าคงยากจะเชื่อจริง ๆ ว่าโมเดล Opus ไม่ได้ถูกใช้ในการเทรนเลย
- มากกว่าจะบอกว่า “เข้าใกล้แนวหน้าแล้ว” ผมว่ามันแซงไปแล้วด้วยซ้ำ
  ส่วนตัวผมใช้ชุด GLM + OpenCode แล้วรู้สึกว่าดีกว่า Claude Code + Opus ที่บริษัทบังคับให้ใช้มาก ทำพลาดแบบมือใหม่สไตล์ StackOverflow น้อยกว่ามาก และทำตามคำสั่งได้ดีกว่า
  ประสบการณ์ใช้งานกับฮาร์เนสก็ดีกว่ามาก เพราะมันไม่เมินการตั้งค่า ไม่ปรับอะไรเองตามใจ และไม่รายงานผิด ทำให้รู้สึกว่าคูเมืองของ Anthropic กำลังหายไปอย่างรวดเร็ว
- ใน Opus ก็มีปัญหาคล้ายกัน คือคิดนานเกินไปแล้ววนอยู่กับ “เดี๋ยวก่อน ถ้าเกิดว่า...” ซ้ำ ๆ
  สุดท้ายก็ต้องสั่งหยุดแล้วบอกว่า “เริ่มจาก เขียนโค้ดก่อน แล้วค่อยแก้ระหว่างทาง” ให้ความรู้สึกเหมือนอาการตันของนักเขียนมีอยู่ใน LLM ด้วย
- ทำให้นึกถึง https://en.wikipedia.org/wiki/Portia_(spider)
- อยากให้ผลงานล่าสุดที่ Moonshot ทำใน Kimi K2.7 Code กระจายไปถึงแล็บโมเดลเปิดอื่น ๆ ด้วย
  ตามข้อมูลของ Artificial Analysis นั้น K2.7 Code มีความฉลาดใกล้เคียง K2.6 แต่ใช้เอาต์พุตโทเคนเพียงครึ่งเดียวเพื่อไปให้ถึงระดับเดียวกัน
ผมทำสคริปต์สำหรับจัดอันดับโมเดลตาม codingindex ของ Artificial Analysis แล้วใช้งานทุกวัน
มันดึง JSON จากหน้าตารางหลักแล้วแยกเฉพาะฟิลด์ด้านโค้ดที่สนใจ เดิมทีเคยมีเมลลิงลิสต์ด้วย แต่เพราะไม่ได้สนใจมากนักเลยปิดไปแล้ว
ตอนนี้ในผลลัพธ์บางชุด อันดับต้น ๆ มี Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max ฯลฯ และสามารถรันได้ด้วย $ curl day50.dev/art-analysis.sh | bash
รีโปอยู่ที่ https://github.com/day50-dev/aa-eval-email และตอนนี้โมเดลเปิดยังดูเหมือนตามหลังอยู่ราว 4~7 เดือน แล้วแต่เกณฑ์การวัด แต่ถ้าแนวโน้มนี้ยังไปต่อ ก่อนปีใหม่เราอาจได้เห็นโมเดล open weights ที่ทำงานระดับ Claude Fable 5 ได้
- ดัชนีโค้ดดิ้ง ของ Artificial Analysis ประกอบด้วยเพียงสองเบนช์มาร์กคือ Terminal-Bench Hard กับ SciCode เลยทำให้น่าสงสัยว่ามันเป็นดัชนีด้านโค้ดที่ดีหรือไม่
  มันจัดให้ Gemma 4 31B สูงกว่า DeepSeek V4 Flash แต่จากที่ผมใช้ทั้งคู่กับงานเขียนโค้ดหลากหลายแบบ ผมจะเลือก DeepSeek ทุกครั้ง
- เป็นโปรเจกต์ที่เจ๋ง แต่การให้คน รัน Bash ตรง ๆ จากแหล่งที่ไม่รู้จักถือเป็นแนวปฏิบัติที่ค่อนข้างแย่
ไม่เข้าใจว่าทำไมคนถึงพูดถึงเรื่องนี้กันไม่มากกว่านี้
มันให้คุณภาพระดับ Opus 4.7 ได้แทบจะในราคาที่เหลือเชื่อ และยังมีบางที่ให้โทเคนไม่จำกัดในราคา 50 ดอลลาร์ต่อเดือน รวมถึงบางที่คิดค่า API ถูกกว่า ZAI API ทางการถึง 3 เท่า
แม้แต่ ZAI API ทางการเองก็ยังถูกกว่า Opus ประมาณ 10 เท่า จึงเป็นแรงกระแทกใหญ่ต่อ Anthropic/OpenAI/Google และเป็นชัยชนะใหญ่ของคนที่เหลือในโลกนี้ ส่วนในฝั่งโมเดลเปิดนั้น ไม่ได้มีแค่ราคาและความเร็วของ API ทางการเท่านั้นที่สำคัญ
- ผมเคยลองใช้โมเดลเปิดจากจีนมาหลายครั้ง แม้จะโอเค แต่ก็ยังไปไม่ถึงระดับเบนช์มาร์กที่อ้างไว้
  GLM 5.2 อาจเข้าใกล้ Opus 4.7 ก็จริง แต่ถ้าทุกครั้งที่เช็กมันยังเป็นแค่ การจูนเพื่อเบนช์มาร์ก และยังไม่ถึงระดับ GPT หรือ Opus ผมก็คงจะเริ่มมองว่าเป็นแนว “เด็กเลี้ยงแกะ”
- ผู้ให้บริการที่ไม่เป็นทางการต้องระวัง
  หลายเจ้าตั้งค่าโมเดลผิดหรือแอบทำ quantization และอยู่ช่วงหนึ่ง Kimi จาก API ทางการกับผู้ให้บริการ third-party ส่วนใหญ่มีช่องว่างกัน 20~40%
- ถ้าดูใน OpenRouter สินค้าบางตัวที่ถูกกว่าจะเป็น โมเดลที่ผ่านการ quantize และยังไม่ชัดว่าการ quantize ลดความฉลาดลงมากแค่ไหน
  ผมสงสัยว่าราคา API ที่ถูกกว่า 3 เท่าอยู่ที่ไหน จนไปเจอว่าเรตราคา 8-bit ของ Croft คือ $0.50/$0.08/$2.20
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- ตัวเลือกมีมากเกินไปจนสำหรับมนุษย์แล้ว แค่การตามให้ทันก็มีต้นทุนเชิงคำนวณสูง
  แม้แต่การหาวิธีรันโมเดลพวกนี้ก็ยาก ไม่มีตัวติดตั้งให้ และถ้าคุณไม่ใช่ 1% ที่สนใจจริง ๆ ก็จะลงเอยด้วยการหาไกด์แล้วพบว่ามันล้าสมัยไปแล้ว
  เมื่อเทียบกับ “ติดตั้ง Claude Code แล้วจ่ายเดือนละ 100 ดอลลาร์” เส้นโค้งการเรียนรู้มันชันเกินไป และการประหยัด 50 ดอลลาร์ต่อเดือนก็อาจไม่คุ้มกับความพยายามนั้น
- ในองค์กรของเรา ทุกคน ยึดติดกับ Claude มากเกินไป จนทำเหมือนมันเป็น LLM เพียงตัวเดียว
  เป็นเพราะมันถูกออกแบบมาให้เหมาะกับคนที่ไม่ใช่วิศวกรในองค์กรล้วน ๆ
ในเบนช์มาร์กการเขียนโค้ดของ Artificial Analysis นั้น GLM 5.1 high มีความใกล้เคียงกับ GPT 5.5 xhigh พอสมควรในแง่ต้นทุนการรัน ขณะที่ GPT 5.5 medium ถูกกว่ามาก
ถ้าเทียบกับ GPT 5.5 medium แล้ว GLM 5.1 xhigh มีต้นทุนแพงเป็นสองเท่าแต่ความฉลาดอยู่แค่ราวครึ่งเดียว ดังนั้นต่อให้ยังไม่มี GLM 5.2 ก็ยังมีช่องว่างใหญ่ที่ต้องตามให้ทัน
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE ก็สอดคล้องกับประสบการณ์ส่วนตัวของผม/ฉันดี เลยทำให้สงสัยว่ากระแสฮือฮาบนอินเทอร์เน็ตเกี่ยวกับโมเดลแบบเปิดนั้นสมเหตุสมผลแค่ไหน
ถ้าต้องการโมเดลที่เข้าใกล้แนวหน้าจริง ๆ ตอนนี้การพูดถึง Opus, Fable และ GPT5.5 ดูจะตรงไปตรงมาที่สุด
- ในการรันเองของ Z.ai นั้น GLM 5.2 ได้ 46.2 คะแนนบน DeepSWE และอยู่ระหว่าง Opus 4.7 xhigh กับ Opus 4.8 medium
  https://z.ai/blog/glm-5.2
- ถ้าใช้โมเดลแบบเปิด ก็สามารถได้ การสมัครใช้งานที่คุ้มครองความเป็นส่วนตัวในต้นทุนพอ ๆ กับ Codex
  การสมัครของ OpenAI, Google และ Anthropic ไม่มีตัวเลือกความเป็นส่วนตัวแบบนั้น และจากลิงก์ก็น่าสนใจที่ GPT 5.5 อยู่อันดับ 7 บน Cursor CLI แต่ขยับขึ้นมาเป็นอันดับ 3 บน Codex CLI
  เนื่องจากไม่ได้ทดสอบโมเดลแบบเปิดบน Codex จึงยากจะฟันธงว่าเป็นเบนช์มาร์กของตัวโมเดลล้วน ๆ และอาจเป็นไปได้ว่าโมเดลแบบเปิดอ่อนกับ SWE agent harness แต่ก็ดูไม่ใช่คำอธิบายที่ง่ายที่สุด
- DeepSWE ให้ความรู้สึกว่าเป็นเบนช์มาร์กที่ “ตรงกว่า” ดัชนีของ Artificial Analysis หรือเบนช์มาร์กเขียนโค้ดอื่น ๆ
  ถ้ามองตามตัวชี้วัดนั้น GPT-5.5 ก็ยังเป็นราชาในด้านประสิทธิภาพต่อโทเค็น ความเร็ว และความฉลาดต่อดอลลาร์
  https://deepswe.datacurve.ai/
  Fable 5 ก็ดี แต่ผม/ฉันยังไม่เห็น GPT-5.6
- เมื่อวานลองใช้ GLM 5.2 บน OpenRouter แล้ว โดยรวมถือว่าโอเค แต่ระหว่างงานที่ค่อนข้างช้าเป็นเวลา 30 นาที ค่าโทเค็นขึ้นไปถึง 5 ดอลลาร์
  แพงกว่า DeepSeek V4 ได้ง่าย ๆ ถึง 4 เท่า แต่ก็ไม่ได้รู้สึกว่าผลลัพธ์ดีกว่าขนาดนั้น และพอมาตรวจทานทีหลังด้วย GPT 5.5 in Codex ก็ยังมีจุดรก ๆ อยู่มาก
  ถ้ามองเรื่องความคุ้มค่า MiniMax M3 ดูดีกว่า
ค่อนข้างน่าแปลกที่ GLM 5.1/5.2 ไม่ใช่โมเดลวิชัน
สมัยนี้ถือว่าค่อนข้างพบได้น้อย เพราะโมเดลของ OpenAI/Anthropic/Gemini รับภาพได้หมดแล้ว และตระกูลโอเพนเวตหลักอย่าง Gemma 4, Qwen 3.6 และ Kimi 2.x ก็รองรับอินพุตภาพเช่นกัน
GLM เป็นโมเดลที่ได้คะแนนสูงกับงานอย่างเว็บดีไซน์ ดังนั้นถ้ามีอินพุตภาพก็น่าจะมีประโยชน์สำหรับรับภาพหน้าจอแล้วสร้าง HTML+CSS ออกมา ตรงนี้จึงเป็นช่องโหว่ชัดเจน
- สามารถตั้งค่า sub-agent ใน coding harness แล้วสำหรับงานแบบนั้นก็เปิด sub-session ใหม่ด้วย โมเดลวิชันตัวไหนก็ได้ จากนั้นค่อยส่งผลกลับเข้าโมเดลหลัก
  ไม่จำเป็นต้องมี “โมเดลเดียวที่ทำได้ทุกอย่าง” เสมอไป
- ผม/ฉันใช้ Google AI Studio เป็น สะพานวิชันฟรี
  Gemma 31B ทำงานด้านวิชันได้ค่อนข้างดี และวันละ 1500 คำขอก็แทบจะเรียกได้ว่าไม่จำกัดแล้ว
- มันดูไม่ใช่ช่องโหว่ที่ใหญ่มาก
  อาจมีกรณีใช้งานอย่างงาน UX/UI แต่เรื่องอื่นนอกจากนั้นก็ไม่ค่อยจำเป็น และแม้แต่โมเดลแนวหน้าก็ยังทำซ้ำภาพจริงไม่ได้ ในประสบการณ์ส่วนตัวทำได้แค่ประมาณให้ใกล้เคียง
- กับ DeepSeek V4 ก็มีปฏิกิริยาแบบเดียวกัน
  ถ้าเป็นโมเดลวิชันก็น่าจะมีประโยชน์มากกว่า
ช่วง 24 ชั่วโมงที่ผ่านมา ผม/ฉันใช้โมเดลนี้ไปพอสมควร และยืนยันได้ว่ามันมีความสามารถไม่น้อย
เพียงแต่ค่อนข้างพูดเยิ่นเย้อเล็กน้อย และในบันทึกการคิดก็เห็นว่ามันทบทวน 3–4 รอบก่อนจะเลือกแนวทาง อีกทั้งความสามารถในการจัดการความต้องการที่ซับซ้อนและเป็นนามธรรมก็ยังไม่ถึงระดับ GPT5.5
ถึงอย่างนั้นก็ถึงขั้นที่ผม/ฉันแนะนำคนส่วนใหญ่ได้เลยว่าใช้ชุด สมัคร Z.AI + สมัคร OpenAI เดือนละ 20 ดอลลาร์ และเวิร์กโฟลว์แบบให้ GLM เขียนแล้วให้ GPT รีวิว/ดีบัก ก็แย่กว่าการใช้ GPT อย่างเดียวในแพลน 200 ดอลลาร์เพียงเล็กน้อย แต่ให้ความรู้สึกเกือบไม่จำกัด
- วันนี้เพิ่งรู้ว่าความเข้มการให้เหตุผลพื้นฐานถูกตั้งไว้ที่ max
  ความเยิ่นเย้อน่าจะมาจากตรงนั้น
- ตอนนี้สิ่งที่ผม/ฉันให้ความสำคัญที่สุดคือโมเดล เขียนได้ดีแค่ไหน
  ถ้าคุณเขียนโปรแกรมได้ ผม/ฉันคิดว่าตอนนี้เรามาถึงจุดที่สามารถให้ข้อมูลกับโมเดลได้มากพอเพื่อให้มันทำงานที่ต้องการแล้ว
  ในทางกลับกัน งานเขียนมีความละเอียดอ่อนของนัยยะมากเกินไป จึงยังยากมากอยู่ แต่ในความเป็นจริงมันก็ดีขึ้นเรื่อย ๆ
- เวิร์กโฟลว์ของผม/ฉันก็เป็นแบบนี้เหมือนกัน
  วันละครั้งผม/ฉันจะคัดลอกโค้ดไปใส่ Claude Sonnet ฟรี เพื่อทำให้มันอ่านได้จริง
- หลังจากได้ลอง Fable 5 แล้ว Opus 4.8 ก็รู้สึกว่าไม่เพียงพออีกต่อไป
  จริงอยู่ว่า Opus 4.8 เป็น coding agent ที่แข็งแกร่งกว่า โดยมันทำสำเร็จในจุดที่ DeepSeek 4.0 หรือ Kimi 2.7 มักแกว่งหรือพลาด แต่ ลูกเล่นเชิงโวหารแบบภาษาพูดเริ่มชวนรำคาญขึ้นเรื่อย ๆ และบางครั้งก็ให้ความรู้สึกว่าจงใจพูดกำกวมหรือกั๊กความจริงไว้จนกว่าจะกดถามย้ำ ทำให้เริ่มคิดใหม่เรื่องการสมัครใช้งาน
GLM 5.2 เป็นโมเดลแรกในบรรดาที่เราทดสอบซึ่ง ชัดเจนว่าอยู่ระดับเดียวกับหรือดีกว่า Opus 4.6
อย่างไรก็ตาม ฝั่งเราประเมิน GLM 5.2 และโมเดลจีนส่วนใหญ่ต่ำกว่าเบนช์มาร์กอื่น ๆ อยู่เล็กน้อย เพราะเบนช์มาร์กเหล่านั้นใช้วิธีทดสอบที่เปราะบาง
ดูข้อมูลได้ที่ https://gertlabs.com/rankings
ไม่ค่อยรู้วิธีรันโมเดลพวกนี้เท่าไร แต่สงสัยว่าจุดที่บริษัทขนาดกลางถึงใหญ่จะเริ่มซื้อฮาร์ดแวร์เพื่อเก็บโมเดลไว้ในเครื่องของตัวเองนั้นใกล้แค่ไหน
ถึงจะแพงและเก่งไม่เท่าโมเดลแนวหน้าที่สุด แต่ข้อดีด้าน ความเป็นส่วนตัวและสิทธิ์ในการควบคุม ก็ค่อนข้างมาก
- หลายบริษัทในยุโรปทำแบบนั้นมากับโมเดล 70B มาระยะหนึ่งแล้ว และกำลังอัปเกรดฮาร์ดแวร์เพื่อรันโมเดลระดับ 700B~1T ที่เพิ่งออกมา
  เริ่มจริงจังกันตั้งแต่ช่วง Kimi K2 แต่การซื้อและโฮสต์ฮาร์ดแวร์แบบนั้นต้องใช้เวลา
  ไม่ใช่ทุกบริษัทที่อยากส่งความลับทางการค้าไปให้ OpenAI หรือ Anthropic หรือแม้แต่สามารถส่งได้ตามกฎหมาย
- ไม่ใช่สถานการณ์ใหม่
  ในยุคที่มีโมเดลวิชันดีๆ อย่าง AlexNet ออกมา โดยเฉพาะในงาน OCR บริษัทก็ต้องเลือกระหว่างคลาวด์กับการโฮสต์ GPU เองอยู่แล้ว
  สุดท้ายแล้วปัญหาคือ รูปแบบการใช้งาน เพราะการใช้งานจะกระจุกในช่วงเวลางานบางช่วง และนอกเวลานั้น GPU ก็จะว่าง
  สำหรับงานที่ไวต่อความหน่วง นี่เป็น trade-off ที่มีมาหลายสิบปี ไม่ใช่ปัญหาเฉพาะของ LLM
- เป็นโมเดลขนาดประมาณ 750B จึงต้องใช้ VRAM มหาศาล
  คงต้องเป็นบริษัทขนาดกลางที่มุ่งมั่นมากพอสมควร
- จนถึงตอนนี้ กรณีใช้งานหลักที่ต้องการความเป็นส่วนตัวแบบสมบูรณ์ดูเหมือนจะเป็น งานด้านกฎหมาย
  การค้นหาข้อความจำนวนมหาศาลในการเปิดเผยพยานหลักฐานไม่จำเป็นต้องใช้โมเดลระดับท็อปที่สุด แต่ต้องการการรักษาความลับแบบสมบูรณ์
  ใน r/localllama มีทนายจำนวนไม่น้อยที่อวดชุดประกอบ multi-GPU และบังเอิญว่าพวกเขาก็มีงบที่จำเป็นด้วย
- ถ้าไม่ได้มีข้อกังวลด้านความมั่นคงของชาติจริงๆ การเจรจา สัญญาเชิงพาณิชย์ที่มีการคุ้มครองความเป็นส่วนตัว กับผู้ให้บริการเดิมไม่กี่รายน่าจะดีกว่า
มีการบอกว่า “GLM-5.2 อยู่บนพาเรโตฟรอนเทียร์ของต้นทุนต่องานเมื่อเทียบกับระดับสติปัญญา และมีต้นทุนต่องานต่ำที่สุดในบรรดาโมเดลที่มีระดับสติปัญญาใกล้เคียงกัน” แต่ในขณะเดียวกันก็ระบุว่า GLM-5.2 อยู่ที่ประมาณ $0.46 ต่องาน ขณะที่ GLM-5.1 คือ $0.25, Kimi K2.6 คือ $0.31, MiniMax-M3 คือ $0.18, DeepSeek V4 Pro max คือ $0.05 เลยรู้สึกเหมือนว่าตัวเองพลาดอะไรไปหรือเปล่า
- เหมือนเลือกตัวเปรียบเทียบผิด
  แทนที่จะเลือกโมเดลอื่นที่ใกล้กับ 5.2 ในตัวชี้วัดด้านสติปัญญา ดูเหมือนจะไปเลือกโมเดลเปิดที่ต่ำกว่าหลายตัวมาแทน
- พาเรโตฟรอนเทียร์ ไม่ได้แปลว่าถูกที่สุด
- บางโมเดลมีเงินอุดหนุนอยู่มาก
  ต้นทุนการอนุมานควรวัดจากจำนวนพารามิเตอร์รวมและพารามิเตอร์ที่ถูกใช้งานจริง ซึ่งเป็นตัวชี้วัดที่ดีกว่า
เห็น Mythos แล้วเลยเพิ่ม GLM 5.2 เข้าไปในเบนช์มาร์กที่อิงบั๊ก ปรากฏว่าดีกว่า GLM 5.1 แต่ก็ยังตามหลังหลายโมเดลอยู่ และถ้าจะเทียบกันตรงที่สุดก็น่าจะเทียบกับ Qwen 3.7 Max
โมเดลเปิดขนาดเล็กที่โฮสต์เองได้อย่าง Gemma 4 และ Qwen 3.6 ก็หาเจอบั๊กได้เท่ากันคือ 3 จาก 9 จุด ส่วน GLM 5.2 ระบุตำแหน่งของบั๊กหนึ่งจุดได้ถูก แต่เข้าใจตัวบั๊กเองคลาดเคลื่อนไปเล็กน้อย เลยได้เพียงคะแนนบางส่วน
Kimi K2.7-code ที่เพิ่มเข้าไปในการรันเดียวกันก็ยังทำผลงานได้ไม่ดีอย่างสม่ำเสมอเหมือน 2.6 และสำหรับเบนช์มาร์กนี้โดยเฉพาะ ก็มีโมเดลที่ดีกว่าและถูกกว่านี้อยู่
https://swelljoe.com/post/will-it-mythos/
เบนช์มาร์กเล็กๆ นี้ไม่ได้พิสูจน์อะไรเป็นพิเศษ แต่ก็มีประโยชน์ในการประเมินอย่างรวดเร็วว่าโมเดลสามารถใช้เหตุผลกับปัญหาที่ค่อนข้างซับซ้อนในโค้ดได้หรือไม่

GLM-5.2 ขึ้นอันดับ 1 โมเดลโอเพนเวตส์บน Artificial Analysis

ผู้นำโอเพนเวตส์บน Intelligence Index v4.1

ประสิทธิภาพที่ดีขึ้นในแต่ละการประเมิน

GDPval-AA v2 และความสามารถแบบเอเจนต์

ต้นทุน ราคา และการใช้โทเค็น

รายละเอียดโมเดลและการเข้าถึง

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News