GLM-5.2 ขึ้นอันดับ 1 โมเดลโอเพนเวตส์บน Artificial Analysis
(artificialanalysis.ai)- GLM-5.2 ของ Z ai ทำคะแนนได้ 51 คะแนนใน Artificial Analysis Intelligence Index v4.1 ขึ้นเป็นผู้นำในกลุ่มโมเดลโอเพนเวตส์ และอยู่บน Pareto frontier ในด้านประสิทธิภาพต่อราคา
- ขนาดโมเดลยังคงเท่าเดิมกับ GLM-5.1 ที่ พารามิเตอร์รวม 744B / พารามิเตอร์ที่แอ็กทีฟ 40B แต่คะแนนสูงขึ้น 11 คะแนน แซง MiniMax-M3, DeepSeek V4 Pro(max) และ Kimi K2.6
- การปรับปรุงปรากฏในเกือบทุกการประเมิน โดยเฉพาะด้าน การให้เหตุผลทางวิทยาศาสตร์ ที่ CritPt และ HLE เพิ่มขึ้นอย่างชัดเจน
- ใน GDPval-AA v2 ทำได้ 1524 คะแนน เหนือกว่า MiniMax-M3 และ DeepSeek V4 Pro(max) และอยู่ในระดับใกล้เคียงกับ GPT-5.5(xhigh reasoning)
- แม้จะใช้ โทเค็นเอาต์พุต 43k ต่อหนึ่งงาน ทำให้ประสิทธิภาพด้านโทเค็นค่อนข้างต่ำ แต่ในกลุ่มโมเดลที่มีระดับสติปัญญาใกล้กัน ต้นทุนต่องานยังอยู่ในกลุ่มที่ต่ำที่สุด
ผู้นำโอเพนเวตส์บน Intelligence Index v4.1
- GLM-5.2 ทำได้ 51 คะแนนใน Artificial Analysis Intelligence Index v4.1 ขึ้นอันดับ 1 ในกลุ่มโมเดลโอเพนเวตส์
- คะแนนของโมเดลโอเพนเวตส์หลักมีดังนี้
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2 มีขนาด พารามิเตอร์รวม 744B / พารามิเตอร์ที่แอ็กทีฟ 40B เท่ากับ GLM-5.1 แต่คะแนนบน Intelligence Index v4.1 สูงกว่า 11 คะแนน
ประสิทธิภาพที่ดีขึ้นในแต่ละการประเมิน
- GLM-5.2 มีคะแนนเพิ่มขึ้นจาก GLM-5.1 ในการประเมินส่วนใหญ่
- โดยเฉพาะการประเมินที่เกี่ยวข้องกับ การให้เหตุผลทางวิทยาศาสตร์ ซึ่งดีขึ้นมาก
- CritPt: +16 คะแนน, 21%
- HLE: +12 คะแนน, 40%
- GPQA Diamond: +3 คะแนน, 89%
- การประเมินอื่น ๆ ก็ปรับดีขึ้นอย่างทั่วถึง
- AA-LCR: +9 คะแนน, 71%
- tau3 banking: +15 คะแนน, 27%
- SciCode: +7 คะแนน, 50%
- TerminalBench v2.1: +16 คะแนน, 78%
GDPval-AA v2 และความสามารถแบบเอเจนต์
- GLM-5.2 ทำได้ 1524 คะแนนใน GDPval-AA v2 ซึ่งเป็นตัวชี้วัดความสามารถของเอเจนต์ในโลกจริง
- เมื่อเทียบในกลุ่มโมเดลโอเพนเวตส์ ถือว่าสูงที่สุด
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- ผลลัพธ์นี้อยู่ในระดับใกล้เคียงอย่างมีนัยสำคัญกับ GPT-5.5(xhigh reasoning) ที่ได้ 1514 คะแนน
- GDPval-AA v2 เปลี่ยนวิธีประเมินจาก GDPval-AA เดิม
- ตั้งค่าเส้นฐาน Elo เป็น สมรรถนะของมนุษย์ 1000
- ใช้ คณะผู้ตัดสินแบบหมุนเวียน ของ frontier-model judge
- เพิ่มลิมิตจำนวนเทิร์นจาก 100 เป็น 250 เพื่อรองรับเส้นทางการทำงานของเอเจนต์ที่ยาวขึ้น
ต้นทุน ราคา และการใช้โทเค็น
- GLM-5.2 อยู่บน Pareto frontier ในกราฟ Intelligence vs Cost per Task และในกลุ่มโมเดลที่มีระดับสติปัญญาใกล้กัน ต้นทุนต่องานอยู่ในฝั่งที่ต่ำที่สุด
- ต้นทุนต่องานสูงกว่า GLM-5.1 แต่เมื่อคำนึงถึงคะแนน Intelligence ที่สูงขึ้น ตำแหน่งด้านความคุ้มค่ายังได้เปรียบ
- GLM-5.2: ประมาณ $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- ราคา first-party API อยู่ในระดับเดียวกับ GLM-5.1
- $1.4 ต่อ 1M โทเค็นอินพุต
- $4.4 ต่อ 1M โทเค็นเอาต์พุต
- $0.26 ต่อ 1M cache hit token
- ใช้ โทเค็นเอาต์พุต 43k ต่อหนึ่งงาน ใน Intelligence Index โดยในจำนวนนี้ 37k เป็น reasoning token
- ปริมาณโทเค็นเอาต์พุตสูงกว่าโมเดลโอเพนเวตส์หลักรุ่นอื่น ๆ
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- ในกลุ่มโมเดลโอเพนเวตส์ที่มีระดับสติปัญญาใกล้กัน ประสิทธิภาพด้านโทเค็นค่อนข้างต่ำ และไม่ได้อยู่ในควอดแรนต์ที่น่าสนใจที่สุดบนกราฟ Intelligence vs Output Tokens
รายละเอียดโมเดลและการเข้าถึง
- ไลเซนส์ของ GLM-5.2 คือ MIT
- คอนเท็กซ์วินโดว์อยู่ที่ 1M โทเค็น เพิ่มจาก 200K ของ GLM-5.1
- ใช้งานได้ผ่าน first-party API ของ Z ai และผู้ให้บริการ third-party หลายราย
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2 ทำได้ 4 คะแนนใน AA-Omniscience Index สูงกว่า 2 คะแนนของ GLM-5.1
- ความแม่นยำอยู่ที่ 25.1% สูงกว่า 24.2% ของ GLM-5.1
- hallucination rate อยู่ที่ 28.1% ต่ำกว่า 29.4% ของ GLM-5.1
- attempt rate อยู่ที่ 47% เท่าเดิม
- ดูการเปรียบเทียบโมเดลได้ที่ หน้า GLM-5.2 ของ Artificial Analysis
-
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
นี่เป็น การก้าวขึ้นอีกขั้น ที่ค่อนข้างดีและดูเหมือนจะเข้าใกล้แนวหน้ามากแล้ว แต่ตอนนี้อยากให้โฟกัสเรื่องประสิทธิภาพของการให้เหตุผลมากขึ้น
ผมใช้แบบทดสอบที่ให้เขียนไลบรารีประเมินนิพจน์ทางคณิตศาสตร์แบบง่าย ๆ ด้วย Nim สำหรับประเมิน LLM และ GLM 5.2 xhigh ใช้เวลาให้เหตุผลเกิน 15 นาทีและใช้ไปประมาณ 45k โทเคนกว่าจะเขียนไฟล์แรก
อ้างอิงจาก https://artificialanalysis.ai/#output-tokens GPT 5.5 xhigh ใช้เฉลี่ยรวม 16k โทเคน, high ใช้ 10k, Fable 5 ใช้ 33k, Opus 4.8 ใช้ 41k, และ GLM 5.2 ใช้ 42k ดังนั้น ประสิทธิภาพการให้เหตุผลของ GPT 5.5 จึงเหนือกว่ามาก
ถ้าคิดเป็นต้นทุนต่อคำขอจริง GLM 5.2 น่าจะถูกกว่า GPT 5.5/Opus 4.8 แต่สำหรับหลายคน ความเร็วก็สำคัญเหมือนกัน
ถ้าต้องการการใช้โทเคนที่สมเหตุสมผล ควรรัน GLM 5.2 ที่ระดับ High และสำหรับงานส่วนใหญ่ ต่อให้ลดจาก Max ลงมา High คุณภาพก็แทบไม่ตก ขณะที่การใช้โทเคนลดลง 2~2.5 เท่า
สุดท้ายแล้ว GLM 5.2 ก็เหมือนน้องชายของ Opus 4.8 ที่ถูกกว่ามาก และถึงขั้นมีมุกว่าคงยากจะเชื่อจริง ๆ ว่าโมเดล Opus ไม่ได้ถูกใช้ในการเทรนเลย
ส่วนตัวผมใช้ชุด GLM + OpenCode แล้วรู้สึกว่าดีกว่า Claude Code + Opus ที่บริษัทบังคับให้ใช้มาก ทำพลาดแบบมือใหม่สไตล์ StackOverflow น้อยกว่ามาก และทำตามคำสั่งได้ดีกว่า
ประสบการณ์ใช้งานกับฮาร์เนสก็ดีกว่ามาก เพราะมันไม่เมินการตั้งค่า ไม่ปรับอะไรเองตามใจ และไม่รายงานผิด ทำให้รู้สึกว่าคูเมืองของ Anthropic กำลังหายไปอย่างรวดเร็ว
สุดท้ายก็ต้องสั่งหยุดแล้วบอกว่า “เริ่มจาก เขียนโค้ดก่อน แล้วค่อยแก้ระหว่างทาง” ให้ความรู้สึกเหมือนอาการตันของนักเขียนมีอยู่ใน LLM ด้วย
ตามข้อมูลของ Artificial Analysis นั้น K2.7 Code มีความฉลาดใกล้เคียง K2.6 แต่ใช้เอาต์พุตโทเคนเพียงครึ่งเดียวเพื่อไปให้ถึงระดับเดียวกัน
ผมทำสคริปต์สำหรับจัดอันดับโมเดลตาม codingindex ของ Artificial Analysis แล้วใช้งานทุกวัน
มันดึง JSON จากหน้าตารางหลักแล้วแยกเฉพาะฟิลด์ด้านโค้ดที่สนใจ เดิมทีเคยมีเมลลิงลิสต์ด้วย แต่เพราะไม่ได้สนใจมากนักเลยปิดไปแล้ว
ตอนนี้ในผลลัพธ์บางชุด อันดับต้น ๆ มี Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max ฯลฯ และสามารถรันได้ด้วย
$ curl day50.dev/art-analysis.sh | bashรีโปอยู่ที่ https://github.com/day50-dev/aa-eval-email และตอนนี้โมเดลเปิดยังดูเหมือนตามหลังอยู่ราว 4~7 เดือน แล้วแต่เกณฑ์การวัด แต่ถ้าแนวโน้มนี้ยังไปต่อ ก่อนปีใหม่เราอาจได้เห็นโมเดล open weights ที่ทำงานระดับ Claude Fable 5 ได้
มันจัดให้ Gemma 4 31B สูงกว่า DeepSeek V4 Flash แต่จากที่ผมใช้ทั้งคู่กับงานเขียนโค้ดหลากหลายแบบ ผมจะเลือก DeepSeek ทุกครั้ง
ไม่เข้าใจว่าทำไมคนถึงพูดถึงเรื่องนี้กันไม่มากกว่านี้
มันให้คุณภาพระดับ Opus 4.7 ได้แทบจะในราคาที่เหลือเชื่อ และยังมีบางที่ให้โทเคนไม่จำกัดในราคา 50 ดอลลาร์ต่อเดือน รวมถึงบางที่คิดค่า API ถูกกว่า ZAI API ทางการถึง 3 เท่า
แม้แต่ ZAI API ทางการเองก็ยังถูกกว่า Opus ประมาณ 10 เท่า จึงเป็นแรงกระแทกใหญ่ต่อ Anthropic/OpenAI/Google และเป็นชัยชนะใหญ่ของคนที่เหลือในโลกนี้ ส่วนในฝั่งโมเดลเปิดนั้น ไม่ได้มีแค่ราคาและความเร็วของ API ทางการเท่านั้นที่สำคัญ
GLM 5.2 อาจเข้าใกล้ Opus 4.7 ก็จริง แต่ถ้าทุกครั้งที่เช็กมันยังเป็นแค่ การจูนเพื่อเบนช์มาร์ก และยังไม่ถึงระดับ GPT หรือ Opus ผมก็คงจะเริ่มมองว่าเป็นแนว “เด็กเลี้ยงแกะ”
หลายเจ้าตั้งค่าโมเดลผิดหรือแอบทำ quantization และอยู่ช่วงหนึ่ง Kimi จาก API ทางการกับผู้ให้บริการ third-party ส่วนใหญ่มีช่องว่างกัน 20~40%
ผมสงสัยว่าราคา API ที่ถูกกว่า 3 เท่าอยู่ที่ไหน จนไปเจอว่าเรตราคา 8-bit ของ Croft คือ $0.50/$0.08/$2.20
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
แม้แต่การหาวิธีรันโมเดลพวกนี้ก็ยาก ไม่มีตัวติดตั้งให้ และถ้าคุณไม่ใช่ 1% ที่สนใจจริง ๆ ก็จะลงเอยด้วยการหาไกด์แล้วพบว่ามันล้าสมัยไปแล้ว
เมื่อเทียบกับ “ติดตั้ง Claude Code แล้วจ่ายเดือนละ 100 ดอลลาร์” เส้นโค้งการเรียนรู้มันชันเกินไป และการประหยัด 50 ดอลลาร์ต่อเดือนก็อาจไม่คุ้มกับความพยายามนั้น
เป็นเพราะมันถูกออกแบบมาให้เหมาะกับคนที่ไม่ใช่วิศวกรในองค์กรล้วน ๆ
ในเบนช์มาร์กการเขียนโค้ดของ Artificial Analysis นั้น GLM 5.1 high มีความใกล้เคียงกับ GPT 5.5 xhigh พอสมควรในแง่ต้นทุนการรัน ขณะที่ GPT 5.5 medium ถูกกว่ามาก
ถ้าเทียบกับ GPT 5.5 medium แล้ว GLM 5.1 xhigh มีต้นทุนแพงเป็นสองเท่าแต่ความฉลาดอยู่แค่ราวครึ่งเดียว ดังนั้นต่อให้ยังไม่มี GLM 5.2 ก็ยังมีช่องว่างใหญ่ที่ต้องตามให้ทัน
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE ก็สอดคล้องกับประสบการณ์ส่วนตัวของผม/ฉันดี เลยทำให้สงสัยว่ากระแสฮือฮาบนอินเทอร์เน็ตเกี่ยวกับโมเดลแบบเปิดนั้นสมเหตุสมผลแค่ไหน
ถ้าต้องการโมเดลที่เข้าใกล้แนวหน้าจริง ๆ ตอนนี้การพูดถึง Opus, Fable และ GPT5.5 ดูจะตรงไปตรงมาที่สุด
https://z.ai/blog/glm-5.2
การสมัครของ OpenAI, Google และ Anthropic ไม่มีตัวเลือกความเป็นส่วนตัวแบบนั้น และจากลิงก์ก็น่าสนใจที่ GPT 5.5 อยู่อันดับ 7 บน Cursor CLI แต่ขยับขึ้นมาเป็นอันดับ 3 บน Codex CLI
เนื่องจากไม่ได้ทดสอบโมเดลแบบเปิดบน Codex จึงยากจะฟันธงว่าเป็นเบนช์มาร์กของตัวโมเดลล้วน ๆ และอาจเป็นไปได้ว่าโมเดลแบบเปิดอ่อนกับ SWE agent harness แต่ก็ดูไม่ใช่คำอธิบายที่ง่ายที่สุด
ถ้ามองตามตัวชี้วัดนั้น GPT-5.5 ก็ยังเป็นราชาในด้านประสิทธิภาพต่อโทเค็น ความเร็ว และความฉลาดต่อดอลลาร์
https://deepswe.datacurve.ai/
Fable 5 ก็ดี แต่ผม/ฉันยังไม่เห็น GPT-5.6
แพงกว่า DeepSeek V4 ได้ง่าย ๆ ถึง 4 เท่า แต่ก็ไม่ได้รู้สึกว่าผลลัพธ์ดีกว่าขนาดนั้น และพอมาตรวจทานทีหลังด้วย GPT 5.5 in Codex ก็ยังมีจุดรก ๆ อยู่มาก
ถ้ามองเรื่องความคุ้มค่า MiniMax M3 ดูดีกว่า
ค่อนข้างน่าแปลกที่ GLM 5.1/5.2 ไม่ใช่โมเดลวิชัน
สมัยนี้ถือว่าค่อนข้างพบได้น้อย เพราะโมเดลของ OpenAI/Anthropic/Gemini รับภาพได้หมดแล้ว และตระกูลโอเพนเวตหลักอย่าง Gemma 4, Qwen 3.6 และ Kimi 2.x ก็รองรับอินพุตภาพเช่นกัน
GLM เป็นโมเดลที่ได้คะแนนสูงกับงานอย่างเว็บดีไซน์ ดังนั้นถ้ามีอินพุตภาพก็น่าจะมีประโยชน์สำหรับรับภาพหน้าจอแล้วสร้าง HTML+CSS ออกมา ตรงนี้จึงเป็นช่องโหว่ชัดเจน
ไม่จำเป็นต้องมี “โมเดลเดียวที่ทำได้ทุกอย่าง” เสมอไป
Gemma 31B ทำงานด้านวิชันได้ค่อนข้างดี และวันละ 1500 คำขอก็แทบจะเรียกได้ว่าไม่จำกัดแล้ว
อาจมีกรณีใช้งานอย่างงาน UX/UI แต่เรื่องอื่นนอกจากนั้นก็ไม่ค่อยจำเป็น และแม้แต่โมเดลแนวหน้าก็ยังทำซ้ำภาพจริงไม่ได้ ในประสบการณ์ส่วนตัวทำได้แค่ประมาณให้ใกล้เคียง
ถ้าเป็นโมเดลวิชันก็น่าจะมีประโยชน์มากกว่า
ช่วง 24 ชั่วโมงที่ผ่านมา ผม/ฉันใช้โมเดลนี้ไปพอสมควร และยืนยันได้ว่ามันมีความสามารถไม่น้อย
เพียงแต่ค่อนข้างพูดเยิ่นเย้อเล็กน้อย และในบันทึกการคิดก็เห็นว่ามันทบทวน 3–4 รอบก่อนจะเลือกแนวทาง อีกทั้งความสามารถในการจัดการความต้องการที่ซับซ้อนและเป็นนามธรรมก็ยังไม่ถึงระดับ GPT5.5
ถึงอย่างนั้นก็ถึงขั้นที่ผม/ฉันแนะนำคนส่วนใหญ่ได้เลยว่าใช้ชุด สมัคร Z.AI + สมัคร OpenAI เดือนละ 20 ดอลลาร์ และเวิร์กโฟลว์แบบให้ GLM เขียนแล้วให้ GPT รีวิว/ดีบัก ก็แย่กว่าการใช้ GPT อย่างเดียวในแพลน 200 ดอลลาร์เพียงเล็กน้อย แต่ให้ความรู้สึกเกือบไม่จำกัด
ความเยิ่นเย้อน่าจะมาจากตรงนั้น
ถ้าคุณเขียนโปรแกรมได้ ผม/ฉันคิดว่าตอนนี้เรามาถึงจุดที่สามารถให้ข้อมูลกับโมเดลได้มากพอเพื่อให้มันทำงานที่ต้องการแล้ว
ในทางกลับกัน งานเขียนมีความละเอียดอ่อนของนัยยะมากเกินไป จึงยังยากมากอยู่ แต่ในความเป็นจริงมันก็ดีขึ้นเรื่อย ๆ
วันละครั้งผม/ฉันจะคัดลอกโค้ดไปใส่ Claude Sonnet ฟรี เพื่อทำให้มันอ่านได้จริง
จริงอยู่ว่า Opus 4.8 เป็น coding agent ที่แข็งแกร่งกว่า โดยมันทำสำเร็จในจุดที่ DeepSeek 4.0 หรือ Kimi 2.7 มักแกว่งหรือพลาด แต่ ลูกเล่นเชิงโวหารแบบภาษาพูดเริ่มชวนรำคาญขึ้นเรื่อย ๆ และบางครั้งก็ให้ความรู้สึกว่าจงใจพูดกำกวมหรือกั๊กความจริงไว้จนกว่าจะกดถามย้ำ ทำให้เริ่มคิดใหม่เรื่องการสมัครใช้งาน
GLM 5.2 เป็นโมเดลแรกในบรรดาที่เราทดสอบซึ่ง ชัดเจนว่าอยู่ระดับเดียวกับหรือดีกว่า Opus 4.6
อย่างไรก็ตาม ฝั่งเราประเมิน GLM 5.2 และโมเดลจีนส่วนใหญ่ต่ำกว่าเบนช์มาร์กอื่น ๆ อยู่เล็กน้อย เพราะเบนช์มาร์กเหล่านั้นใช้วิธีทดสอบที่เปราะบาง
ดูข้อมูลได้ที่ https://gertlabs.com/rankings
ไม่ค่อยรู้วิธีรันโมเดลพวกนี้เท่าไร แต่สงสัยว่าจุดที่บริษัทขนาดกลางถึงใหญ่จะเริ่มซื้อฮาร์ดแวร์เพื่อเก็บโมเดลไว้ในเครื่องของตัวเองนั้นใกล้แค่ไหน
ถึงจะแพงและเก่งไม่เท่าโมเดลแนวหน้าที่สุด แต่ข้อดีด้าน ความเป็นส่วนตัวและสิทธิ์ในการควบคุม ก็ค่อนข้างมาก
เริ่มจริงจังกันตั้งแต่ช่วง Kimi K2 แต่การซื้อและโฮสต์ฮาร์ดแวร์แบบนั้นต้องใช้เวลา
ไม่ใช่ทุกบริษัทที่อยากส่งความลับทางการค้าไปให้ OpenAI หรือ Anthropic หรือแม้แต่สามารถส่งได้ตามกฎหมาย
ในยุคที่มีโมเดลวิชันดีๆ อย่าง AlexNet ออกมา โดยเฉพาะในงาน OCR บริษัทก็ต้องเลือกระหว่างคลาวด์กับการโฮสต์ GPU เองอยู่แล้ว
สุดท้ายแล้วปัญหาคือ รูปแบบการใช้งาน เพราะการใช้งานจะกระจุกในช่วงเวลางานบางช่วง และนอกเวลานั้น GPU ก็จะว่าง
สำหรับงานที่ไวต่อความหน่วง นี่เป็น trade-off ที่มีมาหลายสิบปี ไม่ใช่ปัญหาเฉพาะของ LLM
คงต้องเป็นบริษัทขนาดกลางที่มุ่งมั่นมากพอสมควร
การค้นหาข้อความจำนวนมหาศาลในการเปิดเผยพยานหลักฐานไม่จำเป็นต้องใช้โมเดลระดับท็อปที่สุด แต่ต้องการการรักษาความลับแบบสมบูรณ์
ใน r/localllama มีทนายจำนวนไม่น้อยที่อวดชุดประกอบ multi-GPU และบังเอิญว่าพวกเขาก็มีงบที่จำเป็นด้วย
มีการบอกว่า “GLM-5.2 อยู่บนพาเรโตฟรอนเทียร์ของต้นทุนต่องานเมื่อเทียบกับระดับสติปัญญา และมีต้นทุนต่องานต่ำที่สุดในบรรดาโมเดลที่มีระดับสติปัญญาใกล้เคียงกัน” แต่ในขณะเดียวกันก็ระบุว่า GLM-5.2 อยู่ที่ประมาณ $0.46 ต่องาน ขณะที่ GLM-5.1 คือ $0.25, Kimi K2.6 คือ $0.31, MiniMax-M3 คือ $0.18, DeepSeek V4 Pro max คือ $0.05 เลยรู้สึกเหมือนว่าตัวเองพลาดอะไรไปหรือเปล่า
แทนที่จะเลือกโมเดลอื่นที่ใกล้กับ 5.2 ในตัวชี้วัดด้านสติปัญญา ดูเหมือนจะไปเลือกโมเดลเปิดที่ต่ำกว่าหลายตัวมาแทน
ต้นทุนการอนุมานควรวัดจากจำนวนพารามิเตอร์รวมและพารามิเตอร์ที่ถูกใช้งานจริง ซึ่งเป็นตัวชี้วัดที่ดีกว่า
เห็น Mythos แล้วเลยเพิ่ม GLM 5.2 เข้าไปในเบนช์มาร์กที่อิงบั๊ก ปรากฏว่าดีกว่า GLM 5.1 แต่ก็ยังตามหลังหลายโมเดลอยู่ และถ้าจะเทียบกันตรงที่สุดก็น่าจะเทียบกับ Qwen 3.7 Max
โมเดลเปิดขนาดเล็กที่โฮสต์เองได้อย่าง Gemma 4 และ Qwen 3.6 ก็หาเจอบั๊กได้เท่ากันคือ 3 จาก 9 จุด ส่วน GLM 5.2 ระบุตำแหน่งของบั๊กหนึ่งจุดได้ถูก แต่เข้าใจตัวบั๊กเองคลาดเคลื่อนไปเล็กน้อย เลยได้เพียงคะแนนบางส่วน
Kimi K2.7-code ที่เพิ่มเข้าไปในการรันเดียวกันก็ยังทำผลงานได้ไม่ดีอย่างสม่ำเสมอเหมือน 2.6 และสำหรับเบนช์มาร์กนี้โดยเฉพาะ ก็มีโมเดลที่ดีกว่าและถูกกว่านี้อยู่
https://swelljoe.com/post/will-it-mythos/
เบนช์มาร์กเล็กๆ นี้ไม่ได้พิสูจน์อะไรเป็นพิเศษ แต่ก็มีประโยชน์ในการประเมินอย่างรวดเร็วว่าโมเดลสามารถใช้เหตุผลกับปัญหาที่ค่อนข้างซับซ้อนในโค้ดได้หรือไม่