1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GLM-5.2 ของ Z ai ทำคะแนนได้ 51 คะแนนใน Artificial Analysis Intelligence Index v4.1 ขึ้นเป็นผู้นำในกลุ่มโมเดลโอเพนเวตส์ และอยู่บน Pareto frontier ในด้านประสิทธิภาพต่อราคา
  • ขนาดโมเดลยังคงเท่าเดิมกับ GLM-5.1 ที่ พารามิเตอร์รวม 744B / พารามิเตอร์ที่แอ็กทีฟ 40B แต่คะแนนสูงขึ้น 11 คะแนน แซง MiniMax-M3, DeepSeek V4 Pro(max) และ Kimi K2.6
  • การปรับปรุงปรากฏในเกือบทุกการประเมิน โดยเฉพาะด้าน การให้เหตุผลทางวิทยาศาสตร์ ที่ CritPt และ HLE เพิ่มขึ้นอย่างชัดเจน
  • ใน GDPval-AA v2 ทำได้ 1524 คะแนน เหนือกว่า MiniMax-M3 และ DeepSeek V4 Pro(max) และอยู่ในระดับใกล้เคียงกับ GPT-5.5(xhigh reasoning)
  • แม้จะใช้ โทเค็นเอาต์พุต 43k ต่อหนึ่งงาน ทำให้ประสิทธิภาพด้านโทเค็นค่อนข้างต่ำ แต่ในกลุ่มโมเดลที่มีระดับสติปัญญาใกล้กัน ต้นทุนต่องานยังอยู่ในกลุ่มที่ต่ำที่สุด

ผู้นำโอเพนเวตส์บน Intelligence Index v4.1

  • GLM-5.2 ทำได้ 51 คะแนนใน Artificial Analysis Intelligence Index v4.1 ขึ้นอันดับ 1 ในกลุ่มโมเดลโอเพนเวตส์
  • คะแนนของโมเดลโอเพนเวตส์หลักมีดังนี้
    • MiniMax-M3: 44
    • DeepSeek V4 Pro(max): 44
    • Kimi K2.6: 43
  • GLM-5.2 มีขนาด พารามิเตอร์รวม 744B / พารามิเตอร์ที่แอ็กทีฟ 40B เท่ากับ GLM-5.1 แต่คะแนนบน Intelligence Index v4.1 สูงกว่า 11 คะแนน

ประสิทธิภาพที่ดีขึ้นในแต่ละการประเมิน

  • GLM-5.2 มีคะแนนเพิ่มขึ้นจาก GLM-5.1 ในการประเมินส่วนใหญ่
  • โดยเฉพาะการประเมินที่เกี่ยวข้องกับ การให้เหตุผลทางวิทยาศาสตร์ ซึ่งดีขึ้นมาก
    • CritPt: +16 คะแนน, 21%
    • HLE: +12 คะแนน, 40%
    • GPQA Diamond: +3 คะแนน, 89%
  • การประเมินอื่น ๆ ก็ปรับดีขึ้นอย่างทั่วถึง
    • AA-LCR: +9 คะแนน, 71%
    • tau3 banking: +15 คะแนน, 27%
    • SciCode: +7 คะแนน, 50%
    • TerminalBench v2.1: +16 คะแนน, 78%

GDPval-AA v2 และความสามารถแบบเอเจนต์

  • GLM-5.2 ทำได้ 1524 คะแนนใน GDPval-AA v2 ซึ่งเป็นตัวชี้วัดความสามารถของเอเจนต์ในโลกจริง
  • เมื่อเทียบในกลุ่มโมเดลโอเพนเวตส์ ถือว่าสูงที่สุด
    • GLM-5.2: 1524
    • MiniMax-M3: 1418
    • DeepSeek V4 Pro(max): 1328
  • ผลลัพธ์นี้อยู่ในระดับใกล้เคียงอย่างมีนัยสำคัญกับ GPT-5.5(xhigh reasoning) ที่ได้ 1514 คะแนน
  • GDPval-AA v2 เปลี่ยนวิธีประเมินจาก GDPval-AA เดิม
    • ตั้งค่าเส้นฐาน Elo เป็น สมรรถนะของมนุษย์ 1000
    • ใช้ คณะผู้ตัดสินแบบหมุนเวียน ของ frontier-model judge
    • เพิ่มลิมิตจำนวนเทิร์นจาก 100 เป็น 250 เพื่อรองรับเส้นทางการทำงานของเอเจนต์ที่ยาวขึ้น

ต้นทุน ราคา และการใช้โทเค็น

  • GLM-5.2 อยู่บน Pareto frontier ในกราฟ Intelligence vs Cost per Task และในกลุ่มโมเดลที่มีระดับสติปัญญาใกล้กัน ต้นทุนต่องานอยู่ในฝั่งที่ต่ำที่สุด
  • ต้นทุนต่องานสูงกว่า GLM-5.1 แต่เมื่อคำนึงถึงคะแนน Intelligence ที่สูงขึ้น ตำแหน่งด้านความคุ้มค่ายังได้เปรียบ
    • GLM-5.2: ประมาณ $0.46
    • GLM-5.1: $0.25
    • Kimi K2.6: $0.31
    • MiniMax-M3: $0.18
    • DeepSeek V4 Pro(max): $0.05
  • ราคา first-party API อยู่ในระดับเดียวกับ GLM-5.1
    • $1.4 ต่อ 1M โทเค็นอินพุต
    • $4.4 ต่อ 1M โทเค็นเอาต์พุต
    • $0.26 ต่อ 1M cache hit token
  • ใช้ โทเค็นเอาต์พุต 43k ต่อหนึ่งงาน ใน Intelligence Index โดยในจำนวนนี้ 37k เป็น reasoning token
  • ปริมาณโทเค็นเอาต์พุตสูงกว่าโมเดลโอเพนเวตส์หลักรุ่นอื่น ๆ
    • GLM-5.1: 26k
    • MiniMax-M3: 24k
    • Kimi K2.6: 35k
    • DeepSeek V4 Pro(max): 37k
  • ในกลุ่มโมเดลโอเพนเวตส์ที่มีระดับสติปัญญาใกล้กัน ประสิทธิภาพด้านโทเค็นค่อนข้างต่ำ และไม่ได้อยู่ในควอดแรนต์ที่น่าสนใจที่สุดบนกราฟ Intelligence vs Output Tokens

รายละเอียดโมเดลและการเข้าถึง

  • ไลเซนส์ของ GLM-5.2 คือ MIT
  • คอนเท็กซ์วินโดว์อยู่ที่ 1M โทเค็น เพิ่มจาก 200K ของ GLM-5.1
  • ใช้งานได้ผ่าน first-party API ของ Z ai และผู้ให้บริการ third-party หลายราย
    • DeepInfra

    • Novita

    • Nebius

    • Parasail

    • Siliconflow

    • GMI Cloud

    • Baseten

      • Fireworks
      • GLM-5.2 ทำได้ 4 คะแนนใน AA-Omniscience Index สูงกว่า 2 คะแนนของ GLM-5.1
      • ความแม่นยำอยู่ที่ 25.1% สูงกว่า 24.2% ของ GLM-5.1
      • hallucination rate อยู่ที่ 28.1% ต่ำกว่า 29.4% ของ GLM-5.1
      • attempt rate อยู่ที่ 47% เท่าเดิม
      • ดูการเปรียบเทียบโมเดลได้ที่ หน้า GLM-5.2 ของ Artificial Analysis

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Hacker News
  • นี่เป็น การก้าวขึ้นอีกขั้น ที่ค่อนข้างดีและดูเหมือนจะเข้าใกล้แนวหน้ามากแล้ว แต่ตอนนี้อยากให้โฟกัสเรื่องประสิทธิภาพของการให้เหตุผลมากขึ้น
    ผมใช้แบบทดสอบที่ให้เขียนไลบรารีประเมินนิพจน์ทางคณิตศาสตร์แบบง่าย ๆ ด้วย Nim สำหรับประเมิน LLM และ GLM 5.2 xhigh ใช้เวลาให้เหตุผลเกิน 15 นาทีและใช้ไปประมาณ 45k โทเคนกว่าจะเขียนไฟล์แรก
    อ้างอิงจาก https://artificialanalysis.ai/#output-tokens GPT 5.5 xhigh ใช้เฉลี่ยรวม 16k โทเคน, high ใช้ 10k, Fable 5 ใช้ 33k, Opus 4.8 ใช้ 41k, และ GLM 5.2 ใช้ 42k ดังนั้น ประสิทธิภาพการให้เหตุผลของ GPT 5.5 จึงเหนือกว่ามาก
    ถ้าคิดเป็นต้นทุนต่อคำขอจริง GLM 5.2 น่าจะถูกกว่า GPT 5.5/Opus 4.8 แต่สำหรับหลายคน ความเร็วก็สำคัญเหมือนกัน

    • GLM 5.2 Max ดูเหมือนจะมีวิธีคิดแบบเดียวกับ Opus 4.8 Max และการใช้ chain of thought กับเอาต์พุตโทเคนก็ใกล้เคียงกันมาก
      ถ้าต้องการการใช้โทเคนที่สมเหตุสมผล ควรรัน GLM 5.2 ที่ระดับ High และสำหรับงานส่วนใหญ่ ต่อให้ลดจาก Max ลงมา High คุณภาพก็แทบไม่ตก ขณะที่การใช้โทเคนลดลง 2~2.5 เท่า
      สุดท้ายแล้ว GLM 5.2 ก็เหมือนน้องชายของ Opus 4.8 ที่ถูกกว่ามาก และถึงขั้นมีมุกว่าคงยากจะเชื่อจริง ๆ ว่าโมเดล Opus ไม่ได้ถูกใช้ในการเทรนเลย
    • มากกว่าจะบอกว่า “เข้าใกล้แนวหน้าแล้ว” ผมว่ามันแซงไปแล้วด้วยซ้ำ
      ส่วนตัวผมใช้ชุด GLM + OpenCode แล้วรู้สึกว่าดีกว่า Claude Code + Opus ที่บริษัทบังคับให้ใช้มาก ทำพลาดแบบมือใหม่สไตล์ StackOverflow น้อยกว่ามาก และทำตามคำสั่งได้ดีกว่า
      ประสบการณ์ใช้งานกับฮาร์เนสก็ดีกว่ามาก เพราะมันไม่เมินการตั้งค่า ไม่ปรับอะไรเองตามใจ และไม่รายงานผิด ทำให้รู้สึกว่าคูเมืองของ Anthropic กำลังหายไปอย่างรวดเร็ว
    • ใน Opus ก็มีปัญหาคล้ายกัน คือคิดนานเกินไปแล้ววนอยู่กับ “เดี๋ยวก่อน ถ้าเกิดว่า...” ซ้ำ ๆ
      สุดท้ายก็ต้องสั่งหยุดแล้วบอกว่า “เริ่มจาก เขียนโค้ดก่อน แล้วค่อยแก้ระหว่างทาง” ให้ความรู้สึกเหมือนอาการตันของนักเขียนมีอยู่ใน LLM ด้วย
    • ทำให้นึกถึง https://en.wikipedia.org/wiki/Portia_(spider)
    • อยากให้ผลงานล่าสุดที่ Moonshot ทำใน Kimi K2.7 Code กระจายไปถึงแล็บโมเดลเปิดอื่น ๆ ด้วย
      ตามข้อมูลของ Artificial Analysis นั้น K2.7 Code มีความฉลาดใกล้เคียง K2.6 แต่ใช้เอาต์พุตโทเคนเพียงครึ่งเดียวเพื่อไปให้ถึงระดับเดียวกัน
  • ผมทำสคริปต์สำหรับจัดอันดับโมเดลตาม codingindex ของ Artificial Analysis แล้วใช้งานทุกวัน
    มันดึง JSON จากหน้าตารางหลักแล้วแยกเฉพาะฟิลด์ด้านโค้ดที่สนใจ เดิมทีเคยมีเมลลิงลิสต์ด้วย แต่เพราะไม่ได้สนใจมากนักเลยปิดไปแล้ว
    ตอนนี้ในผลลัพธ์บางชุด อันดับต้น ๆ มี Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max ฯลฯ และสามารถรันได้ด้วย $ curl day50.dev/art-analysis.sh | bash
    รีโปอยู่ที่ https://github.com/day50-dev/aa-eval-email และตอนนี้โมเดลเปิดยังดูเหมือนตามหลังอยู่ราว 4~7 เดือน แล้วแต่เกณฑ์การวัด แต่ถ้าแนวโน้มนี้ยังไปต่อ ก่อนปีใหม่เราอาจได้เห็นโมเดล open weights ที่ทำงานระดับ Claude Fable 5 ได้

    • ดัชนีโค้ดดิ้ง ของ Artificial Analysis ประกอบด้วยเพียงสองเบนช์มาร์กคือ Terminal-Bench Hard กับ SciCode เลยทำให้น่าสงสัยว่ามันเป็นดัชนีด้านโค้ดที่ดีหรือไม่
      มันจัดให้ Gemma 4 31B สูงกว่า DeepSeek V4 Flash แต่จากที่ผมใช้ทั้งคู่กับงานเขียนโค้ดหลากหลายแบบ ผมจะเลือก DeepSeek ทุกครั้ง
    • เป็นโปรเจกต์ที่เจ๋ง แต่การให้คน รัน Bash ตรง ๆ จากแหล่งที่ไม่รู้จักถือเป็นแนวปฏิบัติที่ค่อนข้างแย่
  • ไม่เข้าใจว่าทำไมคนถึงพูดถึงเรื่องนี้กันไม่มากกว่านี้
    มันให้คุณภาพระดับ Opus 4.7 ได้แทบจะในราคาที่เหลือเชื่อ และยังมีบางที่ให้โทเคนไม่จำกัดในราคา 50 ดอลลาร์ต่อเดือน รวมถึงบางที่คิดค่า API ถูกกว่า ZAI API ทางการถึง 3 เท่า
    แม้แต่ ZAI API ทางการเองก็ยังถูกกว่า Opus ประมาณ 10 เท่า จึงเป็นแรงกระแทกใหญ่ต่อ Anthropic/OpenAI/Google และเป็นชัยชนะใหญ่ของคนที่เหลือในโลกนี้ ส่วนในฝั่งโมเดลเปิดนั้น ไม่ได้มีแค่ราคาและความเร็วของ API ทางการเท่านั้นที่สำคัญ

    • ผมเคยลองใช้โมเดลเปิดจากจีนมาหลายครั้ง แม้จะโอเค แต่ก็ยังไปไม่ถึงระดับเบนช์มาร์กที่อ้างไว้
      GLM 5.2 อาจเข้าใกล้ Opus 4.7 ก็จริง แต่ถ้าทุกครั้งที่เช็กมันยังเป็นแค่ การจูนเพื่อเบนช์มาร์ก และยังไม่ถึงระดับ GPT หรือ Opus ผมก็คงจะเริ่มมองว่าเป็นแนว “เด็กเลี้ยงแกะ”
    • ผู้ให้บริการที่ไม่เป็นทางการต้องระวัง
      หลายเจ้าตั้งค่าโมเดลผิดหรือแอบทำ quantization และอยู่ช่วงหนึ่ง Kimi จาก API ทางการกับผู้ให้บริการ third-party ส่วนใหญ่มีช่องว่างกัน 20~40%
    • ถ้าดูใน OpenRouter สินค้าบางตัวที่ถูกกว่าจะเป็น โมเดลที่ผ่านการ quantize และยังไม่ชัดว่าการ quantize ลดความฉลาดลงมากแค่ไหน
      ผมสงสัยว่าราคา API ที่ถูกกว่า 3 เท่าอยู่ที่ไหน จนไปเจอว่าเรตราคา 8-bit ของ Croft คือ $0.50/$0.08/$2.20
      https://openrouter.ai/z-ai/glm-5.2
      https://ai.nahcrof.com/pricing
    • ตัวเลือกมีมากเกินไปจนสำหรับมนุษย์แล้ว แค่การตามให้ทันก็มีต้นทุนเชิงคำนวณสูง
      แม้แต่การหาวิธีรันโมเดลพวกนี้ก็ยาก ไม่มีตัวติดตั้งให้ และถ้าคุณไม่ใช่ 1% ที่สนใจจริง ๆ ก็จะลงเอยด้วยการหาไกด์แล้วพบว่ามันล้าสมัยไปแล้ว
      เมื่อเทียบกับ “ติดตั้ง Claude Code แล้วจ่ายเดือนละ 100 ดอลลาร์” เส้นโค้งการเรียนรู้มันชันเกินไป และการประหยัด 50 ดอลลาร์ต่อเดือนก็อาจไม่คุ้มกับความพยายามนั้น
    • ในองค์กรของเรา ทุกคน ยึดติดกับ Claude มากเกินไป จนทำเหมือนมันเป็น LLM เพียงตัวเดียว
      เป็นเพราะมันถูกออกแบบมาให้เหมาะกับคนที่ไม่ใช่วิศวกรในองค์กรล้วน ๆ
  • ในเบนช์มาร์กการเขียนโค้ดของ Artificial Analysis นั้น GLM 5.1 high มีความใกล้เคียงกับ GPT 5.5 xhigh พอสมควรในแง่ต้นทุนการรัน ขณะที่ GPT 5.5 medium ถูกกว่ามาก
    ถ้าเทียบกับ GPT 5.5 medium แล้ว GLM 5.1 xhigh มีต้นทุนแพงเป็นสองเท่าแต่ความฉลาดอยู่แค่ราวครึ่งเดียว ดังนั้นต่อให้ยังไม่มี GLM 5.2 ก็ยังมีช่องว่างใหญ่ที่ต้องตามให้ทัน
    https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
    DeepSWE ก็สอดคล้องกับประสบการณ์ส่วนตัวของผม/ฉันดี เลยทำให้สงสัยว่ากระแสฮือฮาบนอินเทอร์เน็ตเกี่ยวกับโมเดลแบบเปิดนั้นสมเหตุสมผลแค่ไหน
    ถ้าต้องการโมเดลที่เข้าใกล้แนวหน้าจริง ๆ ตอนนี้การพูดถึง Opus, Fable และ GPT5.5 ดูจะตรงไปตรงมาที่สุด

    • ในการรันเองของ Z.ai นั้น GLM 5.2 ได้ 46.2 คะแนนบน DeepSWE และอยู่ระหว่าง Opus 4.7 xhigh กับ Opus 4.8 medium
      https://z.ai/blog/glm-5.2
    • ถ้าใช้โมเดลแบบเปิด ก็สามารถได้ การสมัครใช้งานที่คุ้มครองความเป็นส่วนตัวในต้นทุนพอ ๆ กับ Codex
      การสมัครของ OpenAI, Google และ Anthropic ไม่มีตัวเลือกความเป็นส่วนตัวแบบนั้น และจากลิงก์ก็น่าสนใจที่ GPT 5.5 อยู่อันดับ 7 บน Cursor CLI แต่ขยับขึ้นมาเป็นอันดับ 3 บน Codex CLI
      เนื่องจากไม่ได้ทดสอบโมเดลแบบเปิดบน Codex จึงยากจะฟันธงว่าเป็นเบนช์มาร์กของตัวโมเดลล้วน ๆ และอาจเป็นไปได้ว่าโมเดลแบบเปิดอ่อนกับ SWE agent harness แต่ก็ดูไม่ใช่คำอธิบายที่ง่ายที่สุด
    • DeepSWE ให้ความรู้สึกว่าเป็นเบนช์มาร์กที่ “ตรงกว่า” ดัชนีของ Artificial Analysis หรือเบนช์มาร์กเขียนโค้ดอื่น ๆ
      ถ้ามองตามตัวชี้วัดนั้น GPT-5.5 ก็ยังเป็นราชาในด้านประสิทธิภาพต่อโทเค็น ความเร็ว และความฉลาดต่อดอลลาร์
      https://deepswe.datacurve.ai/
      Fable 5 ก็ดี แต่ผม/ฉันยังไม่เห็น GPT-5.6
    • เมื่อวานลองใช้ GLM 5.2 บน OpenRouter แล้ว โดยรวมถือว่าโอเค แต่ระหว่างงานที่ค่อนข้างช้าเป็นเวลา 30 นาที ค่าโทเค็นขึ้นไปถึง 5 ดอลลาร์
      แพงกว่า DeepSeek V4 ได้ง่าย ๆ ถึง 4 เท่า แต่ก็ไม่ได้รู้สึกว่าผลลัพธ์ดีกว่าขนาดนั้น และพอมาตรวจทานทีหลังด้วย GPT 5.5 in Codex ก็ยังมีจุดรก ๆ อยู่มาก
      ถ้ามองเรื่องความคุ้มค่า MiniMax M3 ดูดีกว่า
  • ค่อนข้างน่าแปลกที่ GLM 5.1/5.2 ไม่ใช่โมเดลวิชัน
    สมัยนี้ถือว่าค่อนข้างพบได้น้อย เพราะโมเดลของ OpenAI/Anthropic/Gemini รับภาพได้หมดแล้ว และตระกูลโอเพนเวตหลักอย่าง Gemma 4, Qwen 3.6 และ Kimi 2.x ก็รองรับอินพุตภาพเช่นกัน
    GLM เป็นโมเดลที่ได้คะแนนสูงกับงานอย่างเว็บดีไซน์ ดังนั้นถ้ามีอินพุตภาพก็น่าจะมีประโยชน์สำหรับรับภาพหน้าจอแล้วสร้าง HTML+CSS ออกมา ตรงนี้จึงเป็นช่องโหว่ชัดเจน

    • สามารถตั้งค่า sub-agent ใน coding harness แล้วสำหรับงานแบบนั้นก็เปิด sub-session ใหม่ด้วย โมเดลวิชันตัวไหนก็ได้ จากนั้นค่อยส่งผลกลับเข้าโมเดลหลัก
      ไม่จำเป็นต้องมี “โมเดลเดียวที่ทำได้ทุกอย่าง” เสมอไป
    • ผม/ฉันใช้ Google AI Studio เป็น สะพานวิชันฟรี
      Gemma 31B ทำงานด้านวิชันได้ค่อนข้างดี และวันละ 1500 คำขอก็แทบจะเรียกได้ว่าไม่จำกัดแล้ว
    • มันดูไม่ใช่ช่องโหว่ที่ใหญ่มาก
      อาจมีกรณีใช้งานอย่างงาน UX/UI แต่เรื่องอื่นนอกจากนั้นก็ไม่ค่อยจำเป็น และแม้แต่โมเดลแนวหน้าก็ยังทำซ้ำภาพจริงไม่ได้ ในประสบการณ์ส่วนตัวทำได้แค่ประมาณให้ใกล้เคียง
    • กับ DeepSeek V4 ก็มีปฏิกิริยาแบบเดียวกัน
      ถ้าเป็นโมเดลวิชันก็น่าจะมีประโยชน์มากกว่า
  • ช่วง 24 ชั่วโมงที่ผ่านมา ผม/ฉันใช้โมเดลนี้ไปพอสมควร และยืนยันได้ว่ามันมีความสามารถไม่น้อย
    เพียงแต่ค่อนข้างพูดเยิ่นเย้อเล็กน้อย และในบันทึกการคิดก็เห็นว่ามันทบทวน 3–4 รอบก่อนจะเลือกแนวทาง อีกทั้งความสามารถในการจัดการความต้องการที่ซับซ้อนและเป็นนามธรรมก็ยังไม่ถึงระดับ GPT5.5
    ถึงอย่างนั้นก็ถึงขั้นที่ผม/ฉันแนะนำคนส่วนใหญ่ได้เลยว่าใช้ชุด สมัคร Z.AI + สมัคร OpenAI เดือนละ 20 ดอลลาร์ และเวิร์กโฟลว์แบบให้ GLM เขียนแล้วให้ GPT รีวิว/ดีบัก ก็แย่กว่าการใช้ GPT อย่างเดียวในแพลน 200 ดอลลาร์เพียงเล็กน้อย แต่ให้ความรู้สึกเกือบไม่จำกัด

    • วันนี้เพิ่งรู้ว่าความเข้มการให้เหตุผลพื้นฐานถูกตั้งไว้ที่ max
      ความเยิ่นเย้อน่าจะมาจากตรงนั้น
    • ตอนนี้สิ่งที่ผม/ฉันให้ความสำคัญที่สุดคือโมเดล เขียนได้ดีแค่ไหน
      ถ้าคุณเขียนโปรแกรมได้ ผม/ฉันคิดว่าตอนนี้เรามาถึงจุดที่สามารถให้ข้อมูลกับโมเดลได้มากพอเพื่อให้มันทำงานที่ต้องการแล้ว
      ในทางกลับกัน งานเขียนมีความละเอียดอ่อนของนัยยะมากเกินไป จึงยังยากมากอยู่ แต่ในความเป็นจริงมันก็ดีขึ้นเรื่อย ๆ
    • เวิร์กโฟลว์ของผม/ฉันก็เป็นแบบนี้เหมือนกัน
      วันละครั้งผม/ฉันจะคัดลอกโค้ดไปใส่ Claude Sonnet ฟรี เพื่อทำให้มันอ่านได้จริง
    • หลังจากได้ลอง Fable 5 แล้ว Opus 4.8 ก็รู้สึกว่าไม่เพียงพออีกต่อไป
      จริงอยู่ว่า Opus 4.8 เป็น coding agent ที่แข็งแกร่งกว่า โดยมันทำสำเร็จในจุดที่ DeepSeek 4.0 หรือ Kimi 2.7 มักแกว่งหรือพลาด แต่ ลูกเล่นเชิงโวหารแบบภาษาพูดเริ่มชวนรำคาญขึ้นเรื่อย ๆ และบางครั้งก็ให้ความรู้สึกว่าจงใจพูดกำกวมหรือกั๊กความจริงไว้จนกว่าจะกดถามย้ำ ทำให้เริ่มคิดใหม่เรื่องการสมัครใช้งาน
  • GLM 5.2 เป็นโมเดลแรกในบรรดาที่เราทดสอบซึ่ง ชัดเจนว่าอยู่ระดับเดียวกับหรือดีกว่า Opus 4.6
    อย่างไรก็ตาม ฝั่งเราประเมิน GLM 5.2 และโมเดลจีนส่วนใหญ่ต่ำกว่าเบนช์มาร์กอื่น ๆ อยู่เล็กน้อย เพราะเบนช์มาร์กเหล่านั้นใช้วิธีทดสอบที่เปราะบาง
    ดูข้อมูลได้ที่ https://gertlabs.com/rankings

  • ไม่ค่อยรู้วิธีรันโมเดลพวกนี้เท่าไร แต่สงสัยว่าจุดที่บริษัทขนาดกลางถึงใหญ่จะเริ่มซื้อฮาร์ดแวร์เพื่อเก็บโมเดลไว้ในเครื่องของตัวเองนั้นใกล้แค่ไหน
    ถึงจะแพงและเก่งไม่เท่าโมเดลแนวหน้าที่สุด แต่ข้อดีด้าน ความเป็นส่วนตัวและสิทธิ์ในการควบคุม ก็ค่อนข้างมาก

    • หลายบริษัทในยุโรปทำแบบนั้นมากับโมเดล 70B มาระยะหนึ่งแล้ว และกำลังอัปเกรดฮาร์ดแวร์เพื่อรันโมเดลระดับ 700B~1T ที่เพิ่งออกมา
      เริ่มจริงจังกันตั้งแต่ช่วง Kimi K2 แต่การซื้อและโฮสต์ฮาร์ดแวร์แบบนั้นต้องใช้เวลา
      ไม่ใช่ทุกบริษัทที่อยากส่งความลับทางการค้าไปให้ OpenAI หรือ Anthropic หรือแม้แต่สามารถส่งได้ตามกฎหมาย
    • ไม่ใช่สถานการณ์ใหม่
      ในยุคที่มีโมเดลวิชันดีๆ อย่าง AlexNet ออกมา โดยเฉพาะในงาน OCR บริษัทก็ต้องเลือกระหว่างคลาวด์กับการโฮสต์ GPU เองอยู่แล้ว
      สุดท้ายแล้วปัญหาคือ รูปแบบการใช้งาน เพราะการใช้งานจะกระจุกในช่วงเวลางานบางช่วง และนอกเวลานั้น GPU ก็จะว่าง
      สำหรับงานที่ไวต่อความหน่วง นี่เป็น trade-off ที่มีมาหลายสิบปี ไม่ใช่ปัญหาเฉพาะของ LLM
    • เป็นโมเดลขนาดประมาณ 750B จึงต้องใช้ VRAM มหาศาล
      คงต้องเป็นบริษัทขนาดกลางที่มุ่งมั่นมากพอสมควร
    • จนถึงตอนนี้ กรณีใช้งานหลักที่ต้องการความเป็นส่วนตัวแบบสมบูรณ์ดูเหมือนจะเป็น งานด้านกฎหมาย
      การค้นหาข้อความจำนวนมหาศาลในการเปิดเผยพยานหลักฐานไม่จำเป็นต้องใช้โมเดลระดับท็อปที่สุด แต่ต้องการการรักษาความลับแบบสมบูรณ์
      ใน r/localllama มีทนายจำนวนไม่น้อยที่อวดชุดประกอบ multi-GPU และบังเอิญว่าพวกเขาก็มีงบที่จำเป็นด้วย
    • ถ้าไม่ได้มีข้อกังวลด้านความมั่นคงของชาติจริงๆ การเจรจา สัญญาเชิงพาณิชย์ที่มีการคุ้มครองความเป็นส่วนตัว กับผู้ให้บริการเดิมไม่กี่รายน่าจะดีกว่า
  • มีการบอกว่า “GLM-5.2 อยู่บนพาเรโตฟรอนเทียร์ของต้นทุนต่องานเมื่อเทียบกับระดับสติปัญญา และมีต้นทุนต่องานต่ำที่สุดในบรรดาโมเดลที่มีระดับสติปัญญาใกล้เคียงกัน” แต่ในขณะเดียวกันก็ระบุว่า GLM-5.2 อยู่ที่ประมาณ $0.46 ต่องาน ขณะที่ GLM-5.1 คือ $0.25, Kimi K2.6 คือ $0.31, MiniMax-M3 คือ $0.18, DeepSeek V4 Pro max คือ $0.05 เลยรู้สึกเหมือนว่าตัวเองพลาดอะไรไปหรือเปล่า

    • เหมือนเลือกตัวเปรียบเทียบผิด
      แทนที่จะเลือกโมเดลอื่นที่ใกล้กับ 5.2 ในตัวชี้วัดด้านสติปัญญา ดูเหมือนจะไปเลือกโมเดลเปิดที่ต่ำกว่าหลายตัวมาแทน
    • พาเรโตฟรอนเทียร์ ไม่ได้แปลว่าถูกที่สุด
    • บางโมเดลมีเงินอุดหนุนอยู่มาก
      ต้นทุนการอนุมานควรวัดจากจำนวนพารามิเตอร์รวมและพารามิเตอร์ที่ถูกใช้งานจริง ซึ่งเป็นตัวชี้วัดที่ดีกว่า
  • เห็น Mythos แล้วเลยเพิ่ม GLM 5.2 เข้าไปในเบนช์มาร์กที่อิงบั๊ก ปรากฏว่าดีกว่า GLM 5.1 แต่ก็ยังตามหลังหลายโมเดลอยู่ และถ้าจะเทียบกันตรงที่สุดก็น่าจะเทียบกับ Qwen 3.7 Max
    โมเดลเปิดขนาดเล็กที่โฮสต์เองได้อย่าง Gemma 4 และ Qwen 3.6 ก็หาเจอบั๊กได้เท่ากันคือ 3 จาก 9 จุด ส่วน GLM 5.2 ระบุตำแหน่งของบั๊กหนึ่งจุดได้ถูก แต่เข้าใจตัวบั๊กเองคลาดเคลื่อนไปเล็กน้อย เลยได้เพียงคะแนนบางส่วน
    Kimi K2.7-code ที่เพิ่มเข้าไปในการรันเดียวกันก็ยังทำผลงานได้ไม่ดีอย่างสม่ำเสมอเหมือน 2.6 และสำหรับเบนช์มาร์กนี้โดยเฉพาะ ก็มีโมเดลที่ดีกว่าและถูกกว่านี้อยู่
    https://swelljoe.com/post/will-it-mythos/
    เบนช์มาร์กเล็กๆ นี้ไม่ได้พิสูจน์อะไรเป็นพิเศษ แต่ก็มีประโยชน์ในการประเมินอย่างรวดเร็วว่าโมเดลสามารถใช้เหตุผลกับปัญหาที่ค่อนข้างซับซ้อนในโค้ดได้หรือไม่