GLM 5.2 เทียบกับ Opus

(techstackups.com)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อให้สร้าง เกมแพลตฟอร์ม 3D ด้วย raw WebGL จาก one-shot prompt เดียวกัน Opus ให้ผลลัพธ์ที่เร็วกว่าและสมบูรณ์กว่ามาก ขณะที่ GLM-5.2 มีข้อได้เปรียบด้านต้นทุนต่ำและเป็นโมเดล open weights
GLM-5.2 เป็นโมเดล open weights ภายใต้ไลเซนส์ MIT ของ Z.ai พร้อมคอนเท็กซ์ 1M โทเค็นและระดับการคิด High/Max แต่เป็นโมเดลข้อความล้วน จึงมีข้อจำกัดในการตรวจสอบตัวเองด้วยภาพ
ค่าใช้จ่ายจริงในการทดสอบคือ GLM-5.2 อยู่ที่ $5.39 ส่วน Opus ราว $21.92 โดยใช้เวลาสร้าง 1 ชั่วโมง 10 นาที 40 วินาที และ 33 นาที 30 วินาทีตามลำดับ ทำให้ต้องเลือกระหว่างความเร็วกับต้นทุน
ผลลัพธ์ของ GLM-5.2 มีปัญหาพื้นฐานอย่างเท็กซ์เจอร์หาย สไปก์ใช้งานไม่ได้ ไม่มีเงื่อนไขชนะเกม และยังมีดีบักโอเวอร์เลย์ค้างอยู่ ส่วน Opus สะอาดกว่า แต่ยังมีปัญหาการ判定บนแท่นลอยบางจุดและทริกเกอร์ชนะที่ไกลเกินไป
ทั้งในเบนช์มาร์กและการประเมินภายนอก GLM-5.2 ดูเป็นโมเดล open weights ที่แข็งแกร่ง แต่ในงานโค้ดดิ้งและงานเอเจนต์หลายประเภท Opus ยังนำอยู่ โดย ต้นทุน ความเปิดกว้าง และการตัดสินจากภาพ เป็นเกณฑ์หลักในการเลือก

ความแตกต่างที่เห็นจากโจทย์เดียวกัน

GLM-5.2 เป็นตัวอย่างล่าสุดที่แสดงศักยภาพของโมเดลเปิด แต่ในโจทย์ใช้งานจริงแบบเดียวกัน Claude Opus 4.8 ให้ผลลัพธ์ที่เร็วกว่าและแม่นยำกว่า
การทดสอบใช้วิธีให้ทั้งสองโมเดลรับ one-shot prompt เดียวกัน แล้วสร้าง เกมแพลตฟอร์ม 3D สำหรับเบราว์เซอร์ ด้วย raw WebGL ตั้งแต่ศูนย์ โดยไม่ใช้เกมเอนจินหรือไลบรารีเรนเดอร์ 3D อย่าง Three.js
มีการเปิดเผยทั้งผลงานและซอร์สโค้ดของทั้งสองผลลัพธ์
ทั้งสองเกมใช้แอสเซ็ตฟรีแบบ CC0 จาก Kenney Platformer Kit

ลักษณะและแนวทางของ GLM-5.2

GLM-5.2 คือโมเดลเรือธงล่าสุดของ Z.ai และเปิดให้ใช้งานแบบ open weights ภายใต้ไลเซนส์ MIT
- ดาวน์โหลดไปรันเองได้ หรือเรียกผ่าน Z.ai API ก็ได้
- มีการปล่อย weights บน Hugging Face และ ModelScope โดยไม่มีข้อจำกัดตามภูมิภาค
- สามารถเสิร์ฟแบบโลคัลได้ด้วยเฟรมเวิร์กอย่าง vLLM, SGLang และ Transformers
โมเดลนี้มุ่งเป้าไปที่ งานระยะยาว อย่างงานเอเจนต์เขียนโค้ดหลายขั้นตอนที่ใช้เวลานาน
- รองรับหน้าต่างคอนเท็กซ์ 1M โทเค็น
- มีระดับการคิด High และ Max โดยการทดสอบนี้ใช้ระดับ High
ข้อจำกัดสำคัญคือเป็นโมเดล ข้อความล้วน
- GLM-5.2 อ่านภาพไม่ได้
- เวิร์กโฟลว์ที่ต้องดูสกรีนช็อตหรือไดอะแกรมโดยตรงจึงต้องพึ่งโมเดลมัลติโหมดอย่าง Claude Opus

ราคาและต้นทุนการรัน

ตามเอกสารของผู้ให้บริการ ราคาต่อ 1M โทเค็นของ GLM-5.2 ต่ำกว่า Opus
- Claude Opus 4.8: อินพุต $5, cache read $0.50, เอาต์พุต $25
- GLM-5.2: อินพุต $1.4, cache read $0.26, เอาต์พุต $4.4
หากดูเฉพาะโทเค็นเอาต์พุต GLM-5.2 มีราคาต่ำกว่า Opus มากกว่า 5 เท่า
แต่ในการทดสอบสร้างเกมจริง ความเร็วกับต้นทุนกลับสวนทางกัน

ตัวชี้วัด	GLM-5.2 (Pi/OpenRouter)	Opus (Claude Code)
เวลาสร้างจริงตามนาฬิกา	1 ชั่วโมง 10 นาที 40 วินาที	33 นาที 30 วินาที
โทเค็นเอาต์พุต	131,000	216,809
การใช้คอนเท็กซ์สูงสุด	16% ของ 1M	19% ของ 1M
การเรียกใช้เครื่องมือ	128	153
ต้นทุน	$5.39 ที่ถูกเรียกเก็บจริง	ราว $21.92 โดยประมาณ

Opus ใช้เวลาเพียงประมาณครึ่งหนึ่ง ขณะที่ GLM-5.2 ทำงานเสร็จด้วยต้นทุนที่ต่ำกว่ามาก

โจทย์ทดสอบ: เกมแพลตฟอร์ม 3D ด้วย raw WebGL

โจทย์นี้มีโครงสร้างซับซ้อนกว่าการสร้างหน้า landing page ธรรมดา
- ตัวแยกวิเคราะห์โมเดล GLB
- คณิตศาสตร์เมทริกซ์และเวกเตอร์
- GLSL shader
- แอนิเมชันกระดูกแบบ skinned
- ลูป fixed timestep
- การจัดการการชน
- กล้องติดตาม
ทั้งสองโมเดลได้รับ prompt เดียวกัน แอสเซ็ตเดียวกัน และให้ลองเพียงครั้งเดียวโดยไม่มีคำใบ้
เงื่อนไขของงานที่ต้องทำให้สำเร็จมีดังนี้
- เอนจิน 3D และ renderer แบบ raw WebGL
- ตัวโหลดโมเดลตัวละคร 3D และโมเดลโลกที่ให้มา
- การเคลื่อนที่และการกระโดดของตัวละครพร้อมแรงโน้มถ่วงและการชน
- กล้องติดตามและการควบคุมด้วยคีย์บอร์ด
- เกมที่รันได้ในเบราว์เซอร์ด้วยคำสั่งเดียว
ทั้งสองโมเดลต่างลงมือเขียนตัวแยกวิเคราะห์ GLB แบบไบนารี คณิตศาสตร์เมทริกซ์/ควอเทอร์เนียน WebGL2 renderer, GLSL skinned shader และการชนแบบ substep AABB เองเป็นส่วนใหญ่
มีการเปิดเผยบันทึกการสร้างด้วย
- Opus build transcript
- GLM-5.2 build transcript

ผลการเล่นและบั๊กที่ยังเหลือ

ทั้งสองเกมมีรูปแบบเป็นเกมแพลตฟอร์ม 3D มุมมองบุคคลที่สาม
- ใช้ WASD หรือปุ่มลูกศรในการเคลื่อนที่
- กด Space เพื่อกระโดด
- กด Shift เพื่อวิ่ง
- ลากเมาส์เพื่อหมุนกล้อง
- ใช้วงล้อเมาส์เพื่อซูม
- มีเป้าหมายให้เก็บเหรียญ หลบสไปก์ และไปถึงธง
- หากตกนอกแผนที่จะกลับไปยังจุดเริ่มต้น
ผลลัพธ์ของ GLM-5.2
- เกมของ GLM-5.2 โดยรวมมี ความเนี้ยบค่อนข้างหยาบ
- วัสดุบางส่วนของตัวละครหายไป และตัวละครเดินโดยหันสวนกับทิศทางการเคลื่อนที่
- กับดักสไปก์ไม่ทำให้ตัวละครตายหรือรีเซ็ต และเมื่อไปถึงธงก็ไม่เกิดเงื่อนไขชนะ
- เมื่อกล้องเคลื่อน หัวของตัวละครหายไป และยังมีดีบักโอเวอร์เลย์ค้างอยู่
- ส่วนที่เหยียบสปริงแล้วตัวละครเด้งขึ้นไปยังแพลตฟอร์มถัดไปทำงานได้ดี
- โมเดลของ Kenney อ้างอิงพาเลตสีร่วมจากไฟล์แยกต่างหาก แต่ renderer ของ GLM-5.2 ไม่โหลดไฟล์นี้ จึงแทนที่ด้วย สีแบนเรียบ
ผลลัพธ์ของ Opus
- เกมของ Opus สะอาดกว่าและทำงานได้ดีกว่า
- กล้องและคอนโทรลเลอร์ทำงานได้ และลอจิกที่ให้สไปก์ฆ่าผู้เล่นก็ทำงานถูกต้อง
- เท็กซ์เจอร์ถูกใช้ได้ถูกต้อง แอนิเมชันลื่นไหล และเมื่อไปถึงธงก็ชนะได้
- บั๊กที่เหลือใกล้เคียงกับ เคสขอบ มากกว่าจะเป็นฟังก์ชันพื้นฐานที่พัง
- ตัวละครสามารถยืนลอยข้างแพลตฟอร์มได้ชั่วครู่ ซึ่งเกิดจากการตั้งเวลา coyote-time ที่ยอมให้กระโดดได้หลังพ้นขอบนานเกินไป
- เงื่อนไขชนะยังทำงานแม้อยู่ห่างจากธงพอสมควร

ความต่างของมัลติโหมดที่แยกกันชัดในขั้นตรวจสอบตัวเอง

ทั้งสองโมเดลได้รับคำสั่งให้ตรวจสอบผลลัพธ์ก่อนจบงาน
Opus เป็นโมเดลมัลติโหมด จึงสามารถเรนเดอร์เกมแล้ว ตรวจดูสกรีนช็อตโดยตรง
- มันเห็นตัวบ่งชี้ดีบักที่ยังค้างบนหน้าจอและลบออกก่อนปิดงาน
- ในฉากสุดท้าย มันตรวจสอบบล็อก บันได เหรียญ อัญมณี สไปก์ ธง ตัวละคร คะแนน HUD แสง และเรขาคณิต
GLM-5.2 อ่านภาพไม่ได้ จึงไม่สามารถดูสกรีนช็อตโดยตรง
- จึงใช้วิธีอ้อมโดยอ่านข้อมูลพิกเซลดิบและตรวจว่าค่าสีใกล้เคียงค่าที่คาดไว้หรือไม่
- มันตรวจเงื่อนไขสีในภาพที่บันทึกไว้ เช่น grass green, dirt brown, coin gold, flag red, character bluish, half-Lambert lit, no black
วิธีนี้ทำให้พลาดปัญหาที่ปรากฏจริงบนหน้าจอ
- ตัวละครดูเป็นสีเทาและอยู่ในสภาพเท็กซ์เจอร์หาย
- ดีบักโอเวอร์เลย์ยังคงค้างอยู่บนหน้าจอ
ในงานที่ผลลัพธ์เชิงภาพมีความสำคัญ การตรวจสอบแบบมัลติโหมด ที่เข้าใจภาพได้จึงแปรไปเป็นความต่างของคุณภาพจริง

ตำแหน่งที่เห็นจากเบนช์มาร์ก

ในเบนช์มาร์กบน model card ของ Z.ai, GLM-5.2 อยู่ใกล้กับโมเดลปิดระดับท็อปในหลายรายการ และในบางเบนช์มาร์กด้านการให้เหตุผลก็ทำได้ดีกว่า
ตัวเลขหลักมีดังนี้
- HLE: GLM-5.2 40.5, Opus 4.8 49.8
- HLE with tools: GLM-5.2 54.7, Opus 4.8 57.9
- AIME 2026: GLM-5.2 99.2, Opus 4.8 95.7
- IMOAnswerBench: GLM-5.2 91.0, Opus 4.8 83.5
- SWE-bench Pro: GLM-5.2 62.1, Opus 4.8 69.2
- NL2Repo: GLM-5.2 48.9, Opus 4.8 69.7
- ProgramBench: GLM-5.2 63.7, Opus 4.8 71.9
- SWE-Marathon: GLM-5.2 13.0, Opus 4.8 26.0
- MCP-Atlas public: GLM-5.2 76.8, Opus 4.8 77.8
- Tool-Decathlon: GLM-5.2 48.2, Opus 4.8 59.9
ผลรันอิสระของ ArtificialAnalysis ก็ประเมิน GLM-5.2 ว่าเป็นโมเดล open weights ที่แข็งแกร่ง
- คะแนน Intelligence Index v4.1 อยู่ที่ 51
- สูงกว่า MiniMax-M3 44, DeepSeek V4 Pro 44 และ Kimi K2.6 43
- TerminalBench v2.1 ได้ 78% โดยใช้ harness คนละชุดกับตัวเลข 81 หรือ 82.7 ใน model card
- จำนวนโทเค็นเอาต์พุตต่อหนึ่งงานอยู่ที่ราว 43k มากกว่า 26k ของ GLM-5.1
ภาพรวมของเบนช์มาร์กสอดคล้องกับการทดสอบใช้งานจริง
- GLM-5.2 อยู่ในกลุ่มนำของโมเดล open weights และยังมีความสามารถในการให้เหตุผลที่แข่งขันได้ในบางด้าน
- Opus นำหน้าในเบนช์มาร์กสายโค้ดดิ้งและเอเจนต์จำนวนมาก

ปฏิกิริยาจากภายนอก

Simon Willison ประเมิน GLM-5.2 ว่าเป็น “LLM แบบ open weights ที่ทรงพลังที่สุดในสายข้อความล้วนเท่าที่เคยมีมา”
- ในการทดสอบ SVG ของเขา GLM-5.2 สร้างภาพนกกระทุงขี่จักรยานแบบแอนิเมชันเต็มรูปแบบได้โดยไม่มีส่วนที่พัง
- แต่การทดสอบตัวโอพอสซัมขี่สกู๊ตเตอร์กลับออกมาแย่กว่า GLM-5.1 ก่อนหน้า จึงสะท้อนว่าประสิทธิภาพยังไม่สม่ำเสมอ
Artificial Analysis ประเมิน GLM-5.2 ให้เป็น โมเดล open weights อันดับนำ ใน Intelligence Index ของตน
- มองว่าเป็นโมเดลที่ถูกที่สุดในระดับเดียวกัน และอยู่บนเส้นพรมแดนด้านความคุ้มค่าระหว่างต้นทุนกับความฉลาด
- แต่ก็ระบุว่าเป็นโมเดลที่กินโทเค็นมาก โดยใช้เอาต์พุตราว 43k ต่อหนึ่งงาน
Nathan Lambert มองว่าจากลีดเดอร์บอร์ด LMArena แล้ว GLM-5.2 อาจถือเป็นเอเจนต์ที่ดีกว่า Gemini ได้ด้วยซ้ำ และสำหรับโมเดลเปิดภายใต้ไลเซนส์ MIT นี่ถือเป็น “serious accomplishment”
- เขาย้ำว่าโมเดลสหรัฐระดับท็อปยังคงนำโดยรวมอยู่ แต่สถาบันวิจัยจากจีนกำลังไปถึงคะแนนสูงได้ด้วยคอมพิวต์ที่น้อยกว่า

ควรเลือกโมเดลไหน

GLM-5.2 เป็นโมเดล open weights ที่ให้สมรรถนะสูงด้วยต้นทุนเพียงบางส่วนของราคา Opus
- เหมาะเมื่อให้ความสำคัญกับต้นทุนและความเปิดกว้าง และงานส่วนใหญ่เน้นข้อความกับตรรกะ
- weights ที่ดาวน์โหลดได้จะไม่ถูกปลดระวางหรือจำกัดการเข้าถึงแบบฉับพลันเหมือนโมเดลปิด
Opus ให้ผลลัพธ์ที่เร็วกว่า สะอาดกว่า และแม่นยำกว่าจากการทดสอบนี้
- สามารถมองเห็นและตรวจสอบผลลัพธ์เชิงภาพได้โดยตรง
- เหมาะกับงานที่ความแม่นยำ ความเนี้ยบ และการตัดสินจากภาพสำคัญ และยอมรับต้นทุนที่สูงกว่าได้
GLM-5.2 จึงดูเหมาะจะเป็นโมเดลเสริมที่ทรงพลัง ราคาถูก และเข้าถึงได้เสมอ มากกว่าจะเป็นโมเดลหลักที่มาแทน Opus

1 ความคิดเห็น

GN⁺ 4 시간 전

ความเห็นจาก Hacker News

ไม่เข้าใจจริง ๆ ว่าทำไม one-shot prompting ถึงกลายเป็นเรื่องใหญ่ขนาดนี้
ตามนิยามแล้ว พรอมป์เดียวไม่สามารถบรรจุความซับซ้อนของโปรเจ็กต์ซอฟต์แวร์ได้ทั้งหมดอยู่แล้ว สุดท้ายโมเดลก็แค่ตั้งสมมติฐานหลายอย่างจากโค้ดที่มีอยู่ในชุดข้อมูลฝึกแล้วให้ผลลัพธ์ออกมา
ถ้าให้เลือก อยากเห็น coding agent ที่ทำตาม ขั้นตอนในไฟล์แผนงาน อย่างแม่นยำ พร้อมยึด guardrail ของสเปกที่มีคนตรวจทานแล้วและ coding convention มากกว่า และก็ควรตรวจสอบด้วยว่า agent loop จะไม่หลุดออกนอก guardrail และไม่แกว่งไปมาจนกว่าจะทำเป้าหมายที่มนุษย์กำหนดไว้สำเร็จ
อีกทั้งความสามารถในการเข้าใจบริบทของ use case ที่กำลังสร้าง ค้นหาบั๊กหรือโอกาสในการปรับปรุงประสิทธิภาพในโค้ดเดิม และเสนอการรีแฟกเตอร์ ก็เป็นตัวชี้วัดที่มีคุณค่ากว่ามาก
- ในแง่ที่ว่าการทดลองนี้พยายามดูว่าโมเดลสามารถสร้างผลลัพธ์ที่ถูกประเมินแบบอัตวิสัยว่า ดี ได้หรือไม่ แม้จะมีสเปกที่ค่อนข้างกำกวมและเปิดกว้าง ก็ถือว่าน่าสนใจ
  มันใกล้เคียงกับการดูว่าผลลัพธ์มีความสอดคล้องกันภายในหรือไม่ มากกว่าจะเป็นเบนช์มาร์กที่ตรวจว่าเอาต์พุตตรงกับอินพุตหรือเปล่า ถ้าเป็นเกมก็ประมาณว่าดูว่าเมื่อถึงเป้าหมายแล้วเกมจบไหม แตะหนามแล้วตายไหม และมีเคสขอบแปลก ๆ ตอนเคลื่อนไหวหรือไม่
  แต่ก็คิดว่าควรใช้ environment เดิมแล้วทำการทดลองซ้ำหลาย ๆ ครั้งเพื่อดูความแปรปรวนของผลลัพธ์ด้วย
- ปัญหาไม่ได้อยู่ที่ one-shot เอง แต่เป็นสถานการณ์แบบ greenfield ที่เริ่มจากโปรเจ็กต์ว่างเปล่า
  สมัยก่อนชอบแซววิศวกรที่ลอง framework จาก README บนโปรเจ็กต์ว่าง แล้วก็บอกว่า “framework นี้ดีที่สุดสำหรับ production app อายุ 10 ปีของเรา” วิธีคิดแบบ greenfield เป็นทั้งคำตอบของทุกปัญหา และเป็นปัญหาของทุกคำตอบ
  ความสามารถแบบ one-shot ก็ยังเป็นตัวชี้วัด self-measurement ที่สำคัญและควรวัดอยู่ดี แต่ควรวัดกับ codebase ขนาดใหญ่ ที่ใช้งานจริงแล้ว
- ตอนนี้ยังไม่มีใครพยายามทำงานจริงจังด้วย one-shot ทันทีหรอก แต่ก็ยังเป็นตัวชี้วัดที่สำคัญ
  ที่ Claude Code กับ Opus ถูกพูดถึงมาก ก็เพราะ execution environment ดีขึ้นจนสามารถแก้ความผิดพลาดจำนวนมากได้เองโดยไม่ต้องให้ผู้ใช้ป้อนข้อมูลเพิ่ม ในระยะยาวคิดว่าการพัฒนาใหญ่ที่สุดน่าจะมาจากความสามารถในการทำงานอัตโนมัติเป็นเวลาหลายชั่วโมงและการแก้ไขตัวเอง
- one-shot มีคุณค่าพอที่จะทดสอบ แต่จะมีความหมายก็ต่อเมื่อเป็น พรอมป์ขนาดใหญ่มาก อย่าง “สร้างสิ่งนี้ตามสเปกนี้” เท่านั้น
  ถ้าใช้อินพุตไม่กี่โทเค็นแล้วให้สร้างผลลัพธ์เป็นล้านโทเค็น ผมมองว่ามันสื่อความหมายได้ไม่มาก
- ถ้าโมเดลสามารถรับคำสั่งที่ซับซ้อนขึ้นเรื่อย ๆ และตอบโจทย์ความต้องการได้โดยไม่ต้องมีมนุษย์แทรกแซง ก็สามารถตัดสินสมรรถนะโดยรวมได้ค่อนข้างง่าย
  ถ้าจะประเมินโมเดลที่ดีกว่าเดิม ก็แค่เพิ่ม requirement เข้าไปในงานนั้น คิดว่าเป็นวิธีที่มีประโยชน์ แม้อาจไม่ใช่ use case ที่สมจริงนัก
  แน่นอนว่าถ้ามีวิศวกรซอฟต์แวร์คอยบังคับ โมเดลจะให้ผลลัพธ์ที่ดีกว่ามากได้ และก็อาจแย่ลงได้เหมือนกัน ขึ้นอยู่กับวิศวกร
การรันแบบ one-shot เดี่ยวในทำนองว่า “เอาพรอมป์ one-shot เดียวกันไปดวล Claude Opus 4.8 แบบตัวต่อตัว: สร้างเกมแพลตฟอร์ม 3D ด้วย WebGL แบบดิบ ๆ ตั้งแต่ศูนย์” นั้น ไม่ใช่ เบนช์มาร์ก และก็ไม่ได้เป็นตัวแทนการใช้งานจริง
การใช้งาน agent ส่วนใหญ่เป็นแบบร่วมมือกัน ดังนั้นควรทดสอบทั้ง ความน่าเชื่อถือ เช่น มอบหมายงานแล้วมันทำเสร็จโดยไม่กุผลทดสอบ และความสามารถในการควบคุม ว่ามันทำตามคำสั่งของฉันหรือทำไปตามความคิดของตัวเอง
- ผมเป็นคนเขียนเองและเห็นด้วยเต็มที่ ครั้งนี้ทำเป็น vibe test ไม่ใช่เบนช์มาร์ก และผมก็แยก list ของเบนช์มาร์กจริงไว้อีกต่างหาก
  การทดสอบนี้แสดงให้เห็นว่าเมื่อให้ทั้งสองโมเดลทำงาน one-shot ที่กินเวลานานและยากในเชิงเทคนิค พวกมันทำอะไรได้บ้าง
  รูปแบบที่ดูเรื่องการทำงานร่วมกัน การมอบหมายงาน การทำให้เสร็จ การพัฒนาแบบ test-driven และความสามารถในการควบคุม เป็นการทดสอบที่ดีและควรลองในอนาคต
- ในทางกลับกัน ผมเพิ่งเอา GPT 5.5 ไปต่อกับ Raspberry Pi agent แล้วปล่อยให้ทำงานระยะยาวที่นิยามชัดเจนข้ามคืน ตอนนี้รันมาแล้วราว 10 ชั่วโมงและเกือบเสร็จแล้ว use case แบบนี้ก็ใช้ได้เหมือนกัน
  พอมาคิดดู งาน agent ที่ผมทำส่วนใหญ่ก็คือ sub-agent ที่รันด้วยพรอมป์ของตัวเองอยู่ใน main session และสิ่งเหล่านี้ก็มองได้ว่าเป็นเวอร์ชันสั้นของงานอัตโนมัติเต็มรูปแบบ
- เพราะงั้นควรดูผสมกันทั้งเบนช์มาร์กทางการ การวิเคราะห์ยาว ๆ แบบเทียบข้างกัน และการประเมินจากหลายคนที่เราเชื่อถือ
  ในบทความก็พูดถึงเรื่องพวกนี้ และไม่ได้ตั้งใจให้สิ่งนี้เป็นเบนช์มาร์กอย่างเป็นทางการอยู่แล้ว เบนช์มาร์กทางการมีมากพอแล้ว
Anthropic โยน 529 Overloaded มาเรื่อย ๆ เลยไปสมัคร GLM 5.2 มาใช้เมื่อวาน
ชอบนะ แต่แค่เซสชันเดียวที่ใส่พรอมป์ 2 ครั้งบน xhigh ของ GLM 5.2 ก็กินโควตาไป 22% ของ light plan ในหน้าต่างรีเซ็ต 5 ชั่วโมงแล้ว
ผลลัพธ์น่าพอใจและคุณภาพก็ดี อยากใช้ทั้งสองตัว เลยอยากให้มี แพ็กเกจสมัครสมาชิกแบบรวม ที่ใช้ Anthropic กับ GLM ได้ด้วยกัน
จากที่ลองใช้ GLM 5.2 กับบางโปรเจ็กต์ ความรู้สึกคือมันใช้เวลาค่อนข้างนานกว่าจะเริ่มเขียนโค้ด และไม่ใช่โมเดลที่เร็วเลย
ช่วงสำรวจและวางแผนมันออกนอกทางบ่อย แต่หลังจากนั้นก็ดึงกลับมาได้ และควบคุมไม่ง่ายนัก เพราะชอบหลอนสิ่งที่ตัวเองจะไม่ทำตามในภายหลัง ถึงอย่างนั้นคุณภาพของผลลัพธ์ก็ค่อนข้างดี
อย่างเช่นผมเคย optimize rendering ใน codebase ที่เป็น Swift+Zig แล้วติดคอขวดอยู่ที่ข้อมูล 5,000 รายการ GLM 5.2 ใช้เวลา 20 นาทีในการสร้างเบนช์มาร์กและดึงข้อมูลออกมา ผมหงุดหงิดเลยปิดสิทธิ์เข้าถึงเครื่องมืออื่นนอกจากการแก้ไขแล้วเดินออกไป ประมาณ 30 นาทีต่อมากลับมา มันก็ optimize คอขวด 3 จุดไว้แล้วโดยอิงจากเบนช์มาร์กที่ทำไว้กับ “ข้อสรุป” บางอย่าง และยังบอกด้วยว่าต้องการข้อมูลเพิ่มเพราะยังยืนยันข้อสงสัยไม่ได้
งานที่ทำใช้งานได้ดี เป็นไปตามแนวทางของภาษา และไม่รุกล้ำมากเกินไป พูดได้ด้วยว่ามีความเป็นไปตามแนวปฏิบัติมากกว่าผลลัพธ์ที่ GPT 5.5 สร้างในรีโพเดียวกัน อยากใช้ต่ออีก แต่ GPT มักทำคำขอเดียวกันเสร็จเร็วกว่า 5 เท่า
GLM 5.2 ยังทำให้ผมเตรียมชุดการทำงานที่รันหลายตัวแบบขนานในคอนเทนเนอร์แยกและ JJ workspace ด้วย
- ไม่นานมานี้ผมใช้มันกับงานที่ความสำคัญต่ำ ซึ่งโมเดลอื่นแก้ไม่ได้ และผมก็ไม่อยากเผาโควตา Opus 4.8
  เป็นปัญหาเรื่องดักจับ left click บน macOS menu bar แล้วทำให้ Ctrl+click หรือ right click เปิดเมนูเหมือน left click เดิม แต่ให้ทำงานแบบมีเงื่อนไข
  กลางเซสชันแก้ปัญหาผมสลับโมเดลไปเป็น GLM-5.2 ทั้งที่ไม่ได้ป้อนพรอมป์ใหม่เลย เปลี่ยนระหว่างที่มันกำลังคิดด้วยซ้ำ แล้วไม่กี่นาทีต่อมาปัญหาก็ถูกแก้ ใช้ผ่านโควตาแบบสมัครสมาชิกของ OpenCode Go และปัญหาแนวนี้อาจกินโควตา Opus หมดทั้งหน้าต่าง 5 ชั่วโมง หรือแม้แต่ลิมิตรายสัปดาห์ได้เลย
- อีกอย่างที่ชอบคือสามารถดู trace การอนุมาน ทั้งหมดได้
  เราจะเห็นได้ว่าโมเดลเริ่มหลุดจากเส้นทางเมื่อไร หรือเจอส่วนที่มันค้นพบเองโดยที่เราไม่ได้บอก ก็หยุดแล้วแก้ได้ หรือจะใช้เพื่อเรียนรู้ว่าทำไมมันถึงเลือกแบบนั้นก็ได้ ทำให้ภายหลังต้องตั้งคำถามน้อยลง
ประสบการณ์ของผมก็คล้ายกัน ใช้อยู่บน Pi ซึ่งมันฉลาดและผลลัพธ์ก็ดี แต่กระบวนการกว่าจะไปถึงจุดนั้น ไม่ได้มีประสิทธิภาพนัก
- ราคาก็เป็นปัญหาเหมือนกัน อยากลองใช้ แต่ถ้าถูกกว่า Opus แค่ราว 30% แบบนี้ ขณะที่ยังมีปัญหาเหล่านี้อยู่ ก็คงไม่เลือก
มีข้อความว่า “GLM-5.2 อ่านภาพไม่ได้ เลยเกิดปัญหาตรงนี้ เพราะมันไม่ใช่มัลติโหมดัล ดังนั้นแทนที่จะดูสกรีนช็อต จึงใช้วิธีเขียนสคริปต์อ่านข้อมูลพิกเซลดิบแล้วตรวจว่าสีออกมาใกล้เคียงตามคาดหรือไม่” แต่วิธีที่ดีกว่าคือใช้ https://github.com/openbmb/MiniCPM-V
- ใช่เลย ถ้าให้สิทธิ์เข้าถึง เอเจนต์เฉพาะด้านการมองเห็น แก่ text LLM ปัญหานั้นก็จะแก้ได้
  ถ้าอยากจริง ๆ จะให้มันเรียก Opus มาดูภาพก็ได้ และถึงอย่างนั้นก็น่าจะยังประหยัดค่าใช้จ่าย
สมัคร Ollama เพื่อทดลองโมเดลโอเพนซอร์ส
ตลอด 3 เดือนที่ผ่านมา ยังอยู่ในระดับลองไปเรื่อย ๆ และใช้งานบ้าง แต่ GLM เป็นโมเดลแรกที่ใช้ทุกวันร่วมกับ Claude กับงานเขียนโค้ดจริงจัง ค่อนข้างดีจนใช้โควตา Ollama เต็มทุกวัน
- น่าสนใจ อยากรู้ว่าคุณใช้ GLM กับงานประเภทไหนบ้าง และมีโมเดลอื่นอะไรที่รู้สึกว่ามีประโยชน์ผ่าน Ollama อีก
GLM ใช้ทั้งโทเคนน้อยกว่าและเรียกเครื่องมือน้อยกว่า แต่กลับใช้เวลาทำงานเสร็จนานกว่าสองเท่า
ถ้าเวลาที่เสียไปไม่ใช่ตัวโมเดลเอง ก็สงสัยว่ามันไปอยู่ตรงไหน
เป็นเพราะการเรียกเครื่องมือแต่ละครั้งซับซ้อนกว่าเลยช้าลง หรือเป็นเพราะโมเดลคำนวณต่อโทเคนมากกว่า ทำให้ จำนวนโทเคนต่อวินาที ต่ำกว่า?
- Opus กับ GPT 5.5 เก่งมากในการปรับระดับการคิดและความเข้มของการให้เหตุผลตามลักษณะงาน และรู้สึกว่าโมเดล open weights ยังทำตรงนี้ได้ไม่ดีเท่า
  นอกจากนี้ โมเดล open weights บางตัวอย่าง GLM 5.2 หรือ DeepSeek v4 Pro ก็สร้างโทเคนได้ช้ากว่ามาก เลยส่งผลต่อความหน่วงที่รับรู้ได้ ถึงอย่างนั้นก็เรียก GLM 5.2 ว่าเป็นโมเดลช้าได้ไม่เต็มปาก และตัวอย่างเช่นตอนนี้ใน Notion มันก็เป็นหนึ่งในโมเดลที่เร็วที่สุด
- ปัจจัยที่น่าจะมีผลมากที่สุดอาจเป็น ดาต้าเซ็นเตอร์ ที่รันโมเดลอยู่
  อีกความเป็นไปได้คือ Opus อาจใช้แนวทางอย่าง Mixture of Experts ทำให้ส่วนของโมเดลที่ต้องโหลดเข้าเมมโมรีในแต่ละครั้งเล็กกว่า GLM
- อาจเป็นเรื่องโครงสร้างพื้นฐาน Anthropic น่าจะพร้อมกว่ามาก
GLM 5.2 มีปัญหาใหญ่ข้อหนึ่งที่จำกัดความสำเร็จอย่างมีนัยสำคัญ คือเรื่องความคุ้มค่าของ subscription สำหรับงานโค้ดดิ้ง
ถ้าดูเฉพาะราคา API แล้ว GLM 5.2 ชนะคู่แข่ง แต่การใช้แบบคิดเงินตาม API สำหรับงานโค้ดดิ้งนั้นมีแต่บริษัทใหญ่ ๆ เป็นหลัก และในกลุ่มนี้สินค้ารูปแบบ subscription ที่อุดหนุนราคาอย่างหนักก็กำลังค่อย ๆ หายไป
ขณะเดียวกัน บริษัทเหล่านี้ก็คงไม่ยอมให้พนักงานใช้ API จากจีน
สำหรับบุคคลทั่วไปและทีมเล็ก ๆ subscription สำหรับงานโค้ดของ Z.ai ยังสู้ Anthropic และ OpenAI ไม่ได้ อาจได้ปริมาณการใช้งานใกล้กับ Claude แต่ Codex ให้ปริมาณการใช้งานต่อเงินที่จ่ายมากกว่าอย่างชัดเจน
จะเถียงกันได้ว่า Z.ai ไล่ GPT5.5 และ Opus 4.8 ทันมากแค่ไหน แต่ถ้าอยู่ในโลกที่ทุกอย่างราคาเท่ากันและเลือกได้อิสระ ผมคงไม่เลือก GLM
ดังนั้นคำถามสำคัญคือ สินค้าของ Z.ai จะดีขึ้นแค่ไหนใน GLM 5.3 หรือ 6 และ OpenAI กับ Anthropic จะจำกัดสินค้าปัจจุบันมากแค่ไหนในอนาคตอันใกล้
- ถ้ามองจากนอกสหรัฐฯ ภาพจะต่างออกไป บริษัทในยุโรปถูก Fable พรากไปเพราะมาตรการควบคุมการส่งออกของสหรัฐฯ และก่อนหน้านั้น Anthropic ก็ประกาศว่าจะเก็บข้อมูลไว้ 30 วัน
  การสร้างโครงสร้างพื้นฐานโดยมี AI ที่จะไม่ถูกยึดคืนไปได้ทุกเมื่อเป็นแกนกลาง มีคุณค่าในทันทีสำหรับบริษัทแบบนี้ ประเทศอื่นนอกยุโรปก็อ่อนไหวต่อราคามากกว่า และไม่ได้กลัวการมีความสัมพันธ์กับบริษัทจีนในระดับเดียวกัน
- คนที่ใช้การคิดเงินแบบ API ไม่ได้มีแค่บริษัทใหญ่ แต่รวมถึงคนที่ใช้สภาพแวดล้อมรันของ third-party อย่าง OpenCode ด้วย
  พร้อมกันนั้น ถ้า “บริษัทเหล่านี้จะไม่ยอมให้พนักงานใช้ API จากจีน” ก็ชวนสงสัยว่า Amazon Bedrock ที่ให้บริการ GLM ตั้งเป้ากลุ่มไหนกันแน่
  คนทั่วไปก็น่าจะเลือกผู้ให้บริการสหรัฐฯ ที่ถูกกว่าอย่าง DeepInfra มากกว่า อินพุตแบบแคชของ GLM อยู่ที่ $0.18 ต่อ 1 ล้านโทเคน ขณะที่ Opus อยู่ที่ $0.50 และ Fireworks AI ก็เป็นอีกทางเลือก
- ผมมองว่า subscription สำหรับบุคคลทั่วไปเป็นเหยื่อล่อที่ยอมขาดทุน รายได้จริงมาจาก สัญญาโทเคนระดับองค์กร
  เมื่อพนักงานและนักศึกษาคุ้นชินกับการเขียนโค้ดโดยใช้โทเคนมูลค่าหลายพันดอลลาร์บนแพลน 20 หรือ 100 ดอลลาร์ พวกเขาก็จะผลักดันให้บริษัทเพิ่มงบใช้จ่าย
  การมีโมเดลจีนที่แข่งขันได้อาจไม่ทำให้การใช้จ่ายระดับองค์กรนี้ถูกแทนที่ แต่โมเดลเปิดที่โฮสต์ในสหรัฐฯ หรือ EU อาจทำได้
  การมีอยู่ของ GLM 5.2 ช่วยสร้างเพดานให้กับราคาที่ OpenAI และ Anthropic จะตั้งกับการเข้าถึง API ได้
- เป็นประเด็นสำคัญ ผมคิดว่าโมเดลราคาแบบ API อาจหายไปในที่สุด เหมือนกับการจ่ายเงินให้ MMS ที่หายไปแล้ว มันเป็นโมเดลเก่า
  ผมเดาว่างานส่วนใหญ่น่าจะเกิดขึ้นบน แพลนสำหรับโค้ดดิ้ง
  แต่ก็หงุดหงิดที่แพลนนอกจากจะมีลิมิตการใช้งานแล้วยังจำกัดอย่างอื่นมากเกินไป เข้าใจได้แต่ไม่สะดวก ในทางปฏิบัติดูเหมือนจะมีแค่ Anthropic และอาจรวม Google ที่เข้มงวดจริง ๆ
  Anthropic เคยทำให้คนกลัวด้วยนโยบายที่บอกว่า ถ้ามองว่าการใช้งานไม่ตรงตามข้อกำหนด ก็อาจมาเรียกเก็บตามอัตรา API ย้อนหลังได้ อาจเป็นความกังวลเกินเหตุ แต่ก็ให้ความรู้สึกว่าเขาน่าจะทำจริง เลยทำให้ผมเลี่ยง
- ผมมีบัญชีและยอดคงเหลือใน OpenRouter ก็เลยลองทดสอบ GLM 5.2 แล้วตั้งใจจะไปดู subscription ของ z.ai โดยหวังว่าเงื่อนไขจะดีกว่า
  แต่โครงสร้างพื้นฐานฝั่งนั้นชัดเจนว่าโหลดเกิน จนคำขอแชต 5.2 timeout 100% ถ้าเมื่อไรโครงสร้างพื้นฐานตามประสิทธิภาพโมเดลทัน ค่อยกลับมาลองใหม่ แล้วตอนนั้นถึงจะตัดสินได้ว่าคุ้มกับ subscription ไหม
วันนี้ประหลาดใจที่ GLM-5.2 ทำงานด้านสุนทรียะและงาน UI ได้ดีกว่า GPT-5.5 มาก
ช่วงนี้คงยังใช้ชุด Claude/Codex ผ่าน Conductor ต่อไป แต่เพราะโมเดลนี้เลยไปตั้งค่า OpenCode และดาวน์โหลดแอปเดสก์ท็อป จนวันนี้งานส่วนใหญ่ไปทำที่นั่น
พอเห็นประโยคอย่าง “GLM-5.2 มีค่าใช้จ่ายน้อยกว่ามาก Opus ทำเสร็จในครึ่งเวลาและได้เกมที่เนี้ยบกว่า” ก็รู้สึกถึง สำนวนแบบ LLM ขึ้นมาทันที
เหมือนโมเดลทั้งหมดกำลังลู่เข้าหาสไตล์การเขียนแบบนี้ และถึงประสิทธิภาพจะดีขึ้น ส่วนนี้ก็ดูไม่ค่อยเปลี่ยน
- เป็นฟีดแบ็กที่ดี สำนวนแบบ LLM นี้เป็นปัญหาที่เรากำลังเจอและพยายามปรับปรุงอยู่ตอนนี้

วงการงานเขียนเชิงเทคนิคกำลังได้รับผลกระทบอย่างหนักในตอนนี้ บริษัทต่าง ๆ ต้องการงานให้มากขึ้นในเวลาที่สั้นลง และคุณภาพก็ตกลงมาก ทำให้มีเวลาน้อยลงเรื่อย ๆ ในการขัดเกลาคุณภาพระดับประโยคของงานเขียนในแต่ละวัน
ตอนนี้เรากำลังทำงานอยู่แนวหน้าโดยตรงของการเปลี่ยนแปลงนี้ จึงได้รับผลกระทบมากที่สุด แต่ในขณะเดียวกัน การได้ทดลองกับความเปลี่ยนแปลงก่อนใครก็ทั้งน่าตื่นเต้นและน่าอึดอัดมาก

ดูเหมือนว่าผู้คนจริง ๆ จะเริ่มยอมรับ สำนวนแบบ LLM กันมากขึ้นแล้ว
ใช่ มันน่ารำคาญจริง ๆ ตอนนี้งานเขียนใหม่ประมาณครึ่งหนึ่งฟังดูเหมือนใช้ “เสียง” เดียวกันหมด