- แกลเลอรีออนไลน์ที่รวบรวมแผนผังโครงสร้างและสเปกหลักของ โมเดลภาษาขนาดใหญ่ (LLM) รุ่นล่าสุดไว้ให้ดูได้ในที่เดียว โดยครอบคลุมโมเดลสำคัญที่เปิดเผยในช่วงปี 2024~2026
- แต่ละโมเดลจัดทำในรูปแบบตารางสรุป ขนาดพารามิเตอร์ ประเภทดีโคเดอร์ วิธีการ attention และจุดเด่นด้านการออกแบบ
- เนื้อหาคัดมาจากบทความวิเคราะห์เปรียบเทียบของ Sebastian Raschka ได้แก่ ‘The Big LLM Architecture Comparison’ และ ‘A Dream of Spring for Open-Weight LLMs’
- ผู้ใช้สามารถคลิกชื่อโมเดลเพื่อไปยังคำอธิบายโดยละเอียด หรือคลิกรูปภาพเพื่อขยายดู แผนผังโครงสร้างความละเอียดสูง (182 เมกะพิกเซล)
- ทำหน้าที่เป็น ฐานข้อมูลสถาปัตยกรรมสำหรับใช้อ้างอิง สำหรับนักวิจัยและนักพัฒนาโอเพนเวต LLM โดยสามารถติดตามวิวัฒนาการของสถาปัตยกรรม MoE, Hybrid และ Dense รุ่นล่าสุดได้ในที่เดียว
ภาพรวม
- หน้านี้เป็นแกลเลอรีที่รวบรวม แผนภาพสถาปัตยกรรม LLM และ factsheet โดยคัดเฉพาะแผนภาพจากบทความเปรียบเทียบสำคัญ 2 ชิ้นของ Raschka มาจัดเรียงใหม่
- ที่มาของต้นฉบับ: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- แต่ละรายการของโมเดลประกอบด้วย ชื่อโมเดล จำนวนพารามิเตอร์ วันที่เผยแพร่ ประเภทดีโคเดอร์ วิธีการ attention คุณลักษณะสำคัญของการออกแบบ และลิงก์แนวคิดที่เกี่ยวข้อง
- หากพบข้อมูลผิดพลาดหรือลิงก์เสีย สามารถรายงานผ่าน GitHub issue tracker ได้
- เนื่องจากมีผู้ขอจำนวนมาก จึงมีเวอร์ชัน โปสเตอร์ (PNG 56MB) ความละเอียด 14570×12490 ให้ผ่าน Zazzle ด้วย
ตัวอย่างโมเดลหลัก
Llama 3 8B
- โมเดลแบบ Dense decoder ขนาด 8 พันล้านพารามิเตอร์ ใช้เป็นสแตกอ้างอิงสำหรับเปรียบเทียบตัวเลือกด้าน normalization และ attention ของ OLMo 2
- ใช้ attention แบบ GQA + RoPE และคงโครงสร้าง Pre-norm
- เปิดเผยเมื่อวันที่ 18 เมษายน 2024
OLMo 2 7B
- โมเดล Dense ขนาด 7 พันล้านพารามิเตอร์ ใช้ attention แบบ MHA + QK-Norm
- โครงสร้าง Inside-residual post-norm ช่วยเพิ่มเสถียรภาพในการฝึก
- เปิดเผยเมื่อวันที่ 25 พฤศจิกายน 2024
DeepSeek V3
- โมเดล Sparse MoE ที่มีพารามิเตอร์รวม 671 พันล้าน โดยมีพารามิเตอร์ที่ทำงานจริง 37 พันล้าน
- ผสานโครงสร้าง MLA attention กับ shared expert
- เป็นเทมเพลตสำคัญที่จุดกระแสโมเดล Open MoE ขนาดใหญ่
DeepSeek R1
- เวอร์ชัน เฉพาะทางด้าน reasoning ที่พัฒนาบน DeepSeek V3 โดยคงสถาปัตยกรรมเดิมไว้
- เปิดเผยเมื่อวันที่ 20 มกราคม 2025 ใช้โครงสร้าง Sparse MoE บน MLA
Gemma 3 27B
- โมเดล Dense ขนาด 27 พันล้านพารามิเตอร์ ใช้ GQA + QK-Norm และ sliding window/global attention แบบ 5:1
- จุดเด่นคือการขยายคำศัพท์หลายภาษาและ การเสริม local attention
- เปิดเผยเมื่อวันที่ 11 มีนาคม 2025
การขยายของสถาปัตยกรรม MoE และ Hybrid
Llama 4 Maverick
- โมเดล Sparse MoE ของ Meta ที่อิงจากโครงสร้าง DeepSeek V3 แต่เลือกใช้ attention แบบ GQA ดั้งเดิม
- จากพารามิเตอร์รวม 400 พันล้าน มี 17 พันล้านที่ทำงานจริง
- สลับวางบล็อก Dense และ MoE ลดจำนวน expert แต่ขยายสเกลให้ใหญ่ขึ้น
Qwen3 235B-A22B
- ใช้โครงสร้าง Sparse MoE ที่คล้าย DeepSeek V3 แต่ ตัด shared expert ออก
- จากพารามิเตอร์รวม 235 พันล้าน มี 22 พันล้านที่ทำงานจริง ใช้ GQA + QK-Norm
- เปิดเผยเมื่อวันที่ 28 เมษายน 2025
Kimi K2
- โมเดล Sparse MoE ระดับ 1 ล้านล้านพารามิเตอร์ เป็นการขยายต่อจาก DeepSeek V3
- ใช้ MLA attention พร้อมเพิ่มจำนวน expert และลดจำนวนหัว MLA
- เปิดเผยเมื่อวันที่ 10 กรกฎาคม 2025
GLM-4.5 355B
- โมเดล Sparse MoE ที่มุ่งเน้น agent โดยใช้โครงสร้าง Dense-prefix MoE ของ DeepSeek
- จากพารามิเตอร์รวม 355 พันล้าน มี 32 พันล้านที่ทำงานจริง ใช้ GQA + QK-Norm
- เปิดเผยเมื่อวันที่ 28 กรกฎาคม 2025
GPT-OSS 20B / 120B
- ซีรีส์ Open-weight MoE ของ OpenAI ใช้ sliding window/global cross attention บน GQA
- รุ่น 20B เป็นโครงสร้างตื้นแต่กว้าง ส่วนรุ่น 120B ขยายการออกแบบเดียวกันให้ใหญ่ขึ้น
- เปิดเผยเมื่อวันที่ 4 สิงหาคม 2025
โครงสร้าง Hybrid และโครงสร้างรุ่นถัดไป
Qwen3 Next 80B-A3B
- โมเดล Sparse Hybrid ที่ใช้ attention แบบผสม Gated DeltaNet + Gated Attention
- จากพารามิเตอร์รวม 80 พันล้าน มี 3 พันล้านที่ทำงานจริง รองรับ บริบท 262k
- เปิดเผยเมื่อวันที่ 9 กันยายน 2025
Kimi Linear 48B-A3B
- โครงสร้างไฮบริดที่ผสาน Linear Attention + MLA
- ใช้ NoPE และ gating ระดับช่องสัญญาณ เพื่อเพิ่มประสิทธิภาพกับบริบทยาว
- เปิดเผยเมื่อวันที่ 30 ตุลาคม 2025
Nemotron 3 Nano / Super
- โมเดล Transformer-State-Space Hybrid ของ NVIDIA
- Nano (30B) ใช้ Mamba-2 + MoE ส่วน Super (120B) เพิ่ม LatentMoE + MTP
- เปิดเผยในวันที่ 4 ธันวาคม 2025 และ 11 มีนาคม 2026 ตามลำดับ
Ling 2.5 1T
- โมเดล Sparse Hybrid ขนาด 1 ล้านล้านพารามิเตอร์ ใช้การผสาน Lightning Attention + MLA
- มีพารามิเตอร์ที่ทำงานจริง 63 พันล้าน พร้อมโครงสร้าง attention แบบ linear/MLA ในอัตราส่วน 7:1
- เปิดเผยเมื่อวันที่ 15 กุมภาพันธ์ 2026
โมเดลโอเพนเวตรุ่นล่าสุด
Qwen3.5 397B
- โมเดลหลักที่สืบทอด hybrid attention ของ Qwen3 Next
- จากพารามิเตอร์รวม 397 พันล้าน มี 17 พันล้านที่ทำงานจริง พร้อมโครงสร้าง 512 experts
- เปิดเผยเมื่อวันที่ 16 กุมภาพันธ์ 2026
Sarvam 30B / 105B
- โมเดล Sparse MoE ที่เน้นการรองรับภาษาอินเดีย
- รุ่น 30B ใช้ GQA + QK-Norm ส่วนรุ่น 105B ใช้ MLA + NoPE + RoPE
- เปิดเผยเมื่อวันที่ 3 มีนาคม 2026
บทความอ้างอิง
- The Big LLM Architecture Comparison: อธิบายความแตกต่างด้านการออกแบบของสถาปัตยกรรมดีโคเดอร์แบบ Dense, MoE, MLA และ Hybrid
- A Dream of Spring for Open-Weight LLMs: วิเคราะห์เพิ่มเติมเกี่ยวกับโมเดลโอเพนเวต เช่น MiniMax, Qwen, Ling, Sarvam ที่เปิดเผยในช่วงต้นปี 2026
2 ความคิดเห็น
น่าสนุกดี
ความคิดเห็นจาก Hacker News
หลังจากการทดลองมาหลายปี เป็นเรื่องน่าสนใจที่ โมเดล open-weight ในที่สุดก็เริ่มลู่เข้าหาโครงแบบที่คล้ายกัน
เคยมีความพยายามหลากหลายทั้ง MoE routing, state-space model, linear attention แต่ตอนนี้ก็มาลงตัวที่โครงสร้าง dense decoder-only transformer ที่ผสาน RMSNorm, rotary position embedding, SwiGLU และ grouped-query attention
ตอนนี้หัวใจของความแตกต่างได้ย้ายไปอยู่ที่ สูตรการฝึกและ data pipeline แล้ว
นวัตกรรมที่แท้จริงของ DeepSeek-R1 ไม่ใช่สถาปัตยกรรม แต่คือ reinforcement learning กับ chain of thought และ Llama 3 เองก็แทบคงสถาปัตยกรรมเดิมไว้ แต่เปลี่ยนข้อมูลและกระบวนการหลังการประมวลผลใหม่ทั้งหมด
สิ่งนี้คล้ายกับแนวโน้มในการออกแบบชิป ที่ กระบวนการผลิตระดับละเอียดและ microarchitecture กลายเป็นสิ่งสำคัญกว่า ISA
งานเขียนของ Sebastian คุ้มค่าแก่การอ่านเสมอ
ขอแนะนำหนังสือ Build an LLM From Scratch ของเขาอย่างยิ่ง ผมเพิ่งเข้าใจ กลไกของ Transformer อย่างแท้จริงก็จากหนังสือเล่มนี้
พอดู LLM Architecture Gallery ก็เห็นความต่างระหว่างโมเดลต่าง ๆ ได้อย่างน่าสนใจ แต่ตลอด 7 ปีที่ผ่านมา หลัง GPT-2 ก็แทบไม่มี นวัตกรรมเชิงรากฐาน มากนัก
โมเดล open-weight ในปัจจุบัน หากมองจากระยะไกล ก็ยังคงเป็น โครงสร้างการวนซ้ำของชั้น attention + feed-forward ที่คล้าย GPT-2 อยู่ดี
การก้าวกระโดดครั้งใหญ่ในช่วงหลังมาจาก การสเกลและเทคนิคการฝึกใหม่ ๆ (เช่น RLVR) และดูจะเป็นอีกตัวอย่างหนึ่งของ Bitter Lesson
เป็นภาพสรุปที่ยอดเยี่ยมมาก ทำให้นึกถึง Neural Network Zoo ที่เคยดูมาก่อน
เหมือนกับโปรเจกต์นั้นที่ทำให้เห็นโครงสร้างโครงข่ายประสาทแบบต่าง ๆ ได้ในภาพเดียว ครั้งนี้ก็แสดงให้เห็น ความหลากหลายของสถาปัตยกรรม ได้ดีมาก
งานดีมาก
แต่อยากรู้ว่ามี เกณฑ์การจัดเรียง หรือไม่ ถ้าสามารถดูเป็น ผังตระกูล ที่แสดงลำดับวิวัฒนาการหรือสายสืบทอดของนวัตกรรมได้ก็น่าจะดียิ่งขึ้น
อีกทั้งถ้าทำให้เห็นการเปลี่ยนแปลงของขนาดโมเดลด้วย สเกลภาพ ก็น่าจะช่วยให้สัมผัสความเร็วของพัฒนาการได้อย่างเป็นธรรมชาติ
เจ๋งมาก ขอบคุณที่แชร์
เวอร์ชันที่ซูมได้ดูได้ที่ นี่
ในฐานะนักสถิติ ผมเฝ้าต้องการวิธีทำความเข้าใจแบบ แยกเป็นโมดูล มาโดยตลอด ที่พาเราจากแนวคิดว่า “โครงข่ายประสาทใช้ประมาณค่าฟังก์ชัน” ไปสู่ วิศวกรรมโมเดลแมชชีนเลิร์นนิง จริง ๆ
เอกสารชิ้นนี้ให้ความรู้สึกเหมือนช่วยเชื่อมช่องว่างนั้นได้
อยากรู้ว่าไดอะแกรมนี้วาดด้วย เครื่องมือ อะไร
เป็นคอลเลกชันที่น่าสนใจ
ถ้าลองเปรียบเทียบรูปแบบพรอมป์ต์จริง ๆ จะพบว่า ความต่างของสถาปัตยกรรม ปรากฏออกมาในแบบที่คาดไม่ถึง
ตัวอย่างเช่น context window ที่ยาว ไม่ได้หมายถึงแค่รองรับข้อความได้มากขึ้นเท่านั้น แต่ยังทำให้ต้องออกแบบโครงสร้างอินพุตต่างออกไปด้วย
อยากรู้ว่าโมเดลที่เรียบง่ายที่สุดในเชิงโครงสร้าง แต่ยัง แข่งขันได้ คืออะไร
ในช่วงหลายปีที่ผ่านมาแทบไม่มีนวัตกรรมเชิงสถาปัตยกรรมใหม่ ๆ และการเปลี่ยนแปลงส่วนใหญ่ก็เพื่อ เพิ่มประสิทธิภาพในการฝึก
โมเดล Transformer เป็นผลลัพธ์ของการพัฒนาแบบค่อยเป็นค่อยไปบนฐานของ งานวิจัยก่อนหน้า จำนวนมหาศาล
ตอนกดเข้ามา ผมนึกว่าจะเป็นเรื่องที่ LLM ใช้ออกแบบ ตึกระฟ้า เขื่อน หรือสะพาน เสียอีก
ถึงขั้นเตรียมป๊อปคอร์นไว้แล้ว เลยแอบเสียดายนิดหน่อย