แกลเลอรีสถาปัตยกรรม LLM

(sebastianraschka.com)

50 คะแนน โดย GN⁺ 2026-03-16 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

แกลเลอรีออนไลน์ที่รวบรวมแผนผังโครงสร้างและสเปกหลักของ โมเดลภาษาขนาดใหญ่ (LLM) รุ่นล่าสุดไว้ให้ดูได้ในที่เดียว โดยครอบคลุมโมเดลสำคัญที่เปิดเผยในช่วงปี 2024~2026
แต่ละโมเดลจัดทำในรูปแบบตารางสรุป ขนาดพารามิเตอร์ ประเภทดีโคเดอร์ วิธีการ attention และจุดเด่นด้านการออกแบบ
เนื้อหาคัดมาจากบทความวิเคราะห์เปรียบเทียบของ Sebastian Raschka ได้แก่ ‘The Big LLM Architecture Comparison’ และ ‘A Dream of Spring for Open-Weight LLMs’
ผู้ใช้สามารถคลิกชื่อโมเดลเพื่อไปยังคำอธิบายโดยละเอียด หรือคลิกรูปภาพเพื่อขยายดู แผนผังโครงสร้างความละเอียดสูง (182 เมกะพิกเซล)
ทำหน้าที่เป็น ฐานข้อมูลสถาปัตยกรรมสำหรับใช้อ้างอิง สำหรับนักวิจัยและนักพัฒนาโอเพนเวต LLM โดยสามารถติดตามวิวัฒนาการของสถาปัตยกรรม MoE, Hybrid และ Dense รุ่นล่าสุดได้ในที่เดียว

ภาพรวม

หน้านี้เป็นแกลเลอรีที่รวบรวม แผนภาพสถาปัตยกรรม LLM และ factsheet โดยคัดเฉพาะแผนภาพจากบทความเปรียบเทียบสำคัญ 2 ชิ้นของ Raschka มาจัดเรียงใหม่
- ที่มาของต้นฉบับ: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
แต่ละรายการของโมเดลประกอบด้วย ชื่อโมเดล จำนวนพารามิเตอร์ วันที่เผยแพร่ ประเภทดีโคเดอร์ วิธีการ attention คุณลักษณะสำคัญของการออกแบบ และลิงก์แนวคิดที่เกี่ยวข้อง
หากพบข้อมูลผิดพลาดหรือลิงก์เสีย สามารถรายงานผ่าน GitHub issue tracker ได้
เนื่องจากมีผู้ขอจำนวนมาก จึงมีเวอร์ชัน โปสเตอร์ (PNG 56MB) ความละเอียด 14570×12490 ให้ผ่าน Zazzle ด้วย

ตัวอย่างโมเดลหลัก

Llama 3 8B

โมเดลแบบ Dense decoder ขนาด 8 พันล้านพารามิเตอร์ ใช้เป็นสแตกอ้างอิงสำหรับเปรียบเทียบตัวเลือกด้าน normalization และ attention ของ OLMo 2
ใช้ attention แบบ GQA + RoPE และคงโครงสร้าง Pre-norm
เปิดเผยเมื่อวันที่ 18 เมษายน 2024

OLMo 2 7B

โมเดล Dense ขนาด 7 พันล้านพารามิเตอร์ ใช้ attention แบบ MHA + QK-Norm
โครงสร้าง Inside-residual post-norm ช่วยเพิ่มเสถียรภาพในการฝึก
เปิดเผยเมื่อวันที่ 25 พฤศจิกายน 2024

DeepSeek V3

โมเดล Sparse MoE ที่มีพารามิเตอร์รวม 671 พันล้าน โดยมีพารามิเตอร์ที่ทำงานจริง 37 พันล้าน
ผสานโครงสร้าง MLA attention กับ shared expert
เป็นเทมเพลตสำคัญที่จุดกระแสโมเดล Open MoE ขนาดใหญ่

DeepSeek R1

เวอร์ชัน เฉพาะทางด้าน reasoning ที่พัฒนาบน DeepSeek V3 โดยคงสถาปัตยกรรมเดิมไว้
เปิดเผยเมื่อวันที่ 20 มกราคม 2025 ใช้โครงสร้าง Sparse MoE บน MLA

Gemma 3 27B

โมเดล Dense ขนาด 27 พันล้านพารามิเตอร์ ใช้ GQA + QK-Norm และ sliding window/global attention แบบ 5:1
จุดเด่นคือการขยายคำศัพท์หลายภาษาและ การเสริม local attention
เปิดเผยเมื่อวันที่ 11 มีนาคม 2025

การขยายของสถาปัตยกรรม MoE และ Hybrid

Llama 4 Maverick

โมเดล Sparse MoE ของ Meta ที่อิงจากโครงสร้าง DeepSeek V3 แต่เลือกใช้ attention แบบ GQA ดั้งเดิม
จากพารามิเตอร์รวม 400 พันล้าน มี 17 พันล้านที่ทำงานจริง
สลับวางบล็อก Dense และ MoE ลดจำนวน expert แต่ขยายสเกลให้ใหญ่ขึ้น

Qwen3 235B-A22B

ใช้โครงสร้าง Sparse MoE ที่คล้าย DeepSeek V3 แต่ ตัด shared expert ออก
จากพารามิเตอร์รวม 235 พันล้าน มี 22 พันล้านที่ทำงานจริง ใช้ GQA + QK-Norm
เปิดเผยเมื่อวันที่ 28 เมษายน 2025

Kimi K2

โมเดล Sparse MoE ระดับ 1 ล้านล้านพารามิเตอร์ เป็นการขยายต่อจาก DeepSeek V3
ใช้ MLA attention พร้อมเพิ่มจำนวน expert และลดจำนวนหัว MLA
เปิดเผยเมื่อวันที่ 10 กรกฎาคม 2025

GLM-4.5 355B

โมเดล Sparse MoE ที่มุ่งเน้น agent โดยใช้โครงสร้าง Dense-prefix MoE ของ DeepSeek
จากพารามิเตอร์รวม 355 พันล้าน มี 32 พันล้านที่ทำงานจริง ใช้ GQA + QK-Norm
เปิดเผยเมื่อวันที่ 28 กรกฎาคม 2025

GPT-OSS 20B / 120B

ซีรีส์ Open-weight MoE ของ OpenAI ใช้ sliding window/global cross attention บน GQA
รุ่น 20B เป็นโครงสร้างตื้นแต่กว้าง ส่วนรุ่น 120B ขยายการออกแบบเดียวกันให้ใหญ่ขึ้น
เปิดเผยเมื่อวันที่ 4 สิงหาคม 2025

โครงสร้าง Hybrid และโครงสร้างรุ่นถัดไป

Qwen3 Next 80B-A3B

โมเดล Sparse Hybrid ที่ใช้ attention แบบผสม Gated DeltaNet + Gated Attention
จากพารามิเตอร์รวม 80 พันล้าน มี 3 พันล้านที่ทำงานจริง รองรับ บริบท 262k
เปิดเผยเมื่อวันที่ 9 กันยายน 2025

Kimi Linear 48B-A3B

โครงสร้างไฮบริดที่ผสาน Linear Attention + MLA
ใช้ NoPE และ gating ระดับช่องสัญญาณ เพื่อเพิ่มประสิทธิภาพกับบริบทยาว
เปิดเผยเมื่อวันที่ 30 ตุลาคม 2025

Nemotron 3 Nano / Super

โมเดล Transformer-State-Space Hybrid ของ NVIDIA
Nano (30B) ใช้ Mamba-2 + MoE ส่วน Super (120B) เพิ่ม LatentMoE + MTP
เปิดเผยในวันที่ 4 ธันวาคม 2025 และ 11 มีนาคม 2026 ตามลำดับ

Ling 2.5 1T

โมเดล Sparse Hybrid ขนาด 1 ล้านล้านพารามิเตอร์ ใช้การผสาน Lightning Attention + MLA
มีพารามิเตอร์ที่ทำงานจริง 63 พันล้าน พร้อมโครงสร้าง attention แบบ linear/MLA ในอัตราส่วน 7:1
เปิดเผยเมื่อวันที่ 15 กุมภาพันธ์ 2026

โมเดลโอเพนเวตรุ่นล่าสุด

Qwen3.5 397B

โมเดลหลักที่สืบทอด hybrid attention ของ Qwen3 Next
จากพารามิเตอร์รวม 397 พันล้าน มี 17 พันล้านที่ทำงานจริง พร้อมโครงสร้าง 512 experts
เปิดเผยเมื่อวันที่ 16 กุมภาพันธ์ 2026

Sarvam 30B / 105B

โมเดล Sparse MoE ที่เน้นการรองรับภาษาอินเดีย
รุ่น 30B ใช้ GQA + QK-Norm ส่วนรุ่น 105B ใช้ MLA + NoPE + RoPE
เปิดเผยเมื่อวันที่ 3 มีนาคม 2026

บทความอ้างอิง

The Big LLM Architecture Comparison: อธิบายความแตกต่างด้านการออกแบบของสถาปัตยกรรมดีโคเดอร์แบบ Dense, MoE, MLA และ Hybrid
A Dream of Spring for Open-Weight LLMs: วิเคราะห์เพิ่มเติมเกี่ยวกับโมเดลโอเพนเวต เช่น MiniMax, Qwen, Ling, Sarvam ที่เปิดเผยในช่วงต้นปี 2026

2 ความคิดเห็น

orange 2026-03-17

น่าสนุกดี

GN⁺ 2026-03-16

ความคิดเห็นจาก Hacker News

หลังจากการทดลองมาหลายปี เป็นเรื่องน่าสนใจที่ โมเดล open-weight ในที่สุดก็เริ่มลู่เข้าหาโครงแบบที่คล้ายกัน
เคยมีความพยายามหลากหลายทั้ง MoE routing, state-space model, linear attention แต่ตอนนี้ก็มาลงตัวที่โครงสร้าง dense decoder-only transformer ที่ผสาน RMSNorm, rotary position embedding, SwiGLU และ grouped-query attention
ตอนนี้หัวใจของความแตกต่างได้ย้ายไปอยู่ที่ สูตรการฝึกและ data pipeline แล้ว
นวัตกรรมที่แท้จริงของ DeepSeek-R1 ไม่ใช่สถาปัตยกรรม แต่คือ reinforcement learning กับ chain of thought และ Llama 3 เองก็แทบคงสถาปัตยกรรมเดิมไว้ แต่เปลี่ยนข้อมูลและกระบวนการหลังการประมวลผลใหม่ทั้งหมด
สิ่งนี้คล้ายกับแนวโน้มในการออกแบบชิป ที่ กระบวนการผลิตระดับละเอียดและ microarchitecture กลายเป็นสิ่งสำคัญกว่า ISA
งานเขียนของ Sebastian คุ้มค่าแก่การอ่านเสมอ
ขอแนะนำหนังสือ Build an LLM From Scratch ของเขาอย่างยิ่ง ผมเพิ่งเข้าใจ กลไกของ Transformer อย่างแท้จริงก็จากหนังสือเล่มนี้
พอดู LLM Architecture Gallery ก็เห็นความต่างระหว่างโมเดลต่าง ๆ ได้อย่างน่าสนใจ แต่ตลอด 7 ปีที่ผ่านมา หลัง GPT-2 ก็แทบไม่มี นวัตกรรมเชิงรากฐาน มากนัก
โมเดล open-weight ในปัจจุบัน หากมองจากระยะไกล ก็ยังคงเป็น โครงสร้างการวนซ้ำของชั้น attention + feed-forward ที่คล้าย GPT-2 อยู่ดี
การก้าวกระโดดครั้งใหญ่ในช่วงหลังมาจาก การสเกลและเทคนิคการฝึกใหม่ ๆ (เช่น RLVR) และดูจะเป็นอีกตัวอย่างหนึ่งของ Bitter Lesson
เป็นภาพสรุปที่ยอดเยี่ยมมาก ทำให้นึกถึง Neural Network Zoo ที่เคยดูมาก่อน
เหมือนกับโปรเจกต์นั้นที่ทำให้เห็นโครงสร้างโครงข่ายประสาทแบบต่าง ๆ ได้ในภาพเดียว ครั้งนี้ก็แสดงให้เห็น ความหลากหลายของสถาปัตยกรรม ได้ดีมาก
งานดีมาก
แต่อยากรู้ว่ามี เกณฑ์การจัดเรียง หรือไม่ ถ้าสามารถดูเป็น ผังตระกูล ที่แสดงลำดับวิวัฒนาการหรือสายสืบทอดของนวัตกรรมได้ก็น่าจะดียิ่งขึ้น
อีกทั้งถ้าทำให้เห็นการเปลี่ยนแปลงของขนาดโมเดลด้วย สเกลภาพ ก็น่าจะช่วยให้สัมผัสความเร็วของพัฒนาการได้อย่างเป็นธรรมชาติ
- สำหรับข้อมูลที่แสดงวิวัฒนาการของตระกูล DeepSeek อาจอ้างอิง บทความนี้ ได้
เจ๋งมาก ขอบคุณที่แชร์
เวอร์ชันที่ซูมได้ดูได้ที่ นี่
ในฐานะนักสถิติ ผมเฝ้าต้องการวิธีทำความเข้าใจแบบ แยกเป็นโมดูล มาโดยตลอด ที่พาเราจากแนวคิดว่า “โครงข่ายประสาทใช้ประมาณค่าฟังก์ชัน” ไปสู่ วิศวกรรมโมเดลแมชชีนเลิร์นนิง จริง ๆ
เอกสารชิ้นนี้ให้ความรู้สึกเหมือนช่วยเชื่อมช่องว่างนั้นได้
อยากรู้ว่าไดอะแกรมนี้วาดด้วย เครื่องมือ อะไร
เป็นคอลเลกชันที่น่าสนใจ
ถ้าลองเปรียบเทียบรูปแบบพรอมป์ต์จริง ๆ จะพบว่า ความต่างของสถาปัตยกรรม ปรากฏออกมาในแบบที่คาดไม่ถึง
ตัวอย่างเช่น context window ที่ยาว ไม่ได้หมายถึงแค่รองรับข้อความได้มากขึ้นเท่านั้น แต่ยังทำให้ต้องออกแบบโครงสร้างอินพุตต่างออกไปด้วย
อยากรู้ว่าโมเดลที่เรียบง่ายที่สุดในเชิงโครงสร้าง แต่ยัง แข่งขันได้ คืออะไร
- ความสามารถในการแข่งขันไม่ได้มาจากโครงสร้างเท่านั้น แต่ขึ้นอยู่กับ ขนาด ข้อมูล และข้อมูลสำหรับ fine-tuning มากกว่า
  ในช่วงหลายปีที่ผ่านมาแทบไม่มีนวัตกรรมเชิงสถาปัตยกรรมใหม่ ๆ และการเปลี่ยนแปลงส่วนใหญ่ก็เพื่อ เพิ่มประสิทธิภาพในการฝึก
- ถ้าจะตีความคำว่า “แข่งขันได้” แบบกว้าง ๆ หน่อย แม้แต่ Markov chain ก็สามารถลงมือทำเองได้โดยตรง
  โมเดล Transformer เป็นผลลัพธ์ของการพัฒนาแบบค่อยเป็นค่อยไปบนฐานของ งานวิจัยก่อนหน้า จำนวนมหาศาล
ตอนกดเข้ามา ผมนึกว่าจะเป็นเรื่องที่ LLM ใช้ออกแบบ ตึกระฟ้า เขื่อน หรือสะพาน เสียอีก
ถึงขั้นเตรียมป๊อปคอร์นไว้แล้ว เลยแอบเสียดายนิดหน่อย

แกลเลอรีสถาปัตยกรรม LLM

ภาพรวม

ตัวอย่างโมเดลหลัก

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

การขยายของสถาปัตยกรรม MoE และ Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

โครงสร้าง Hybrid และโครงสร้างรุ่นถัดไป

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

โมเดลโอเพนเวตรุ่นล่าสุด

Qwen3.5 397B

Sarvam 30B / 105B

บทความอ้างอิง

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News