50 คะแนน โดย GN⁺ 2026-03-16 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • แกลเลอรีออนไลน์ที่รวบรวมแผนผังโครงสร้างและสเปกหลักของ โมเดลภาษาขนาดใหญ่ (LLM) รุ่นล่าสุดไว้ให้ดูได้ในที่เดียว โดยครอบคลุมโมเดลสำคัญที่เปิดเผยในช่วงปี 2024~2026
  • แต่ละโมเดลจัดทำในรูปแบบตารางสรุป ขนาดพารามิเตอร์ ประเภทดีโคเดอร์ วิธีการ attention และจุดเด่นด้านการออกแบบ
  • เนื้อหาคัดมาจากบทความวิเคราะห์เปรียบเทียบของ Sebastian Raschka ได้แก่ ‘The Big LLM Architecture Comparison’ และ ‘A Dream of Spring for Open-Weight LLMs’
  • ผู้ใช้สามารถคลิกชื่อโมเดลเพื่อไปยังคำอธิบายโดยละเอียด หรือคลิกรูปภาพเพื่อขยายดู แผนผังโครงสร้างความละเอียดสูง (182 เมกะพิกเซล)
  • ทำหน้าที่เป็น ฐานข้อมูลสถาปัตยกรรมสำหรับใช้อ้างอิง สำหรับนักวิจัยและนักพัฒนาโอเพนเวต LLM โดยสามารถติดตามวิวัฒนาการของสถาปัตยกรรม MoE, Hybrid และ Dense รุ่นล่าสุดได้ในที่เดียว

ภาพรวม

  • หน้านี้เป็นแกลเลอรีที่รวบรวม แผนภาพสถาปัตยกรรม LLM และ factsheet โดยคัดเฉพาะแผนภาพจากบทความเปรียบเทียบสำคัญ 2 ชิ้นของ Raschka มาจัดเรียงใหม่
    • ที่มาของต้นฉบับ: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • แต่ละรายการของโมเดลประกอบด้วย ชื่อโมเดล จำนวนพารามิเตอร์ วันที่เผยแพร่ ประเภทดีโคเดอร์ วิธีการ attention คุณลักษณะสำคัญของการออกแบบ และลิงก์แนวคิดที่เกี่ยวข้อง
  • หากพบข้อมูลผิดพลาดหรือลิงก์เสีย สามารถรายงานผ่าน GitHub issue tracker ได้
  • เนื่องจากมีผู้ขอจำนวนมาก จึงมีเวอร์ชัน โปสเตอร์ (PNG 56MB) ความละเอียด 14570×12490 ให้ผ่าน Zazzle ด้วย

ตัวอย่างโมเดลหลัก

Llama 3 8B

  • โมเดลแบบ Dense decoder ขนาด 8 พันล้านพารามิเตอร์ ใช้เป็นสแตกอ้างอิงสำหรับเปรียบเทียบตัวเลือกด้าน normalization และ attention ของ OLMo 2
  • ใช้ attention แบบ GQA + RoPE และคงโครงสร้าง Pre-norm
  • เปิดเผยเมื่อวันที่ 18 เมษายน 2024

OLMo 2 7B

  • โมเดล Dense ขนาด 7 พันล้านพารามิเตอร์ ใช้ attention แบบ MHA + QK-Norm
  • โครงสร้าง Inside-residual post-norm ช่วยเพิ่มเสถียรภาพในการฝึก
  • เปิดเผยเมื่อวันที่ 25 พฤศจิกายน 2024

DeepSeek V3

  • โมเดล Sparse MoE ที่มีพารามิเตอร์รวม 671 พันล้าน โดยมีพารามิเตอร์ที่ทำงานจริง 37 พันล้าน
  • ผสานโครงสร้าง MLA attention กับ shared expert
  • เป็นเทมเพลตสำคัญที่จุดกระแสโมเดล Open MoE ขนาดใหญ่

DeepSeek R1

  • เวอร์ชัน เฉพาะทางด้าน reasoning ที่พัฒนาบน DeepSeek V3 โดยคงสถาปัตยกรรมเดิมไว้
  • เปิดเผยเมื่อวันที่ 20 มกราคม 2025 ใช้โครงสร้าง Sparse MoE บน MLA

Gemma 3 27B

  • โมเดล Dense ขนาด 27 พันล้านพารามิเตอร์ ใช้ GQA + QK-Norm และ sliding window/global attention แบบ 5:1
  • จุดเด่นคือการขยายคำศัพท์หลายภาษาและ การเสริม local attention
  • เปิดเผยเมื่อวันที่ 11 มีนาคม 2025

การขยายของสถาปัตยกรรม MoE และ Hybrid

Llama 4 Maverick

  • โมเดล Sparse MoE ของ Meta ที่อิงจากโครงสร้าง DeepSeek V3 แต่เลือกใช้ attention แบบ GQA ดั้งเดิม
  • จากพารามิเตอร์รวม 400 พันล้าน มี 17 พันล้านที่ทำงานจริง
  • สลับวางบล็อก Dense และ MoE ลดจำนวน expert แต่ขยายสเกลให้ใหญ่ขึ้น

Qwen3 235B-A22B

  • ใช้โครงสร้าง Sparse MoE ที่คล้าย DeepSeek V3 แต่ ตัด shared expert ออก
  • จากพารามิเตอร์รวม 235 พันล้าน มี 22 พันล้านที่ทำงานจริง ใช้ GQA + QK-Norm
  • เปิดเผยเมื่อวันที่ 28 เมษายน 2025

Kimi K2

  • โมเดล Sparse MoE ระดับ 1 ล้านล้านพารามิเตอร์ เป็นการขยายต่อจาก DeepSeek V3
  • ใช้ MLA attention พร้อมเพิ่มจำนวน expert และลดจำนวนหัว MLA
  • เปิดเผยเมื่อวันที่ 10 กรกฎาคม 2025

GLM-4.5 355B

  • โมเดล Sparse MoE ที่มุ่งเน้น agent โดยใช้โครงสร้าง Dense-prefix MoE ของ DeepSeek
  • จากพารามิเตอร์รวม 355 พันล้าน มี 32 พันล้านที่ทำงานจริง ใช้ GQA + QK-Norm
  • เปิดเผยเมื่อวันที่ 28 กรกฎาคม 2025

GPT-OSS 20B / 120B

  • ซีรีส์ Open-weight MoE ของ OpenAI ใช้ sliding window/global cross attention บน GQA
  • รุ่น 20B เป็นโครงสร้างตื้นแต่กว้าง ส่วนรุ่น 120B ขยายการออกแบบเดียวกันให้ใหญ่ขึ้น
  • เปิดเผยเมื่อวันที่ 4 สิงหาคม 2025

โครงสร้าง Hybrid และโครงสร้างรุ่นถัดไป

Qwen3 Next 80B-A3B

  • โมเดล Sparse Hybrid ที่ใช้ attention แบบผสม Gated DeltaNet + Gated Attention
  • จากพารามิเตอร์รวม 80 พันล้าน มี 3 พันล้านที่ทำงานจริง รองรับ บริบท 262k
  • เปิดเผยเมื่อวันที่ 9 กันยายน 2025

Kimi Linear 48B-A3B

  • โครงสร้างไฮบริดที่ผสาน Linear Attention + MLA
  • ใช้ NoPE และ gating ระดับช่องสัญญาณ เพื่อเพิ่มประสิทธิภาพกับบริบทยาว
  • เปิดเผยเมื่อวันที่ 30 ตุลาคม 2025

Nemotron 3 Nano / Super

  • โมเดล Transformer-State-Space Hybrid ของ NVIDIA
  • Nano (30B) ใช้ Mamba-2 + MoE ส่วน Super (120B) เพิ่ม LatentMoE + MTP
  • เปิดเผยในวันที่ 4 ธันวาคม 2025 และ 11 มีนาคม 2026 ตามลำดับ

Ling 2.5 1T

  • โมเดล Sparse Hybrid ขนาด 1 ล้านล้านพารามิเตอร์ ใช้การผสาน Lightning Attention + MLA
  • มีพารามิเตอร์ที่ทำงานจริง 63 พันล้าน พร้อมโครงสร้าง attention แบบ linear/MLA ในอัตราส่วน 7:1
  • เปิดเผยเมื่อวันที่ 15 กุมภาพันธ์ 2026

โมเดลโอเพนเวตรุ่นล่าสุด

Qwen3.5 397B

  • โมเดลหลักที่สืบทอด hybrid attention ของ Qwen3 Next
  • จากพารามิเตอร์รวม 397 พันล้าน มี 17 พันล้านที่ทำงานจริง พร้อมโครงสร้าง 512 experts
  • เปิดเผยเมื่อวันที่ 16 กุมภาพันธ์ 2026

Sarvam 30B / 105B

  • โมเดล Sparse MoE ที่เน้นการรองรับภาษาอินเดีย
  • รุ่น 30B ใช้ GQA + QK-Norm ส่วนรุ่น 105B ใช้ MLA + NoPE + RoPE
  • เปิดเผยเมื่อวันที่ 3 มีนาคม 2026

บทความอ้างอิง

  • The Big LLM Architecture Comparison: อธิบายความแตกต่างด้านการออกแบบของสถาปัตยกรรมดีโคเดอร์แบบ Dense, MoE, MLA และ Hybrid
  • A Dream of Spring for Open-Weight LLMs: วิเคราะห์เพิ่มเติมเกี่ยวกับโมเดลโอเพนเวต เช่น MiniMax, Qwen, Ling, Sarvam ที่เปิดเผยในช่วงต้นปี 2026

2 ความคิดเห็น

 
orange 2026-03-17

น่าสนุกดี

 
GN⁺ 2026-03-16
ความคิดเห็นจาก Hacker News
  • หลังจากการทดลองมาหลายปี เป็นเรื่องน่าสนใจที่ โมเดล open-weight ในที่สุดก็เริ่มลู่เข้าหาโครงแบบที่คล้ายกัน
    เคยมีความพยายามหลากหลายทั้ง MoE routing, state-space model, linear attention แต่ตอนนี้ก็มาลงตัวที่โครงสร้าง dense decoder-only transformer ที่ผสาน RMSNorm, rotary position embedding, SwiGLU และ grouped-query attention
    ตอนนี้หัวใจของความแตกต่างได้ย้ายไปอยู่ที่ สูตรการฝึกและ data pipeline แล้ว
    นวัตกรรมที่แท้จริงของ DeepSeek-R1 ไม่ใช่สถาปัตยกรรม แต่คือ reinforcement learning กับ chain of thought และ Llama 3 เองก็แทบคงสถาปัตยกรรมเดิมไว้ แต่เปลี่ยนข้อมูลและกระบวนการหลังการประมวลผลใหม่ทั้งหมด
    สิ่งนี้คล้ายกับแนวโน้มในการออกแบบชิป ที่ กระบวนการผลิตระดับละเอียดและ microarchitecture กลายเป็นสิ่งสำคัญกว่า ISA

  • งานเขียนของ Sebastian คุ้มค่าแก่การอ่านเสมอ
    ขอแนะนำหนังสือ Build an LLM From Scratch ของเขาอย่างยิ่ง ผมเพิ่งเข้าใจ กลไกของ Transformer อย่างแท้จริงก็จากหนังสือเล่มนี้
    พอดู LLM Architecture Gallery ก็เห็นความต่างระหว่างโมเดลต่าง ๆ ได้อย่างน่าสนใจ แต่ตลอด 7 ปีที่ผ่านมา หลัง GPT-2 ก็แทบไม่มี นวัตกรรมเชิงรากฐาน มากนัก
    โมเดล open-weight ในปัจจุบัน หากมองจากระยะไกล ก็ยังคงเป็น โครงสร้างการวนซ้ำของชั้น attention + feed-forward ที่คล้าย GPT-2 อยู่ดี
    การก้าวกระโดดครั้งใหญ่ในช่วงหลังมาจาก การสเกลและเทคนิคการฝึกใหม่ ๆ (เช่น RLVR) และดูจะเป็นอีกตัวอย่างหนึ่งของ Bitter Lesson

  • เป็นภาพสรุปที่ยอดเยี่ยมมาก ทำให้นึกถึง Neural Network Zoo ที่เคยดูมาก่อน
    เหมือนกับโปรเจกต์นั้นที่ทำให้เห็นโครงสร้างโครงข่ายประสาทแบบต่าง ๆ ได้ในภาพเดียว ครั้งนี้ก็แสดงให้เห็น ความหลากหลายของสถาปัตยกรรม ได้ดีมาก

  • งานดีมาก
    แต่อยากรู้ว่ามี เกณฑ์การจัดเรียง หรือไม่ ถ้าสามารถดูเป็น ผังตระกูล ที่แสดงลำดับวิวัฒนาการหรือสายสืบทอดของนวัตกรรมได้ก็น่าจะดียิ่งขึ้น
    อีกทั้งถ้าทำให้เห็นการเปลี่ยนแปลงของขนาดโมเดลด้วย สเกลภาพ ก็น่าจะช่วยให้สัมผัสความเร็วของพัฒนาการได้อย่างเป็นธรรมชาติ

    • สำหรับข้อมูลที่แสดงวิวัฒนาการของตระกูล DeepSeek อาจอ้างอิง บทความนี้ ได้
  • เจ๋งมาก ขอบคุณที่แชร์
    เวอร์ชันที่ซูมได้ดูได้ที่ นี่

  • ในฐานะนักสถิติ ผมเฝ้าต้องการวิธีทำความเข้าใจแบบ แยกเป็นโมดูล มาโดยตลอด ที่พาเราจากแนวคิดว่า “โครงข่ายประสาทใช้ประมาณค่าฟังก์ชัน” ไปสู่ วิศวกรรมโมเดลแมชชีนเลิร์นนิง จริง ๆ
    เอกสารชิ้นนี้ให้ความรู้สึกเหมือนช่วยเชื่อมช่องว่างนั้นได้

  • อยากรู้ว่าไดอะแกรมนี้วาดด้วย เครื่องมือ อะไร

  • เป็นคอลเลกชันที่น่าสนใจ
    ถ้าลองเปรียบเทียบรูปแบบพรอมป์ต์จริง ๆ จะพบว่า ความต่างของสถาปัตยกรรม ปรากฏออกมาในแบบที่คาดไม่ถึง
    ตัวอย่างเช่น context window ที่ยาว ไม่ได้หมายถึงแค่รองรับข้อความได้มากขึ้นเท่านั้น แต่ยังทำให้ต้องออกแบบโครงสร้างอินพุตต่างออกไปด้วย

  • อยากรู้ว่าโมเดลที่เรียบง่ายที่สุดในเชิงโครงสร้าง แต่ยัง แข่งขันได้ คืออะไร

    • ความสามารถในการแข่งขันไม่ได้มาจากโครงสร้างเท่านั้น แต่ขึ้นอยู่กับ ขนาด ข้อมูล และข้อมูลสำหรับ fine-tuning มากกว่า
      ในช่วงหลายปีที่ผ่านมาแทบไม่มีนวัตกรรมเชิงสถาปัตยกรรมใหม่ ๆ และการเปลี่ยนแปลงส่วนใหญ่ก็เพื่อ เพิ่มประสิทธิภาพในการฝึก
    • ถ้าจะตีความคำว่า “แข่งขันได้” แบบกว้าง ๆ หน่อย แม้แต่ Markov chain ก็สามารถลงมือทำเองได้โดยตรง
      โมเดล Transformer เป็นผลลัพธ์ของการพัฒนาแบบค่อยเป็นค่อยไปบนฐานของ งานวิจัยก่อนหน้า จำนวนมหาศาล
  • ตอนกดเข้ามา ผมนึกว่าจะเป็นเรื่องที่ LLM ใช้ออกแบบ ตึกระฟ้า เขื่อน หรือสะพาน เสียอีก
    ถึงขั้นเตรียมป๊อปคอร์นไว้แล้ว เลยแอบเสียดายนิดหน่อย