เปรียบเทียบสถาปัตยกรรมของ LLM ขนาดใหญ่

(magazine.sebastianraschka.com)

26 คะแนน โดย GN⁺ 2025-07-21 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

สถาปัตยกรรม LLM ในช่วง 7 ปีหลัง ตั้งแต่ GPT-2 (2019) ไปจนถึง DeepSeek-V3 และ Llama 4 (2024-2025) มีการพัฒนาโดย ไม่ได้เปลี่ยนแปลงโครงสร้างครั้งใหญ่มากนัก และยังคงมี ความคล้ายคลึงกัน อย่างน่าทึ่ง
โมเดลรุ่นใหม่อย่าง DeepSeek V3/R1, Llama 4 ได้นำแนวทางเพิ่มประสิทธิภาพใหม่ ๆ เช่น Mixture-of-Experts(MoE), MLA, Sliding Window Attention มาใช้เพื่อปรับปรุง ประสิทธิภาพการใช้หน่วยความจำ และ สมรรถนะด้านการอนุมาน
โมเดลโอเพนซอร์สบางตัว เช่น OLMo 2, Gemma 3 ได้รับความสนใจในฐานะตัวอย่างการออกแบบที่ดีสำหรับงานวิจัยและพัฒนา ด้วย การเปิดเผยข้อมูลอย่างโปร่งใสและการจัดวาง normalization layer ที่มีเอกลักษณ์
มีโมเดลที่หลากหลายทั้งด้านขนาดและโครงสร้าง เช่น Qwen3, SmolLM3, Kimi 2 ทำให้มีตัวเลือกกว้างขึ้นตามข้อดีข้อเสียของ สถาปัตยกรรม MoE และ Dense และวัตถุประสงค์การใช้งาน
เทรนด์ร่วมของ LLM ยุคล่าสุด คือการขยายขนาดและเพิ่มความซับซ้อน ควบคู่ไปกับการปรับปรุงโครงสร้างเพื่อประสิทธิภาพ และการรองรับสภาพแวดล้อมฮาร์ดแวร์ที่หลากหลาย

บทนำ

หากดูตั้งแต่ต้นแบบ GPT ในปี 2017 ผ่าน GPT-2 (2019) จนถึง DeepSeek-V3 และ Llama 4 (2024-2025) จะเห็นว่า สถาปัตยกรรม LLM ในภาพใหญ่ยังคล้ายกันมาก (โครงสร้างทรานส์ฟอร์เมอร์พื้นฐานแทบไม่เปลี่ยนไป)
Positional embedding เปลี่ยนจากแบบสัมบูรณ์ไปเป็นวิธีอย่าง RoPE และ Multi-Head Attention ก็ขยับไปใช้ GQA (Grouped Query Attention) ที่มีประสิทธิภาพด้านหน่วยความจำ/การคำนวณดีกว่า แต่ โครงสร้างพื้นฐานยังคงเดิม
การเปรียบเทียบประสิทธิภาพทำได้ยากในเชิงโครงสร้างโดยตรง เพราะขึ้นอยู่กับชุดข้อมูลและวิธีการฝึก
เนื้อหานี้จะวิเคราะห์โดยเน้นที่ การเปลี่ยนแปลงเชิงสถาปัตยกรรม ของ open LLM รุ่นล่าสุด

1. DeepSeek V3/R1

DeepSeek R1 (มกราคม 2025) สร้างขึ้นบนสถาปัตยกรรม DeepSeek V3 (ธันวาคม 2024) และได้รับความสนใจจาก ความสามารถด้านการอนุมาน ที่ก้าวหน้าและจำนวนพารามิเตอร์ขนาดใหญ่ (671B)
สถาปัตยกรรมหลัก: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
MLA: บีบอัด Key/Value ให้มีมิติต่ำลงเพื่อลดหน่วยความจำของ KV cache และให้ประสิทธิภาพดีกว่า GQA
MoE: กระจายโมดูล FeedForward ออกเป็น expert หลายตัว เป็นโครงสร้างแบบ sparse ที่เปิดใช้งานเพียงบาง expert ต่อหนึ่งโทเค็น
- DeepSeek V3: มี expert 256 ตัว, พารามิเตอร์รวม 671B, และใช้เพียง 9 expert (37B พารามิเตอร์) ระหว่างการอนุมาน
- มี shared expert ที่ทำงานตลอดเวลาเพื่อเพิ่มประสิทธิภาพในการเรียนรู้รูปแบบทั่วไป
จุดเด่น: แม้จะเป็นโมเดลขนาดใหญ่ (671B) แต่ยังมีประสิทธิภาพการอนุมานสูง, MLA เหนือกว่า GQA ในด้านประสิทธิภาพ, และ MoE ช่วยเพิ่มความจุในการฝึกขนาดใหญ่

2. OLMo 2

โมเดลเปิดเต็มรูปแบบ จาก Allen Institute for AI
จุดเด่นคือ ความโปร่งใสของการออกแบบและการเปิดเผยโค้ด มากกว่าการแข่งขันด้านประสิทธิภาพ
จุดสำคัญด้านสถาปัตยกรรม: ตำแหน่งของ RMSNorm (ใช้ Post-Norm), QK-Norm
- GPT แบบดั้งเดิมใช้ Pre-Norm ขณะที่ OLMo 2 ใช้ normalization หลัง Attention/FeedForward (แนวทางแบบ Post-Norm)
- QK-Norm: เพิ่ม RMSNorm ให้กับ query/key ของ Attention เพื่อปรับปรุงเสถียรภาพในการฝึก
ยังคงโครงสร้าง Multi-Head Attention(MHA) แบบดั้งเดิม
คล้ายกับ Llama 3 เป็นต้น แต่แตกต่างที่กลยุทธ์ normalization

3. Gemma 3

open LLM หลักของ Google โดยมีจุดเด่นคือ คลังคำศัพท์ขนาดใหญ่เพื่อรองรับหลายภาษา และการมุ่งเน้นไปที่โมเดลขนาด 27B
ใช้ Sliding Window Attention (หน้าต่างแบบโลคัล) เพื่อลดหน่วยความจำของ KV cache อย่างมาก
- Gemma 2: Global/Local 1:1, window 4k, Gemma 3: สัดส่วน 5:1, ลด window เหลือ 1024
- แทบไม่ส่งผลต่อประสิทธิภาพ (Perplexity)
Normalization: ใช้ทั้ง Pre-Norm และ Post-Norm RMSNorm รอบโมดูล GQA
Gemma 3n: รองรับอุปกรณ์ขนาดเล็ก โดยทำให้เบาลงด้วย Per-Layer Embedding(ให้เฉพาะพารามิเตอร์รายชั้นอยู่บน GPU) และ MatFormer(แบ่งใช้โมเดลบางส่วน)

4. Mistral Small 3.1

Mistral Small 3.1 24B เร็วกว่า Gemma 3 27B และอยู่ในกลุ่มบนของเบนช์มาร์ก
ใช้ tokenizer แบบปรับแต่งเอง และลดขนาด KV cache กับจำนวนเลเยอร์เพื่อลด latency ในการอนุมานให้ต่ำที่สุด
เลิกใช้ sliding window attention และหันไปใช้ GQA ที่ปรับแต่งแล้ว + FlashAttention เพื่อเน้นความเร็วในการอนุมานและประสิทธิภาพของโค้ด

5. Llama 4

นำสถาปัตยกรรม MoE มาใช้อย่างจริงจัง เพื่อให้ได้ทั้งประสิทธิภาพการอนุมานและความจุของโมเดล โดยมีโครงสร้างคล้ายกับ DeepSeek-V3
ใช้ GQA แต่มีจำนวน expert และ hidden size แตกต่างกัน
- DeepSeek-V3: 9 expert (2,048), Llama 4: 2 expert (8,192), active parameter 17B (DeepSeek 37B)
ใช้ การออกแบบ MoE แบบคลาสสิก โดยสลับแทรกบล็อก MoE กับบล็อก Dense
สะท้อนให้เห็น การแพร่หลายของ MoE ใน LLM ยุคใหม่

6. Qwen3

มีทั้งเวอร์ชัน Dense หลายขนาด (0.6B~32B) และ MoE (30B-A3B, 235B-A22B)
รุ่นเล็ก (0.6B) มี ประสิทธิภาพการฝึก การอนุมาน และ token throughput ดีมาก โดย ให้ประสิทธิภาพโดดเด่นในกลุ่ม LLM น้ำหนักเบามาก พร้อมทั้งมีประสิทธิภาพด้านหน่วยความจำและความสะดวกในการฝึกยอดเยี่ยม
Dense: มีจำนวนเลเยอร์มากกว่า ใช้หน่วยความจำน้อยกว่า แต่ช้ากว่า (เมื่อเทียบกับ Llama 3 1B)
MoE: Qwen3 235B-A22B มี active parameter 22B และไม่ใช้ shared expert (ขณะที่ Qwen2.5-MoE รุ่นก่อนหน้ามี shared expert) จึงมีประสิทธิภาพสูงขึ้น
Qwen3 235B-A22B และ DeepSeek-V3 มีความคล้ายกันมากในโครงสร้างโดยรวม
มีทั้ง Dense และ MoE ให้เลือก จึงรองรับ วัตถุประสงค์การใช้งานที่หลากหลาย

7. SmolLM3

โมเดลขนาดเล็กระดับ 3B พารามิเตอร์ แข่งขันกับ Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
สถาปัตยกรรมโดยรวมค่อนข้างมาตรฐาน แต่ใช้ NoPE(No Positional Embedding)
- ใช้เพียง causal mask โดยไม่มี positional encoding อย่าง RoPE
- ช่วยเพิ่มความสามารถในการทั่วไปกับความยาวลำดับ (Length Generalization) ในซีเควนซ์ยาว
- เป็นโครงสร้างเชิงทดลอง และใช้เฉพาะบางเลเยอร์

8. Kimi 2

โมเดลเปิดขนาดใหญ่ระดับ 1 ล้านล้านพารามิเตอร์ และถือว่าใหญ่ที่สุดในกลุ่ม open model
อิงจากโครงสร้างของ DeepSeek-V3 โดยขยายจำนวนเลเยอร์ MoE และปรับจำนวน head ของ MLA
ใช้ Muon optimizer แทน AdamW ในการฝึก เพื่อเพิ่มประสิทธิภาพการฝึกและให้ loss decay ที่ดีกว่า
มี MoE expert มากกว่า DeepSeek-V3 และลดจำนวน MLA head ลง
สะสมประสบการณ์จาก Kimi 1.5 ก่อนมาสู่ Kimi 2 ที่ เปิดเผย open weights และทำผลงานได้ในระดับสูงสุด

บทสรุปและเทรนด์

LLM ยุคล่าสุดยังคงโครงสร้างพื้นฐานเดิมไว้ แต่มีลักษณะเด่นคือ การขยายขนาดสถาปัตยกรรม การนำ MoE และโครงสร้างเพิ่มประสิทธิภาพรูปแบบต่าง ๆ มาใช้
สำหรับ open model การเปิดเผยข้อมูล การออกแบบ และโค้ดอย่างโปร่งใส ทำให้มีคุณค่าสูงขึ้นทั้งในงานวิจัยและการใช้งานเชิงอุตสาหกรรม
แต่ละโมเดลมีจุดมุ่งหมายในการเพิ่มประสิทธิภาพต่างกัน ทั้ง Dense และ MoE, MLA·GQA·Sliding Window Attention รวมถึงกลยุทธ์ normalization ที่หลากหลาย
เป็นช่วงเวลาที่ ตัวเลือกด้านสถาปัตยกรรมมีความหลากหลายมากขึ้น ตามสภาพแวดล้อมฮาร์ดแวร์ วัตถุประสงค์การใช้งาน และประสิทธิภาพในการฝึก/การอนุมาน

2 ความคิดเห็น

tensun 2025-07-22

ดูเหมือนว่า qwen จะรองรับภาษาเกาหลีได้ดีครับ

GN⁺ 2025-07-21

ความเห็นจาก Hacker News

บทความนี้มีทั้งระดับการย่อเชิงนามธรรมที่พอดีและคำอธิบายที่ละเอียดสำหรับการเรียนรู้สถาปัตยกรรม LLM ทำให้ซึมซับข้อมูลได้มากและง่ายกว่าการไปอ่านเปเปอร์ต้นฉบับเองมาก
สำหรับคนที่อยู่ระหว่างระดับมือใหม่กับผู้เชี่ยวชาญ ไดอะแกรมในบทความนี้น่าประทับใจมาก โดยเฉพาะการสรุปโมเดลล่าสุดไว้ให้เห็นภาพรวมในครั้งเดียวซึ่งมีประโยชน์จริงๆ
เนื้อหาที่เกี่ยวข้องซึ่งน่าอ่านเพิ่มเติมคือ บทความอธิบายว่า DeepSeek ปรับปรุงสถาปัตยกรรม Transformer อย่างไร และบางส่วนของ บทวิเคราะห์เกี่ยวกับ superintelligence ของ Meta
สำหรับคนอย่างฉันที่ตามความเคลื่อนไหวล่าสุดไม่ทัน บทความสรุปแบบนี้ถือเป็นการ catch up ที่น่ายินดีมาก
หวังว่าในอนาคตจะมีภาค 2 ที่รวมแม้กระทั่งข่าวลือเกี่ยวกับโมเดล frontier แบบปิดซอร์สอย่าง o5, o3 Pro, o4 หรือ 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4 เป็นต้น
ขอบคุณที่สรุปความแตกต่างของสถาปัตยกรรม LLM แต่ละแบบไว้อย่างละเอียด ทำให้เข้าใจง่ายและมีคุณค่าด้านการเรียนรู้มาก
พูดตรงๆ ว่าเมื่อเทียบกับยุค GPT-2 (2019) ความเร็วของพัฒนาการทุกวันนี้แทบไม่น่าเชื่อ ทุกวันนี้แค่จะเปรียบเทียบประสิทธิภาพของ LLM ให้ถูกต้องก็ยังยาก เพราะมีโมเดลใหม่มาทุบสถิติเบนช์มาร์กทุกสองสัปดาห์ ดีใจที่มีการพูดถึง DeepSeek เพราะนวัตกรรมด้านสถาปัตยกรรมที่นำมาใช้ใน V3 ช่วยเพิ่มประสิทธิภาพการคำนวณได้มาก และเป็นจุดชี้ขาดที่ทำให้มันไม่มีจุดด้อยเมื่อเทียบกับโมเดลอื่นในเวลานั้น
แม้ว่าสถาปัตยกรรมใหม่ๆ มากมายจะสร้างนวัตกรรมด้านความแม่นยำหรือความเร็วได้มาก แต่ปัญหาพื้นฐานเรื่องการรับประกันการสร้างข้อมูลที่ถูกต้องก็ยังไม่ถูกแก้ไข วิธีต่างๆ อย่าง Retrieval Augmented Generation(RAG) หรือเอเจนต์ช่วยให้ปัญหานี้ดีขึ้นได้บ้าง แต่ก็น่าสงสัยว่าสถาปัตยกรรมในอนาคตจะมาแทนที่วิธีเหล่านี้ในที่สุดหรือไม่
- โดยพื้นฐานแล้ว Transformer ถูกฝึกโดยมีเป้าหมายเพื่อทำนายข้อความ และวิธีนี้มีข้อจำกัดในด้านการฝังตรรกะ หากจะลดอาการหลอนให้มากกว่านี้ ฉันคิดว่าจำเป็นต้องมีเป้าหมายการฝึกที่ต่างออกไปโดยสิ้นเชิง
- โมเดลแยกไม่ออกว่าในสถานการณ์ไหนควรทำการเหมารวมได้ และเมื่อไรที่ควรต้องมีข้อมูลเพิ่ม ตัวอย่างเช่น มันแยกได้ไม่ง่ายว่าทำไมบางเมธอดมีอยู่แต่ฟังก์ชันอื่นที่คล้ายกันกลับไม่มี ตอนเด็กๆ ฉันเคยเรียกแม่ว่า cooker อย่างภาคภูมิใจ เพราะไม่รู้ว่าคำที่ใช้กับเครื่องจักรและมนุษย์นั้นต่างกัน ความรู้สึกคือการเหมารวมจากคำที่คล้ายกันแบบนี้ก็เกิดขึ้นกับโมเดลเช่นกัน
- สถาปัตยกรรมรุ่นใหม่อย่าง DeepSeek-V2 และ Llama 3.1 แสดงผลให้เห็นว่าความเป็นข้อเท็จจริง (factuality) ดีขึ้นได้พอสมควรจากการปรับปรุงด้านการออกแบบเพียงอย่างเดียว โดยเฉพาะจากกลไก attention และเป้าหมายการฝึกที่ออกแบบมาเพื่อลดอาการหลอนโดยเฉพาะ
- RAG (การตอบกลับแบบอิงการค้นหา) มีโครงสร้างเรียบง่ายและนำไปใช้ได้ง่าย แต่ฉันก็สงสัยมาตลอดว่าทำไมมันยังไม่ถูกฝังเป็นส่วนหนึ่งของ LLM พื้นฐาน การที่มันยังถูกรวมเข้าไปภายในโมเดลไม่ได้เลย ดูเหมือนจะเป็นหลักฐานย้อนแย้งถึงข้อจำกัดพื้นฐานของ RAG หรือแนวทางดัดแปลงของมัน ถ้าเป็นวิธีที่มีประสิทธิภาพจริง ก็น่าจะถูกนำมาเป็นความสามารถพื้นฐานของสถาปัตยกรรม ไม่ใช่เป็นส่วนเสริมภายนอก
ฉันสั่งให้ Claude อ่านต้นฉบับแล้วลองเสนอแนวคิดสถาปัตยกรรมใหม่ดู
ลิงก์ผลงานของ Claude
แต่ก็ยังไม่แน่ใจว่าผลลัพธ์นี้จะใช้งานได้จริงแค่ไหน

เปรียบเทียบสถาปัตยกรรมของ LLM ขนาดใหญ่

บทนำ

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

บทสรุปและเทรนด์

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News