- สถาปัตยกรรม LLM ในช่วง 7 ปีหลัง ตั้งแต่ GPT-2 (2019) ไปจนถึง DeepSeek-V3 และ Llama 4 (2024-2025) มีการพัฒนาโดย ไม่ได้เปลี่ยนแปลงโครงสร้างครั้งใหญ่มากนัก และยังคงมี ความคล้ายคลึงกัน อย่างน่าทึ่ง
- โมเดลรุ่นใหม่อย่าง DeepSeek V3/R1, Llama 4 ได้นำแนวทางเพิ่มประสิทธิภาพใหม่ ๆ เช่น Mixture-of-Experts(MoE), MLA, Sliding Window Attention มาใช้เพื่อปรับปรุง ประสิทธิภาพการใช้หน่วยความจำ และ สมรรถนะด้านการอนุมาน
- โมเดลโอเพนซอร์สบางตัว เช่น OLMo 2, Gemma 3 ได้รับความสนใจในฐานะตัวอย่างการออกแบบที่ดีสำหรับงานวิจัยและพัฒนา ด้วย การเปิดเผยข้อมูลอย่างโปร่งใสและการจัดวาง normalization layer ที่มีเอกลักษณ์
- มีโมเดลที่หลากหลายทั้งด้านขนาดและโครงสร้าง เช่น Qwen3, SmolLM3, Kimi 2 ทำให้มีตัวเลือกกว้างขึ้นตามข้อดีข้อเสียของ สถาปัตยกรรม MoE และ Dense และวัตถุประสงค์การใช้งาน
- เทรนด์ร่วมของ LLM ยุคล่าสุด คือการขยายขนาดและเพิ่มความซับซ้อน ควบคู่ไปกับการปรับปรุงโครงสร้างเพื่อประสิทธิภาพ และการรองรับสภาพแวดล้อมฮาร์ดแวร์ที่หลากหลาย
บทนำ
- หากดูตั้งแต่ต้นแบบ GPT ในปี 2017 ผ่าน GPT-2 (2019) จนถึง DeepSeek-V3 และ Llama 4 (2024-2025) จะเห็นว่า สถาปัตยกรรม LLM ในภาพใหญ่ยังคล้ายกันมาก (โครงสร้างทรานส์ฟอร์เมอร์พื้นฐานแทบไม่เปลี่ยนไป)
- Positional embedding เปลี่ยนจากแบบสัมบูรณ์ไปเป็นวิธีอย่าง RoPE และ Multi-Head Attention ก็ขยับไปใช้ GQA (Grouped Query Attention) ที่มีประสิทธิภาพด้านหน่วยความจำ/การคำนวณดีกว่า แต่ โครงสร้างพื้นฐานยังคงเดิม
- การเปรียบเทียบประสิทธิภาพทำได้ยากในเชิงโครงสร้างโดยตรง เพราะขึ้นอยู่กับชุดข้อมูลและวิธีการฝึก
- เนื้อหานี้จะวิเคราะห์โดยเน้นที่ การเปลี่ยนแปลงเชิงสถาปัตยกรรม ของ open LLM รุ่นล่าสุด
1. DeepSeek V3/R1
- DeepSeek R1 (มกราคม 2025) สร้างขึ้นบนสถาปัตยกรรม DeepSeek V3 (ธันวาคม 2024) และได้รับความสนใจจาก ความสามารถด้านการอนุมาน ที่ก้าวหน้าและจำนวนพารามิเตอร์ขนาดใหญ่ (671B)
- สถาปัตยกรรมหลัก: Multi-Head Latent Attention(MLA), Mixture-of-Experts(MoE)
- MLA: บีบอัด Key/Value ให้มีมิติต่ำลงเพื่อลดหน่วยความจำของ KV cache และให้ประสิทธิภาพดีกว่า GQA
- MoE: กระจายโมดูล FeedForward ออกเป็น expert หลายตัว เป็นโครงสร้างแบบ sparse ที่เปิดใช้งานเพียงบาง expert ต่อหนึ่งโทเค็น
- DeepSeek V3: มี expert 256 ตัว, พารามิเตอร์รวม 671B, และใช้เพียง 9 expert (37B พารามิเตอร์) ระหว่างการอนุมาน
- มี shared expert ที่ทำงานตลอดเวลาเพื่อเพิ่มประสิทธิภาพในการเรียนรู้รูปแบบทั่วไป
- จุดเด่น: แม้จะเป็นโมเดลขนาดใหญ่ (671B) แต่ยังมีประสิทธิภาพการอนุมานสูง, MLA เหนือกว่า GQA ในด้านประสิทธิภาพ, และ MoE ช่วยเพิ่มความจุในการฝึกขนาดใหญ่
2. OLMo 2
- โมเดลเปิดเต็มรูปแบบ จาก Allen Institute for AI
- จุดเด่นคือ ความโปร่งใสของการออกแบบและการเปิดเผยโค้ด มากกว่าการแข่งขันด้านประสิทธิภาพ
- จุดสำคัญด้านสถาปัตยกรรม: ตำแหน่งของ RMSNorm (ใช้ Post-Norm), QK-Norm
- GPT แบบดั้งเดิมใช้ Pre-Norm ขณะที่ OLMo 2 ใช้ normalization หลัง Attention/FeedForward (แนวทางแบบ Post-Norm)
- QK-Norm: เพิ่ม RMSNorm ให้กับ query/key ของ Attention เพื่อปรับปรุงเสถียรภาพในการฝึก
- ยังคงโครงสร้าง Multi-Head Attention(MHA) แบบดั้งเดิม
- คล้ายกับ Llama 3 เป็นต้น แต่แตกต่างที่กลยุทธ์ normalization
3. Gemma 3
- open LLM หลักของ Google โดยมีจุดเด่นคือ คลังคำศัพท์ขนาดใหญ่เพื่อรองรับหลายภาษา และการมุ่งเน้นไปที่โมเดลขนาด 27B
- ใช้ Sliding Window Attention (หน้าต่างแบบโลคัล) เพื่อลดหน่วยความจำของ KV cache อย่างมาก
- Gemma 2: Global/Local 1:1, window 4k, Gemma 3: สัดส่วน 5:1, ลด window เหลือ 1024
- แทบไม่ส่งผลต่อประสิทธิภาพ (Perplexity)
- Normalization: ใช้ทั้ง Pre-Norm และ Post-Norm RMSNorm รอบโมดูล GQA
- Gemma 3n: รองรับอุปกรณ์ขนาดเล็ก โดยทำให้เบาลงด้วย Per-Layer Embedding(ให้เฉพาะพารามิเตอร์รายชั้นอยู่บน GPU) และ MatFormer(แบ่งใช้โมเดลบางส่วน)
4. Mistral Small 3.1
- Mistral Small 3.1 24B เร็วกว่า Gemma 3 27B และอยู่ในกลุ่มบนของเบนช์มาร์ก
- ใช้ tokenizer แบบปรับแต่งเอง และลดขนาด KV cache กับจำนวนเลเยอร์เพื่อลด latency ในการอนุมานให้ต่ำที่สุด
- เลิกใช้ sliding window attention และหันไปใช้ GQA ที่ปรับแต่งแล้ว + FlashAttention เพื่อเน้นความเร็วในการอนุมานและประสิทธิภาพของโค้ด
5. Llama 4
- นำสถาปัตยกรรม MoE มาใช้อย่างจริงจัง เพื่อให้ได้ทั้งประสิทธิภาพการอนุมานและความจุของโมเดล โดยมีโครงสร้างคล้ายกับ DeepSeek-V3
- ใช้ GQA แต่มีจำนวน expert และ hidden size แตกต่างกัน
- DeepSeek-V3: 9 expert (2,048), Llama 4: 2 expert (8,192), active parameter 17B (DeepSeek 37B)
- ใช้ การออกแบบ MoE แบบคลาสสิก โดยสลับแทรกบล็อก MoE กับบล็อก Dense
- สะท้อนให้เห็น การแพร่หลายของ MoE ใน LLM ยุคใหม่
6. Qwen3
- มีทั้งเวอร์ชัน Dense หลายขนาด (0.6B~32B) และ MoE (30B-A3B, 235B-A22B)
- รุ่นเล็ก (0.6B) มี ประสิทธิภาพการฝึก การอนุมาน และ token throughput ดีมาก โดย ให้ประสิทธิภาพโดดเด่นในกลุ่ม LLM น้ำหนักเบามาก พร้อมทั้งมีประสิทธิภาพด้านหน่วยความจำและความสะดวกในการฝึกยอดเยี่ยม
- Dense: มีจำนวนเลเยอร์มากกว่า ใช้หน่วยความจำน้อยกว่า แต่ช้ากว่า (เมื่อเทียบกับ Llama 3 1B)
- MoE: Qwen3 235B-A22B มี active parameter 22B และไม่ใช้ shared expert (ขณะที่ Qwen2.5-MoE รุ่นก่อนหน้ามี shared expert) จึงมีประสิทธิภาพสูงขึ้น
- Qwen3 235B-A22B และ DeepSeek-V3 มีความคล้ายกันมากในโครงสร้างโดยรวม
- มีทั้ง Dense และ MoE ให้เลือก จึงรองรับ วัตถุประสงค์การใช้งานที่หลากหลาย
7. SmolLM3
- โมเดลขนาดเล็กระดับ 3B พารามิเตอร์ แข่งขันกับ Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
- สถาปัตยกรรมโดยรวมค่อนข้างมาตรฐาน แต่ใช้ NoPE(No Positional Embedding)
- ใช้เพียง causal mask โดยไม่มี positional encoding อย่าง RoPE
- ช่วยเพิ่มความสามารถในการทั่วไปกับความยาวลำดับ (Length Generalization) ในซีเควนซ์ยาว
- เป็นโครงสร้างเชิงทดลอง และใช้เฉพาะบางเลเยอร์
8. Kimi 2
- โมเดลเปิดขนาดใหญ่ระดับ 1 ล้านล้านพารามิเตอร์ และถือว่าใหญ่ที่สุดในกลุ่ม open model
- อิงจากโครงสร้างของ DeepSeek-V3 โดยขยายจำนวนเลเยอร์ MoE และปรับจำนวน head ของ MLA
- ใช้ Muon optimizer แทน AdamW ในการฝึก เพื่อเพิ่มประสิทธิภาพการฝึกและให้ loss decay ที่ดีกว่า
- มี MoE expert มากกว่า DeepSeek-V3 และลดจำนวน MLA head ลง
- สะสมประสบการณ์จาก Kimi 1.5 ก่อนมาสู่ Kimi 2 ที่ เปิดเผย open weights และทำผลงานได้ในระดับสูงสุด
บทสรุปและเทรนด์
- LLM ยุคล่าสุดยังคงโครงสร้างพื้นฐานเดิมไว้ แต่มีลักษณะเด่นคือ การขยายขนาดสถาปัตยกรรม การนำ MoE และโครงสร้างเพิ่มประสิทธิภาพรูปแบบต่าง ๆ มาใช้
- สำหรับ open model การเปิดเผยข้อมูล การออกแบบ และโค้ดอย่างโปร่งใส ทำให้มีคุณค่าสูงขึ้นทั้งในงานวิจัยและการใช้งานเชิงอุตสาหกรรม
- แต่ละโมเดลมีจุดมุ่งหมายในการเพิ่มประสิทธิภาพต่างกัน ทั้ง Dense และ MoE, MLA·GQA·Sliding Window Attention รวมถึงกลยุทธ์ normalization ที่หลากหลาย
- เป็นช่วงเวลาที่ ตัวเลือกด้านสถาปัตยกรรมมีความหลากหลายมากขึ้น ตามสภาพแวดล้อมฮาร์ดแวร์ วัตถุประสงค์การใช้งาน และประสิทธิภาพในการฝึก/การอนุมาน
2 ความคิดเห็น
ดูเหมือนว่า qwen จะรองรับภาษาเกาหลีได้ดีครับ
ความเห็นจาก Hacker News
ลิงก์ผลงานของ Claude
แต่ก็ยังไม่แน่ใจว่าผลลัพธ์นี้จะใช้งานได้จริงแค่ไหน