Mixture of Experts (MoE) คืออะไร — ทำไม DeepSeek ถึงมีพารามิเตอร์ 1.6 ล้านล้านแต่รันได้ในต้นทุนต่ำ
(app-place-tech.com)Mixture of Experts (MoE) คืออะไร — ทำไม DeepSeek ถึงมีพารามิเตอร์ 1.6 ล้านล้านแต่รันได้ในต้นทุนต่ำ
บทความนี้อธิบายด้วยสถาปัตยกรรม MoE ว่าทำไม DeepSeek V4 ซึ่งมีพารามิเตอร์ 1.6 ล้านล้าน จึงสามารถให้บริการได้ในราคาประมาณหนึ่งในสิบของ GPT-5.5
MoE ประกอบด้วยซับโมเดลผู้เชี่ยวชาญ (Expert) หลายตัว และเราเตอร์ (gating network) ที่ทำหน้าที่ตัดสินใจว่าจะใช้ผู้เชี่ยวชาญตัวใด หัวใจสำคัญคือในแต่ละโทเค็น จะมีการเปิดใช้งานแบบเลือกเฉพาะบางส่วนจากพารามิเตอร์ทั้งหมดเท่านั้น โมเดลแบบหนาแน่น (Dense Model) แบบเดิมนั้นไม่ว่าข้อมูลนำเข้าจะเป็นอะไร ทุกพารามิเตอร์จะเข้าร่วมในการคำนวณทั้งหมด แต่ใน MoE เราเตอร์จะเลือกเฉพาะผู้เชี่ยวชาญไม่กี่ตัวที่เหมาะสมที่สุดมาประมวลผล
ตามเกณฑ์ของ DeepSeek V4-Pro จากพารามิเตอร์ทั้งหมด 1.6 ล้านล้าน จะมีเพียง 49 พันล้านพารามิเตอร์ต่อโทเค็น (ประมาณ 3%) ที่ถูกเปิดใช้งาน กล่าวได้ว่ามันบรรจุความรู้ในระดับ 1.6 ล้านล้านพารามิเตอร์ไว้ แต่ต้นทุนการอนุมานจริงใกล้เคียงกับโมเดลระดับ 49 พันล้านพารามิเตอร์ โดยทั่วไป MoE ช่วยเพิ่มความคุ้มค่าด้านประสิทธิภาพต่อราคาได้ 3–5 เท่าเมื่อเทียบกับโมเดลแบบหนาแน่นที่มีขนาดเท่ากัน
อย่างไรก็ตามก็มีข้อเสียเช่นกัน แม้การคำนวณจะเป็นแบบ sparse แต่ก็ยังต้องโหลดพารามิเตอร์ของผู้เชี่ยวชาญทั้งหมดไว้ในหน่วยความจำ ทำให้ต้องการ VRAM สูง และระหว่างการฝึกยังต้องจัดการปัญหาความไม่สมดุลที่ภาระงานไปกระจุกตัวอยู่กับผู้เชี่ยวชาญบางตัวเป็นพิเศษ
ณ ปี 2026 โมเดลชั้นแนวหน้าส่วนใหญ่ เช่น GPT-4, Gemini 1.5, Mixtral และซีรีส์ DeepSeek ล้วนมีพื้นฐานมาจาก MoE นี่เป็นผลจากการที่การแข่งขันของโมเดล AI เปลี่ยนจากการเน้นขนาดเพียงอย่างเดียว ไปสู่การเน้นประสิทธิภาพต่อราคาจนทำให้ MoE กลายเป็นสถาปัตยกรรมมาตรฐานโดยพฤตินัย
4 ความคิดเห็น
ปี 2026 ยังเป็น GPT-4 กับ Gemini 1.5 อยู่อีกเหรอ? นี่มันเป็นบทความ AI slop แบบโจ่งแจ้งเลยนะ
สำหรับโมเดลล่าสุดนั้น มักไม่ได้เปิดเผยรายละเอียดวิธีการทำงานภายในมากนัก จึงดูเหมือนว่าในขั้นตอนค้นคว้าข้อมูลจะมีการยกโมเดลก่อนหน้านี้มาอ้างอิง และมีความเป็นไปได้สูงว่าโมเดลที่ออกมาหลัง GPT-5 ล้วนสืบทอดสถาปัตยกรรม MoE เพราะโมเดลแบบขนานโอเพนซอร์สก็ใช้โครงสร้าง MoE เช่นกัน ส่วนโมเดลแบบปิดในช่วงหลัง ๆ มักไม่เปิดเผยสถาปัตยกรรม จึงยังไม่อาจสรุปเป็นข้อเท็จจริงอย่างเป็นทางการได้
หมายความว่าในบรรดา frontier model หลักที่ใช้ MoE นั้น GPT-5.5 ไม่ได้ใช้ MoE ใช่ไหมครับ?
49B ก็มหาศาลทีเดียวครับ