- Pangu Pro MoE นำสถาปัตยกรรม Mixture of Grouped Experts(MoGE) ที่ปรับแต่งให้เหมาะกับสภาพแวดล้อม Ascend NPU ของ Huawei มาใช้ เพื่อแก้ปัญหาความไม่สมดุลของภาระงานรายผู้เชี่ยวชาญในสภาพแวดล้อมแบบกระจายได้อย่างมีประสิทธิภาพ
- โมเดลนี้ออกแบบมาที่ขนาด พารามิเตอร์รวม 72 พันล้านตัว และเปิดใช้งาน เพียง 16 พันล้านพารามิเตอร์ต่อโทเค็น ช่วยเพิ่มทั้งประสิทธิภาพการคำนวณและความสามารถในการขยายระบบอย่างมาก
- สถาปัตยกรรม MoGE ใช้กฎการกระจายและการคัดเลือกแบบ สมดุลเท่ากันระหว่างแต่ละกลุ่มผู้เชี่ยวชาญ เพื่อให้ทุกอุปกรณ์มี สมดุลภาระงานอย่างสมบูรณ์ ส่งผลให้การอนุมานและการฝึกเร็วขึ้น
- ผลการประเมินประสิทธิภาพ แสดงให้เห็นว่า Pangu Pro MoE แซงหน้าโมเดลโอเพนซอร์สหลักอย่าง GLM-Z1-32B และ Qwen3-32B พร้อมแสดง ประสิทธิภาพการอนุมานและความคุ้มค่าต่อราคาที่อยู่ในระดับสูงสุด บนแพลตฟอร์ม Ascend 300I Duo/800I A2
- ผ่านการพรีเทรน การฟाइनจูน และการเรียนรู้แบบเสริมแรง ทำให้ได้ ความสามารถด้านการให้เหตุผลและการทำให้ทั่วไปที่แข็งแกร่งในหลายโดเมน บนชุดข้อมูลคุณภาพสูง
ภาพรวม
- ช่วงหลังมานี้ ในโมเดลภาษาขนาดใหญ่ (LLM) มีแนวโน้มใช้ Mixture of Experts(MoE) มากขึ้น เพื่อเพิ่มจำนวนพารามิเตอร์และความจุในการฝึก โดยไม่ทำให้ต้นทุนการคำนวณสูงขึ้น
- โครงสร้าง MoE จะเปิดใช้งานผู้เชี่ยวชาญ (Expert) เพียงบางส่วนสำหรับโทเค็นแต่ละตัวเพื่อลดการคำนวณ แต่ในทางปฏิบัติมักเกิด ภาวะภาระงานของผู้เชี่ยวชาญไม่สมดุล ที่มีผู้เชี่ยวชาญเพียงบางรายถูกเลือกซ้ำๆ
- ปัญหานี้ยิ่งลดประสิทธิภาพของทั้งระบบเมื่อโมเดลถูกกระจายไปยังหลายอุปกรณ์
- วิธี heuristic สำหรับบาลานซ์โหลดแบบเดิมช่วยได้เพียงบางส่วน และยังไม่ใช่คำตอบที่แก้ปัญหาที่ต้นตออย่างแท้จริง
แนะนำสถาปัตยกรรม Mixture of Grouped Experts(MoGE)
- MoGE แบ่งผู้เชี่ยวชาญ (Expert) ออกเป็น กลุ่ม (Group) ขนาดเท่ากัน และใช้ กลยุทธ์การทำ routing แบบสมดุลตามกลุ่ม ที่บังคับให้ในแต่ละโทเค็นต้องเปิดใช้งานผู้เชี่ยวชาญตามจำนวนที่กำหนดจากแต่ละกลุ่ม
- ด้วยแนวทางนี้ งานจะถูกกระจายอย่างสม่ำเสมอไปยังทุกอุปกรณ์ และทำให้ Imbalance Score(IS) เป็น 0 โดยการออกแบบ จึงได้สมดุลภาระงานที่สมบูรณ์แบบเสมอ
- สำหรับแต่ละโทเค็น ระบบจะคำนวณคะแนนเริ่มต้นของผู้เชี่ยวชาญทั้งหมดด้วย global Softmax router จากนั้นจึงเลือกเฉพาะผู้เชี่ยวชาญ Top-K′ ของแต่ละกลุ่ม และกำหนดคะแนนของผู้เชี่ยวชาญที่ไม่ได้รับเลือกเป็น 0
- โครงสร้างนี้เหมาะอย่างยิ่งกับ โมเดลขนาดใหญ่ในสภาพแวดล้อมแบบกระจาย (หลักหลายหมื่นล้านถึงแสนล้านพารามิเตอร์) โดยช่วยเพิ่มความเร็วการอนุมาน การฝึก และการใช้ทรัพยากรให้สูงสุด
โมเดล Pangu Pro MoE และการปรับแต่งสำหรับแพลตฟอร์ม Ascend
- Huawei พัฒนา Pangu Pro MoE ที่ปรับแต่งสำหรับแพลตฟอร์ม NPU Ascend 300I Duo และ 800I A2 (พารามิเตอร์รวม 71.9 พันล้านตัว, เปิดใช้งาน 16.5 พันล้านต่อโทเค็น)
- จากการทำ system simulation อย่างครอบคลุม บริษัทได้ปรับแต่งพารามิเตอร์ฮาร์ดแวร์หลากหลายด้านเพื่อดันประสิทธิภาพให้สูงสุด ทั้งโครงสร้างโมเดลและการตั้งค่าการทำงานขนานของฮาร์ดแวร์ (tensor/expert/pipeline/virtual pipeline parallelism)
- เคอร์เนลการคำนวณแบบคัสตอม (MulAttention, SwiftGMM เป็นต้น) ถูกปรับให้เข้ากับลักษณะเฉพาะของ Ascend เพื่อลด overhead ของการเข้าถึงหน่วยความจำ การสื่อสาร และการคำนวณ พร้อมขจัดคอขวดรายโอเปอเรเตอร์และเพิ่มอัตราการใช้แบนด์วิดท์
- ผลการจำลองเพื่อหาค่าที่เหมาะสมของขนาดแบตช์และประสิทธิภาพ แสดงให้เห็น throughput สูงสุด, latency ต่ำสุด และประสิทธิภาพการสื่อสารที่เหมาะสมที่สุดภายใต้ข้อจำกัดที่มี
การพรีเทรนและการออกแบบข้อมูลฝึก
องค์ประกอบของข้อมูล
- สร้างชุดข้อมูลคุณภาพสูงขนาดใหญ่ที่ประกอบด้วย 1.3京 (13 ล้านล้าน) โทเค็น บนพื้นฐาน tokenizer ภายใน ครอบคลุมแหล่งข้อมูลหลากหลาย เช่น เว็บ หนังสือ โค้ด STEM อุตสาหกรรม การให้เหตุผล และข้อมูลสังเคราะห์
- tokenizer ใช้กลยุทธ์ที่ให้ความสำคัญกับสมดุลระหว่างโดเมน เพื่อให้แม้แต่โดเมนเฉพาะทางก็มีความเป็นตัวแทนที่เพียงพอ
ขั้นตอนและกลยุทธ์การฝึก
- การพรีเทรน (Pre-training) ดำเนินการเป็น 3 ระยะ (ทั่วไป, การให้เหตุผล, annealing) โดยปรับเป้าหมายการฝึกและ data curriculum ในแต่ละระยะ
- ระยะทั่วไป: เรียนรู้ความรู้ทั่วไปและความสามารถทางภาษาในหลายสาขา
- ระยะการให้เหตุผล: เพิ่มสัดส่วนข้อมูลสำหรับการให้เหตุผลที่ซับซ้อนอย่าง STEM การเขียนโค้ด และปัญหาเชิงตรรกะที่ซับซ้อนให้มากที่สุด
- ระยะ annealing: ปรับแต่งเพิ่มเติมด้วยข้อมูลความยากสูงและข้อมูลสไตล์ instruction
- แต่ละระยะจะค่อยๆ ปรับ ความยาว sequence, ความยากของข้อมูล, ขนาดแบตช์, อัตราการเรียนรู้ เป็นต้น เพื่อให้โมเดลมีทั้งความสามารถในการทำให้ทั่วไปและความสามารถเฉพาะทาง
การประเมินข้อมูล
- มีระบบประเมินหลายโดเมนแบบอิงโมเดลโดยใช้โมเดลในตระกูล Pangu เอง เพื่อให้คะแนนสำคัญแก่ข้อมูลแต่ละชุด เช่น ความสะอาด ความลื่นไหล คุณค่าด้านการเรียนรู้ และความอุดมสมบูรณ์ แล้วนำไปใช้กับกลยุทธ์การสุ่มตัวอย่างและคัดเลือกข้อมูล
- มีการติดฉลากอย่างละเอียดรวม 188 หมวดหมู่ เพื่อบริหารการกระจายตัวและคุณลักษณะของข้อมูล
สภาพแวดล้อมพรีเทรนและการปรับแต่งประสิทธิภาพ
- Pangu Pro MoE ถูกฝึกและประเมินบน Huawei Ascend 800T A2 โดยชิปนี้ให้ ประสิทธิภาพ FP16 256TFlops, INT8 512TOPS และใช้พลังงานต่ำเพียง 310W จึงให้ทั้งสมรรถนะ AI สูงและความคุ้มค่าด้านต้นทุน
- ใช้แนวทางอย่าง การฝึกแบบ single epoch, AdamW optimizer, 3-stage cosine learning-rate schedule และการตั้งค่าแบตช์ขนาดใหญ่ เพื่อให้ได้ทั้งความสามารถในการทำให้ทั่วไปที่แข็งแรงและการปรับเฉพาะให้เข้ากับงานเป้าหมาย
โพสต์เทรนนิง (การฟाइनจูนต่อเนื่องและการเรียนรู้แบบเสริมแรง)
Supervised Fine-tuning(SFT)
- ข้อมูล SFT ถูกแบ่งเป็น 2 ชุดคือ 'การให้เหตุผล' และ 'ไม่ใช่การให้เหตุผล' โดย เพิ่มสัดส่วนข้อมูลด้านการให้เหตุผลเป็น 3:1 เพื่อเน้นงานซับซ้อนอย่างคณิตศาสตร์ โค้ด และการให้เหตุผลเชิงตรรกะ
- ผ่าน กลยุทธ์การปรับให้เหมาะสมแบบค่อยเป็นค่อยไป 2 ระยะ (จากคำสั่งง่ายในขอบเขตกว้าง ไปสู่การให้เหตุผลซับซ้อน) ทำให้ความสามารถในการให้เหตุผลเป็นขั้นตอนและความสามารถประมวลผลภาษาทั่วไปเติบโตอย่างสมดุล
- ในกระบวนการ SFT ยังเพิ่มกลยุทธ์ checkpoint merging เพื่อรวมโมเดลจากจุดกึ่งกลางของหลายช่วงได้อย่างมีประสิทธิภาพ ช่วยเสริมความทนทานและการทำให้ทั่วไป
การเรียนรู้แบบเสริมแรง(RL)
- ขั้นตอน RL ที่อิงรางวัลใช้ทั้งอัลกอริทึม Group Relative Policy Optimization(GRPO) และเทคนิค Zero-Advantage-Mask ที่มองข้ามตัวอย่างซึ่งไม่มีสัญญาณรางวัล เพื่อสนับสนุนทั้งการสำรวจนโยบายและการเรียนรู้อย่างมีประสิทธิภาพ
- มีระบบรางวัลหลายชั้น เช่น ความถูกต้อง ความพึงพอใจ และรางวัลเสริม โดยงานคณิตศาสตร์และโค้ดประเมินด้วยระบบอัตโนมัติ ส่วนงานโอเพนโดเมนใช้ผู้ตัดสินแบบ LLM แยกต่างหาก (Preference Model)
- ใช้ curriculum data mixing เพื่อปรับการกระจายความซับซ้อนของข้อมูลแบบไดนามิก มอบแรงกระตุ้นอย่างต่อเนื่องให้กับการเติบโตของโมเดล
การปรับแต่งระบบและโครงสร้างพื้นฐาน
ระบบฝึกบน Ascend NPU
- มีการนำ กลยุทธ์ Hierarchical & Hybrid Parallelism รวมถึงเทคโนโลยีขั้นสูงอย่าง EP All-to-All communication, Adaptive Pipeline Overlap และ operator fusion มาใช้เชิงรุก
- ช่วยเพิ่ม Model FLOPs Utilization(MFU) 35% และด้วย pipeline/virtual pipeline parallelism ก็สามารถกระจายภาระงานด้านการคำนวณและการสื่อสารในแต่ละขั้นได้อย่างสมบูรณ์ เสริมทั้งความสามารถในการขยายและ throughput
- ด้วย คัสตอมเคอร์เนล การใช้แบนด์วิดท์ HBM ให้คุ้มค่าสูงสุด และการตัด overhead ที่ไม่จำเป็นของการสื่อสารและหน่วยความจำ ทำให้ดึงประสิทธิภาพสูงสุดออกมาได้ในทุกขั้นตอนของการฝึกและการอนุมาน
- ระบบ Inference เองก็ให้ผลลัพธ์ด้าน throughput และ latency ที่ดีที่สุดตามโครงสร้างฮาร์ดแวร์แต่ละแบบ ด้วยการตั้งค่าการทำงานขนานอย่างยืดหยุ่นในระดับโมดูล เช่น Attention และ Expert (กลยุทธ์ H2P) พร้อมการปรับแต่งโอเปอเรเตอร์เฉพาะทาง
ประสิทธิภาพและเบนช์มาร์ก
- Pangu Pro MoE ทำความเร็วการอนุมานได้ 1148~1528 token/s (ต่อการ์ด)* ในสภาพแวดล้อม Ascend ซึ่งเหนือกว่าโมเดลพารามิเตอร์ใกล้เคียงกันอย่างชัดเจน (Open dense 32B, 72B)
- ในด้าน cost-to-performance ก็ยังทำได้ มีประสิทธิภาพโดดเด่นบน Ascend 300I Duo
- ในเบนช์มาร์กภายนอกหลากหลายชุด (การตัดสินใจ ตรรกะ การเขียนโค้ด ความเข้าใจเอกสาร ฯลฯ) โมเดลมีผลลัพธ์เหนือกว่าโมเดลเปิดขนาดใหญ่อย่าง GLM-Z1-32B, Qwen3-32B และ Gemma3-27B
- แสดงให้เห็นเชิงทดลองว่าเป็น LLM ระดับแนวหน้าของกลุ่มที่มีพารามิเตอร์ต่ำกว่า 100B
บทสรุปและนัยสำคัญ
- Pangu Pro MoE แก้ปัญหาภาระงานผู้เชี่ยวชาญไม่สมดุลที่ต้นตอ ในการฝึก/อนุมานแบบกระจายของโมเดลขนาดใหญ่ ด้วยการออกแบบสมดุลระดับกลุ่มผู้เชี่ยวชาญ
- ด้วยการปรับแต่งเฉพาะสำหรับแพลตฟอร์ม Ascend และความพยายามรอบด้านในการยกระดับคุณภาพข้อมูล จึงบรรลุ สมดุลหลายมิติระหว่างต้นทุน ความเร็ว และความสามารถในการทำให้ทั่วไป ในฐานะโมเดลภาษาขนาดใหญ่รุ่นถัดไป
- คาดว่าสถาปัตยกรรมและวิธีการนี้จะกลายเป็นกรณีอ้างอิงสำคัญสำหรับระบบนิเวศ LLM แบบกระจายขนาดใหญ่และการประยุกต์ใช้ในอุตสาหกรรมที่หลากหลายในอนาคต
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เหตุผลที่การประกาศสถาปัตยกรรมครั้งนี้น่าตื่นเต้นมากจริงๆ คือมีความเป็นไปได้ที่นักพัฒนารายเล็กจะสามารถแข่งขันกับบริษัทยักษ์ใหญ่ได้ด้วย GPU ราคาถูกเท่านั้น ท้ายที่สุดมันชี้ให้เห็นว่าการพัฒนา AI แบบโอเพนที่อาศัยการระดมพลังจากฝูงชนสามารถทำได้จริงในเชิงเทคนิค ซึ่งจีนก็กำลังวิจัยเรื่องนี้อยู่ และตั้งเป้าไปที่ระดับที่แข่งกับโมเดลแบบ monolithic ได้ ตอนแรกผมก็สงสัยกับมาตรการคว่ำบาตรของสหรัฐ แต่ถ้าสิ่งนี้ทำได้สมบูรณ์ตามตรรกะจริงๆ ก็ถือว่าเป็นความสำเร็จที่ยิ่งใหญ่มาก
ใบอนุญาตระบุห้ามใช้งานหรือติดตั้งในสหภาพยุโรป ทำให้สงสัยว่าการเขียนไลเซนส์แบบประมาณว่า "ข้อจำกัดนี้มีไว้เพื่อการคุ้มครองเท่านั้น และจะไม่บังคับใช้จริง" สามารถทำได้หรือไม่ ผมคิดว่าอาจเรียกถ้อยคำลักษณะนี้ว่า ‘isolating clause’ แต่ก็ไม่แน่ใจว่าผู้พิพากษาจะยอมรับว่าเป็นช่องทางเลี่ยงกฎหมายได้หรือเปล่า ดูคล้ายตอน Meta เปิดเผยน้ำหนักของ llama ผมคิดว่าแก่นของกฎหมาย AI ของยุโรปคือการควบคุมการใช้งาน AI แบบเฉพาะเจาะจง และน่าจะไม่รวมถึงแค่การแจกจ่าย weights กับสถาปัตยกรรม การห้ามแจกจ่ายดูเหมือนจะช่วยให้ชาวยุโรปมีตัวเลือกและการแข่งขันมากขึ้นจริงๆ เลยสงสัยว่ามันถูกห้ามตามกฎหมายจริงหรือไม่ อีกด้านหนึ่ง ถ้าติดตั้ง open weights ก็ต้องระวังด้านความปลอดภัย เพราะอาจมี backdoor ได้ เช่น ช่องโหว่ที่ใช้พรอมป์ตบางแบบเพื่อควบคุมระบบ ผมจำได้ว่าเคยเห็นงานวิจัยที่ยกตัวอย่างชุดสัญลักษณ์อย่าง '0?,#2!' ซึ่งสามารถทำให้ LLM อยู่ในสภาพที่ใครบางคนอ่านข้อมูลลับที่ซ่อนไว้ได้ผ่าน prompt injection เลยสงสัยว่าสามารถป้องกันหรือลดผลของการโจมตีแบบนี้ด้วยการ fine-tuning หรือ LoRA ได้ไหม หรือมีไลบรารี Python ที่ช่วยด้านการป้องกันหรือไม่ ถ้าดาวน์โหลด ติดตั้ง แล้วปรับแต่งด้วย fine-tuning หรือ LoRA จะช่วยป้องกันได้ไหม
ดาวน์โหลด weights ได้จาก gitcode
ถ้าตอนนี้ LLM ชนกับขีดจำกัดด้านการสเกลแล้ว และจากนี้ประสิทธิภาพจะเป็นตัวตัดสิน ผมสงสัยว่าจะเกิดตลาดของโมเดลขนาดเล็กที่โฟกัสกับ use case เฉพาะหรือไม่ ตอนนี้ผมใช้ Gemini ดึงข้อมูลแบบมีโครงสร้างจากภาพ และโมเดล flash ทำได้ดีมาก เลยสงสัยว่าต้องใช้แรงมากแค่ไหนในการทำโมเดลน้ำหนักเบาสำหรับงานเฉพาะบนอุปกรณ์เล็กๆ อย่าง NUC และ AMD APU หรืออาจจะมีอุปกรณ์แบบแท่ง external GPU ขนาดจิ๋วสำหรับงานเฉพาะเกิดขึ้นก็น่าสนใจ แม้เชิงพาณิชย์อาจไม่ใช่ตลาดใหญ่มาก แต่ก็ดูเจ๋งดี
ผมคิดว่ามาตรการคว่ำบาตรเป็นเพียงทางออกชั่วคราว ตามอุดมคติแล้วมันมีไว้เพื่อซื้อเวลาให้สร้างขีดความสามารถในประเทศ แต่กลับกลายเป็นว่าสหรัฐกำลังบั่นทอนศักยภาพตัวเอง ทั้งจากการตัดงบวิจัยและการลดการไหลเข้าของนักศึกษาและนักวิจัยต่างชาติ ขณะที่จีนจะเข้าสู่เส้นทางการเติบโต
ข่าวนี้เก่าไปหลายวันแล้ว ข่าวเรื่อง Tencent เปิดซอร์สโมเดล AI แบบไฮบริดดูได้ที่ TechInAsia และมี ลิงก์ GitHub ด้วย
Sic transit gloria nvidii(แม้แต่ความรุ่งโรจน์ของ Nvidia ก็ย่อมผ่านพ้นไปเช่นนี้)
ผมมีเพื่อนชาวจีนคนหนึ่ง เขาเข้าร่วมสตาร์ทอัพฮาร์ดแวร์จีนในตำแหน่งวิศวกรผู้ก่อตั้งเมื่อ 6 ปีก่อน แล้วมาตรการคว่ำบาตรก็มาถึง ตอนเจอกันล่าสุดเขาบอกว่านั่นเป็นเหตุการณ์ที่ดีที่สุดในชีวิต เพราะบริษัทในจีนเลิกซื้อสินค้าที่มีต้นทางจากตะวันตกไปเลย ทำให้บริษัทของเขาโตมาก ตอนนี้ทุกคนมองว่ามาตรการคว่ำบาตรเป็นเรื่อง ‘ปกติ’ แล้ว ผลลัพธ์จึงมีแค่การพึ่งพาตัวเองและโฟกัสที่การเติบโต
ผมสงสัยว่าหลังการคว่ำบาตร เรื่องนี้มีความหมายอย่างไร Huawei ที่เคยโดนเล่นงานหนักในตลาดสมาร์ตโฟนกำลังได้โอกาสโต้กลับด้วย GPU ที่พัฒนาเองใช่ไหม แล้วประสิทธิภาพของ GPU นี้เมื่อเทียบกับ GPU รุ่นใหม่ฝั่งตะวันตกเป็นอย่างไร และสิ่งนี้หมายความว่าตอนนี้ Huawei มีความสามารถพอจะทำ GPU นี้ออกสู่ตลาดเชิงพาณิชย์แล้วหรือไม่
เพื่อให้มีการแข่งขันกับ TSMC และ Nvidia ได้ ในมุมของ node size โลกจำเป็นต้องมีภูมิทัศน์การแข่งขันที่ Huawei และจีนเข้ามาทัดทานด้วย