Huawei เปิดตัวโมเดลโอเพนเวตที่ฝึกบน Ascend GPU

(arxiv.org)

2 คะแนน โดย GN⁺ 2025-07-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Pangu Pro MoE นำสถาปัตยกรรม Mixture of Grouped Experts(MoGE) ที่ปรับแต่งให้เหมาะกับสภาพแวดล้อม Ascend NPU ของ Huawei มาใช้ เพื่อแก้ปัญหาความไม่สมดุลของภาระงานรายผู้เชี่ยวชาญในสภาพแวดล้อมแบบกระจายได้อย่างมีประสิทธิภาพ
โมเดลนี้ออกแบบมาที่ขนาด พารามิเตอร์รวม 72 พันล้านตัว และเปิดใช้งาน เพียง 16 พันล้านพารามิเตอร์ต่อโทเค็น ช่วยเพิ่มทั้งประสิทธิภาพการคำนวณและความสามารถในการขยายระบบอย่างมาก
สถาปัตยกรรม MoGE ใช้กฎการกระจายและการคัดเลือกแบบ สมดุลเท่ากันระหว่างแต่ละกลุ่มผู้เชี่ยวชาญ เพื่อให้ทุกอุปกรณ์มี สมดุลภาระงานอย่างสมบูรณ์ ส่งผลให้การอนุมานและการฝึกเร็วขึ้น
ผลการประเมินประสิทธิภาพ แสดงให้เห็นว่า Pangu Pro MoE แซงหน้าโมเดลโอเพนซอร์สหลักอย่าง GLM-Z1-32B และ Qwen3-32B พร้อมแสดง ประสิทธิภาพการอนุมานและความคุ้มค่าต่อราคาที่อยู่ในระดับสูงสุด บนแพลตฟอร์ม Ascend 300I Duo/800I A2
ผ่านการพรีเทรน การฟाइनจูน และการเรียนรู้แบบเสริมแรง ทำให้ได้ ความสามารถด้านการให้เหตุผลและการทำให้ทั่วไปที่แข็งแกร่งในหลายโดเมน บนชุดข้อมูลคุณภาพสูง

ภาพรวม

ช่วงหลังมานี้ ในโมเดลภาษาขนาดใหญ่ (LLM) มีแนวโน้มใช้ Mixture of Experts(MoE) มากขึ้น เพื่อเพิ่มจำนวนพารามิเตอร์และความจุในการฝึก โดยไม่ทำให้ต้นทุนการคำนวณสูงขึ้น
โครงสร้าง MoE จะเปิดใช้งานผู้เชี่ยวชาญ (Expert) เพียงบางส่วนสำหรับโทเค็นแต่ละตัวเพื่อลดการคำนวณ แต่ในทางปฏิบัติมักเกิด ภาวะภาระงานของผู้เชี่ยวชาญไม่สมดุล ที่มีผู้เชี่ยวชาญเพียงบางรายถูกเลือกซ้ำๆ
ปัญหานี้ยิ่งลดประสิทธิภาพของทั้งระบบเมื่อโมเดลถูกกระจายไปยังหลายอุปกรณ์
วิธี heuristic สำหรับบาลานซ์โหลดแบบเดิมช่วยได้เพียงบางส่วน และยังไม่ใช่คำตอบที่แก้ปัญหาที่ต้นตออย่างแท้จริง

แนะนำสถาปัตยกรรม Mixture of Grouped Experts(MoGE)

MoGE แบ่งผู้เชี่ยวชาญ (Expert) ออกเป็น กลุ่ม (Group) ขนาดเท่ากัน และใช้ กลยุทธ์การทำ routing แบบสมดุลตามกลุ่ม ที่บังคับให้ในแต่ละโทเค็นต้องเปิดใช้งานผู้เชี่ยวชาญตามจำนวนที่กำหนดจากแต่ละกลุ่ม
ด้วยแนวทางนี้ งานจะถูกกระจายอย่างสม่ำเสมอไปยังทุกอุปกรณ์ และทำให้ Imbalance Score(IS) เป็น 0 โดยการออกแบบ จึงได้สมดุลภาระงานที่สมบูรณ์แบบเสมอ
สำหรับแต่ละโทเค็น ระบบจะคำนวณคะแนนเริ่มต้นของผู้เชี่ยวชาญทั้งหมดด้วย global Softmax router จากนั้นจึงเลือกเฉพาะผู้เชี่ยวชาญ Top-K′ ของแต่ละกลุ่ม และกำหนดคะแนนของผู้เชี่ยวชาญที่ไม่ได้รับเลือกเป็น 0
โครงสร้างนี้เหมาะอย่างยิ่งกับ โมเดลขนาดใหญ่ในสภาพแวดล้อมแบบกระจาย (หลักหลายหมื่นล้านถึงแสนล้านพารามิเตอร์) โดยช่วยเพิ่มความเร็วการอนุมาน การฝึก และการใช้ทรัพยากรให้สูงสุด

โมเดล Pangu Pro MoE และการปรับแต่งสำหรับแพลตฟอร์ม Ascend

Huawei พัฒนา Pangu Pro MoE ที่ปรับแต่งสำหรับแพลตฟอร์ม NPU Ascend 300I Duo และ 800I A2 (พารามิเตอร์รวม 71.9 พันล้านตัว, เปิดใช้งาน 16.5 พันล้านต่อโทเค็น)
จากการทำ system simulation อย่างครอบคลุม บริษัทได้ปรับแต่งพารามิเตอร์ฮาร์ดแวร์หลากหลายด้านเพื่อดันประสิทธิภาพให้สูงสุด ทั้งโครงสร้างโมเดลและการตั้งค่าการทำงานขนานของฮาร์ดแวร์ (tensor/expert/pipeline/virtual pipeline parallelism)
เคอร์เนลการคำนวณแบบคัสตอม (MulAttention, SwiftGMM เป็นต้น) ถูกปรับให้เข้ากับลักษณะเฉพาะของ Ascend เพื่อลด overhead ของการเข้าถึงหน่วยความจำ การสื่อสาร และการคำนวณ พร้อมขจัดคอขวดรายโอเปอเรเตอร์และเพิ่มอัตราการใช้แบนด์วิดท์
ผลการจำลองเพื่อหาค่าที่เหมาะสมของขนาดแบตช์และประสิทธิภาพ แสดงให้เห็น throughput สูงสุด, latency ต่ำสุด และประสิทธิภาพการสื่อสารที่เหมาะสมที่สุดภายใต้ข้อจำกัดที่มี

การพรีเทรนและการออกแบบข้อมูลฝึก

องค์ประกอบของข้อมูล

สร้างชุดข้อมูลคุณภาพสูงขนาดใหญ่ที่ประกอบด้วย 1.3京 (13 ล้านล้าน) โทเค็น บนพื้นฐาน tokenizer ภายใน ครอบคลุมแหล่งข้อมูลหลากหลาย เช่น เว็บ หนังสือ โค้ด STEM อุตสาหกรรม การให้เหตุผล และข้อมูลสังเคราะห์
tokenizer ใช้กลยุทธ์ที่ให้ความสำคัญกับสมดุลระหว่างโดเมน เพื่อให้แม้แต่โดเมนเฉพาะทางก็มีความเป็นตัวแทนที่เพียงพอ

ขั้นตอนและกลยุทธ์การฝึก

การพรีเทรน (Pre-training) ดำเนินการเป็น 3 ระยะ (ทั่วไป, การให้เหตุผล, annealing) โดยปรับเป้าหมายการฝึกและ data curriculum ในแต่ละระยะ
- ระยะทั่วไป: เรียนรู้ความรู้ทั่วไปและความสามารถทางภาษาในหลายสาขา
- ระยะการให้เหตุผล: เพิ่มสัดส่วนข้อมูลสำหรับการให้เหตุผลที่ซับซ้อนอย่าง STEM การเขียนโค้ด และปัญหาเชิงตรรกะที่ซับซ้อนให้มากที่สุด
- ระยะ annealing: ปรับแต่งเพิ่มเติมด้วยข้อมูลความยากสูงและข้อมูลสไตล์ instruction
แต่ละระยะจะค่อยๆ ปรับ ความยาว sequence, ความยากของข้อมูล, ขนาดแบตช์, อัตราการเรียนรู้ เป็นต้น เพื่อให้โมเดลมีทั้งความสามารถในการทำให้ทั่วไปและความสามารถเฉพาะทาง

การประเมินข้อมูล

มีระบบประเมินหลายโดเมนแบบอิงโมเดลโดยใช้โมเดลในตระกูล Pangu เอง เพื่อให้คะแนนสำคัญแก่ข้อมูลแต่ละชุด เช่น ความสะอาด ความลื่นไหล คุณค่าด้านการเรียนรู้ และความอุดมสมบูรณ์ แล้วนำไปใช้กับกลยุทธ์การสุ่มตัวอย่างและคัดเลือกข้อมูล
มีการติดฉลากอย่างละเอียดรวม 188 หมวดหมู่ เพื่อบริหารการกระจายตัวและคุณลักษณะของข้อมูล

สภาพแวดล้อมพรีเทรนและการปรับแต่งประสิทธิภาพ

Pangu Pro MoE ถูกฝึกและประเมินบน Huawei Ascend 800T A2 โดยชิปนี้ให้ ประสิทธิภาพ FP16 256TFlops, INT8 512TOPS และใช้พลังงานต่ำเพียง 310W จึงให้ทั้งสมรรถนะ AI สูงและความคุ้มค่าด้านต้นทุน
ใช้แนวทางอย่าง การฝึกแบบ single epoch, AdamW optimizer, 3-stage cosine learning-rate schedule และการตั้งค่าแบตช์ขนาดใหญ่ เพื่อให้ได้ทั้งความสามารถในการทำให้ทั่วไปที่แข็งแรงและการปรับเฉพาะให้เข้ากับงานเป้าหมาย

โพสต์เทรนนิง (การฟाइनจูนต่อเนื่องและการเรียนรู้แบบเสริมแรง)

Supervised Fine-tuning(SFT)

ข้อมูล SFT ถูกแบ่งเป็น 2 ชุดคือ 'การให้เหตุผล' และ 'ไม่ใช่การให้เหตุผล' โดย เพิ่มสัดส่วนข้อมูลด้านการให้เหตุผลเป็น 3:1 เพื่อเน้นงานซับซ้อนอย่างคณิตศาสตร์ โค้ด และการให้เหตุผลเชิงตรรกะ
ผ่าน กลยุทธ์การปรับให้เหมาะสมแบบค่อยเป็นค่อยไป 2 ระยะ (จากคำสั่งง่ายในขอบเขตกว้าง ไปสู่การให้เหตุผลซับซ้อน) ทำให้ความสามารถในการให้เหตุผลเป็นขั้นตอนและความสามารถประมวลผลภาษาทั่วไปเติบโตอย่างสมดุล
ในกระบวนการ SFT ยังเพิ่มกลยุทธ์ checkpoint merging เพื่อรวมโมเดลจากจุดกึ่งกลางของหลายช่วงได้อย่างมีประสิทธิภาพ ช่วยเสริมความทนทานและการทำให้ทั่วไป

การเรียนรู้แบบเสริมแรง(RL)

ขั้นตอน RL ที่อิงรางวัลใช้ทั้งอัลกอริทึม Group Relative Policy Optimization(GRPO) และเทคนิค Zero-Advantage-Mask ที่มองข้ามตัวอย่างซึ่งไม่มีสัญญาณรางวัล เพื่อสนับสนุนทั้งการสำรวจนโยบายและการเรียนรู้อย่างมีประสิทธิภาพ
มีระบบรางวัลหลายชั้น เช่น ความถูกต้อง ความพึงพอใจ และรางวัลเสริม โดยงานคณิตศาสตร์และโค้ดประเมินด้วยระบบอัตโนมัติ ส่วนงานโอเพนโดเมนใช้ผู้ตัดสินแบบ LLM แยกต่างหาก (Preference Model)
ใช้ curriculum data mixing เพื่อปรับการกระจายความซับซ้อนของข้อมูลแบบไดนามิก มอบแรงกระตุ้นอย่างต่อเนื่องให้กับการเติบโตของโมเดล

การปรับแต่งระบบและโครงสร้างพื้นฐาน

ระบบฝึกบน Ascend NPU

มีการนำ กลยุทธ์ Hierarchical & Hybrid Parallelism รวมถึงเทคโนโลยีขั้นสูงอย่าง EP All-to-All communication, Adaptive Pipeline Overlap และ operator fusion มาใช้เชิงรุก
ช่วยเพิ่ม Model FLOPs Utilization(MFU) 35% และด้วย pipeline/virtual pipeline parallelism ก็สามารถกระจายภาระงานด้านการคำนวณและการสื่อสารในแต่ละขั้นได้อย่างสมบูรณ์ เสริมทั้งความสามารถในการขยายและ throughput
ด้วย คัสตอมเคอร์เนล การใช้แบนด์วิดท์ HBM ให้คุ้มค่าสูงสุด และการตัด overhead ที่ไม่จำเป็นของการสื่อสารและหน่วยความจำ ทำให้ดึงประสิทธิภาพสูงสุดออกมาได้ในทุกขั้นตอนของการฝึกและการอนุมาน
ระบบ Inference เองก็ให้ผลลัพธ์ด้าน throughput และ latency ที่ดีที่สุดตามโครงสร้างฮาร์ดแวร์แต่ละแบบ ด้วยการตั้งค่าการทำงานขนานอย่างยืดหยุ่นในระดับโมดูล เช่น Attention และ Expert (กลยุทธ์ H2P) พร้อมการปรับแต่งโอเปอเรเตอร์เฉพาะทาง

ประสิทธิภาพและเบนช์มาร์ก

Pangu Pro MoE ทำความเร็วการอนุมานได้ 1148~1528 token/s (ต่อการ์ด)* ในสภาพแวดล้อม Ascend ซึ่งเหนือกว่าโมเดลพารามิเตอร์ใกล้เคียงกันอย่างชัดเจน (Open dense 32B, 72B)
ในด้าน cost-to-performance ก็ยังทำได้ มีประสิทธิภาพโดดเด่นบน Ascend 300I Duo
ในเบนช์มาร์กภายนอกหลากหลายชุด (การตัดสินใจ ตรรกะ การเขียนโค้ด ความเข้าใจเอกสาร ฯลฯ) โมเดลมีผลลัพธ์เหนือกว่าโมเดลเปิดขนาดใหญ่อย่าง GLM-Z1-32B, Qwen3-32B และ Gemma3-27B
แสดงให้เห็นเชิงทดลองว่าเป็น LLM ระดับแนวหน้าของกลุ่มที่มีพารามิเตอร์ต่ำกว่า 100B

บทสรุปและนัยสำคัญ

Pangu Pro MoE แก้ปัญหาภาระงานผู้เชี่ยวชาญไม่สมดุลที่ต้นตอ ในการฝึก/อนุมานแบบกระจายของโมเดลขนาดใหญ่ ด้วยการออกแบบสมดุลระดับกลุ่มผู้เชี่ยวชาญ
ด้วยการปรับแต่งเฉพาะสำหรับแพลตฟอร์ม Ascend และความพยายามรอบด้านในการยกระดับคุณภาพข้อมูล จึงบรรลุ สมดุลหลายมิติระหว่างต้นทุน ความเร็ว และความสามารถในการทำให้ทั่วไป ในฐานะโมเดลภาษาขนาดใหญ่รุ่นถัดไป
คาดว่าสถาปัตยกรรมและวิธีการนี้จะกลายเป็นกรณีอ้างอิงสำคัญสำหรับระบบนิเวศ LLM แบบกระจายขนาดใหญ่และการประยุกต์ใช้ในอุตสาหกรรมที่หลากหลายในอนาคต

1 ความคิดเห็น

GN⁺ 2025-07-03

ความคิดเห็นจาก Hacker News

เหตุผลที่การประกาศสถาปัตยกรรมครั้งนี้น่าตื่นเต้นมากจริงๆ คือมีความเป็นไปได้ที่นักพัฒนารายเล็กจะสามารถแข่งขันกับบริษัทยักษ์ใหญ่ได้ด้วย GPU ราคาถูกเท่านั้น ท้ายที่สุดมันชี้ให้เห็นว่าการพัฒนา AI แบบโอเพนที่อาศัยการระดมพลังจากฝูงชนสามารถทำได้จริงในเชิงเทคนิค ซึ่งจีนก็กำลังวิจัยเรื่องนี้อยู่ และตั้งเป้าไปที่ระดับที่แข่งกับโมเดลแบบ monolithic ได้ ตอนแรกผมก็สงสัยกับมาตรการคว่ำบาตรของสหรัฐ แต่ถ้าสิ่งนี้ทำได้สมบูรณ์ตามตรรกะจริงๆ ก็ถือว่าเป็นความสำเร็จที่ยิ่งใหญ่มาก
- ผมคิดว่ามาตรการคว่ำบาตรสามารถพาโลกไปในทางที่ดีขึ้นได้จริงในหลายด้าน (ไม่ได้พูดประชด) เช่น ช่วยกระตุ้นความหลากหลายของคอมพิวต์ การกระจายตัวของการผลิต และการปรับปรุงอื่นๆ อีกหลายอย่าง
- Deepseek-R1 ตอนนี้ก็อยู่ในระดับใกล้เคียง GPT 4.1 แล้ว เปิดให้ใช้แบบ open weight และ open source แถมยังเปิดซอร์สโค้ดส่วน inference ด้วย
- ผมเองก็สนใจเครือข่ายเทรน GPU แบบโอเพน peer-to-peer คล้าย SETI@Home
- สำหรับคำถามว่า AI แบบโอเพนที่ระดมพลังจากฝูงชนทำได้จริงทางเทคนิคไหม มีตัวอย่างที่ทำได้แล้วคือ Intellect-2 ของ PrimeIntellect.ai
- คิดว่าเป็นพัฒนาการที่น่าสนใจ แต่จะเป็นเรื่องดีหรือไม่ก็ขึ้นอยู่กับว่าเทคโนโลยี AI จะกลายเป็นภัยคุกคามต่อการอยู่รอดของมนุษย์หรือเปล่า ฟังดูอาจเหมือนพูดเกินจริง แต่จริงๆ มีคนจำนวนมากที่คิดเรื่องนี้อย่างจริงจังมาก
ใบอนุญาตระบุห้ามใช้งานหรือติดตั้งในสหภาพยุโรป ทำให้สงสัยว่าการเขียนไลเซนส์แบบประมาณว่า "ข้อจำกัดนี้มีไว้เพื่อการคุ้มครองเท่านั้น และจะไม่บังคับใช้จริง" สามารถทำได้หรือไม่ ผมคิดว่าอาจเรียกถ้อยคำลักษณะนี้ว่า ‘isolating clause’ แต่ก็ไม่แน่ใจว่าผู้พิพากษาจะยอมรับว่าเป็นช่องทางเลี่ยงกฎหมายได้หรือเปล่า ดูคล้ายตอน Meta เปิดเผยน้ำหนักของ llama ผมคิดว่าแก่นของกฎหมาย AI ของยุโรปคือการควบคุมการใช้งาน AI แบบเฉพาะเจาะจง และน่าจะไม่รวมถึงแค่การแจกจ่าย weights กับสถาปัตยกรรม การห้ามแจกจ่ายดูเหมือนจะช่วยให้ชาวยุโรปมีตัวเลือกและการแข่งขันมากขึ้นจริงๆ เลยสงสัยว่ามันถูกห้ามตามกฎหมายจริงหรือไม่ อีกด้านหนึ่ง ถ้าติดตั้ง open weights ก็ต้องระวังด้านความปลอดภัย เพราะอาจมี backdoor ได้ เช่น ช่องโหว่ที่ใช้พรอมป์ตบางแบบเพื่อควบคุมระบบ ผมจำได้ว่าเคยเห็นงานวิจัยที่ยกตัวอย่างชุดสัญลักษณ์อย่าง '0?,#2!' ซึ่งสามารถทำให้ LLM อยู่ในสภาพที่ใครบางคนอ่านข้อมูลลับที่ซ่อนไว้ได้ผ่าน prompt injection เลยสงสัยว่าสามารถป้องกันหรือลดผลของการโจมตีแบบนี้ด้วยการ fine-tuning หรือ LoRA ได้ไหม หรือมีไลบรารี Python ที่ช่วยด้านการป้องกันหรือไม่ ถ้าดาวน์โหลด ติดตั้ง แล้วปรับแต่งด้วย fine-tuning หรือ LoRA จะช่วยป้องกันได้ไหม
- Huawei ไม่มีสิทธิ์ควบคุมพฤติกรรมของพลเมืองสหภาพยุโรป และจริงๆ ก็ไม่น่าจำเป็นต้องใส่ข้อจำกัดนี้เลย ในฐานะพลเมือง EU ผมคิดว่าควรศึกษากฎหมายด้วยตัวเอง และหลีกเลี่ยงโมเดลที่เสี่ยงเพื่อปกป้องตัวเอง
- ในมุมความปลอดภัย โค้ดทุกชิ้นที่ LLM สร้างขึ้นไม่ควรเชื่อถือโดยอัตโนมัติและต้องมีการตรวจทานเสมอ
- มีการยกตัวอย่างไลเซนส์โค้ดेकของ Alliance for Open Media ว่าเป็นเงื่อนไขคล้าย ‘isolating clause’ โค้ดेकนั้นใช้ฟรีแบบ royalty-free แต่ถ้าฟ้องร้องทางกฎหมายเกี่ยวกับการใช้ฟอร์แมต สิทธิ์การใช้งานจะถูกเพิกถอนตามเงื่อนไขไลเซนส์
ดาวน์โหลด weights ได้จาก gitcode
- แต่ตามไลเซนส์ มีการห้ามอย่างชัดเจนไม่ให้เข้าถึง ดาวน์โหลด ติดตั้ง รัน แจกจ่าย รวมเข้ากับระบบ แก้ไข หรือใช้งานในรูปแบบอื่นใดภายใน EU ลิงก์ไลเซนส์อยู่ที่นี่
- ชอบที่ใช้คำว่า ‘open weight’ ที่แม่นยำแทนคำว่า ‘open source’ แต่ก็สงสัยว่า open weight น่าสนใจจริงแค่ไหน มันช่วยให้รู้ถึงอคติของโมเดล (หรือการไม่มีอคติ) ได้หรือไม่ นำไปใช้ฝึกโมเดลคู่แข่งได้ไหม อยากเข้าใจความต่าง รวมถึงข้อดีข้อเสียของ open source กับ open weight และอยากรู้ด้วยว่าในยุค LLM คำพูดที่ว่า ‘weights ก็คือ source’ นั้นสมเหตุสมผลแค่ไหน
ถ้าตอนนี้ LLM ชนกับขีดจำกัดด้านการสเกลแล้ว และจากนี้ประสิทธิภาพจะเป็นตัวตัดสิน ผมสงสัยว่าจะเกิดตลาดของโมเดลขนาดเล็กที่โฟกัสกับ use case เฉพาะหรือไม่ ตอนนี้ผมใช้ Gemini ดึงข้อมูลแบบมีโครงสร้างจากภาพ และโมเดล flash ทำได้ดีมาก เลยสงสัยว่าต้องใช้แรงมากแค่ไหนในการทำโมเดลน้ำหนักเบาสำหรับงานเฉพาะบนอุปกรณ์เล็กๆ อย่าง NUC และ AMD APU หรืออาจจะมีอุปกรณ์แบบแท่ง external GPU ขนาดจิ๋วสำหรับงานเฉพาะเกิดขึ้นก็น่าสนใจ แม้เชิงพาณิชย์อาจไม่ใช่ตลาดใหญ่มาก แต่ก็ดูเจ๋งดี
- ประเด็นเรื่อง 'โมเดลขนาดเล็กที่โฟกัสกับ use case เฉพาะ' เป็นหัวข้อสำคัญใน HN อยู่แล้ว: "Small language models are the future of agentic AI"
- ระหว่างหาดูโมเดลสำหรับ named entity extraction ก็ไปเจอ dslim/bert-base-NER ซึ่งมีพารามิเตอร์ 108 ล้านตัว
- แนวทางนี้มีอยู่แล้วในชื่อ ‘model distillation’ คือให้ LLM ขนาดใหญ่สร้างเลเบล แล้วให้โมเดลเล็กเฉพาะทางทำ inference ได้ถูกกว่าถึง 1000 เท่า
- ทำให้นึกถึงยุคที่เอา ASIC เสียบพอร์ต USB เพื่อขุดบิตคอยน์
ผมคิดว่ามาตรการคว่ำบาตรเป็นเพียงทางออกชั่วคราว ตามอุดมคติแล้วมันมีไว้เพื่อซื้อเวลาให้สร้างขีดความสามารถในประเทศ แต่กลับกลายเป็นว่าสหรัฐกำลังบั่นทอนศักยภาพตัวเอง ทั้งจากการตัดงบวิจัยและการลดการไหลเข้าของนักศึกษาและนักวิจัยต่างชาติ ขณะที่จีนจะเข้าสู่เส้นทางการเติบโต
ข่าวนี้เก่าไปหลายวันแล้ว ข่าวเรื่อง Tencent เปิดซอร์สโมเดล AI แบบไฮบริดดูได้ที่ TechInAsia และมี ลิงก์ GitHub ด้วย
Sic transit gloria nvidii(แม้แต่ความรุ่งโรจน์ของ Nvidia ก็ย่อมผ่านพ้นไปเช่นนี้)
- เกร็ดด้านภาษาศาสตร์: 'invidia' ในภาษาละตินแปลว่า ‘ความอิจฉา’
- นี่แหละช่วงเวลาที่การเรียนภาษาละติน 5 ปีได้เปล่งประกาย
- ขอทักนิดหนึ่ง แต่รูปสัมพันธการกเอกพจน์ที่ถูกต้องคือ nvidiae; i เป็นปัจจัยลงท้ายแบบผัน o
- รูปที่ถูกต้องคือ Sic transit gloria nvidiae
- ความเห็นที่ดีที่สุดที่อ่านวันนี้เลย ยอดเยี่ยมมาก
ผมมีเพื่อนชาวจีนคนหนึ่ง เขาเข้าร่วมสตาร์ทอัพฮาร์ดแวร์จีนในตำแหน่งวิศวกรผู้ก่อตั้งเมื่อ 6 ปีก่อน แล้วมาตรการคว่ำบาตรก็มาถึง ตอนเจอกันล่าสุดเขาบอกว่านั่นเป็นเหตุการณ์ที่ดีที่สุดในชีวิต เพราะบริษัทในจีนเลิกซื้อสินค้าที่มีต้นทางจากตะวันตกไปเลย ทำให้บริษัทของเขาโตมาก ตอนนี้ทุกคนมองว่ามาตรการคว่ำบาตรเป็นเรื่อง ‘ปกติ’ แล้ว ผลลัพธ์จึงมีแค่การพึ่งพาตัวเองและโฟกัสที่การเติบโต
- ผลกระทบแตกต่างกันไปตามอุตสาหกรรม ก่อนคว่ำบาตร บริษัทซอฟต์แวร์ EDA รายเล็กซึ่งแทบเอาตัวรอดไม่ไหวเพราะช่องว่างทางเทคโนโลยีมหาศาลเมื่อเทียบกับผู้เล่นใหญ่อย่าง Synopsys ตอนนี้กลับได้ลูกค้าใหม่จำนวนมากจากความต้องการลดความเสี่ยง เรื่องนี้เรียกว่า ‘hormesis’
ผมสงสัยว่าหลังการคว่ำบาตร เรื่องนี้มีความหมายอย่างไร Huawei ที่เคยโดนเล่นงานหนักในตลาดสมาร์ตโฟนกำลังได้โอกาสโต้กลับด้วย GPU ที่พัฒนาเองใช่ไหม แล้วประสิทธิภาพของ GPU นี้เมื่อเทียบกับ GPU รุ่นใหม่ฝั่งตะวันตกเป็นอย่างไร และสิ่งนี้หมายความว่าตอนนี้ Huawei มีความสามารถพอจะทำ GPU นี้ออกสู่ตลาดเชิงพาณิชย์แล้วหรือไม่
- Huawei เป็นบริษัทที่ใหญ่กว่าที่หลายคนคิดมาก ไม่ใช่แค่สถานีฐาน 5G แต่ยังใหญ่ในหลายด้านตั้งแต่มือถือไปจนถึงรถยนต์ไฟฟ้า
- เรื่องคำว่า “โอกาสโต้กลับ” นั้น ยอดขายสมาร์ตโฟนของ Huawei ในจีนแซง Apple ไปแล้ว ดูข้อมูลส่วนแบ่งตลาดแบบละเอียด
- ในแง่ฮาร์ดแวร์ Huawei สามารถทำโทรศัพท์ที่แข่งขันได้สบาย ปัญหาคืออธิบายความคุ้มค่าในการซื้อได้ยากเมื่อไม่มี Google Play Store
- แนะนำลิงก์วิดีโอ YouTube ที่อธิบายภาพรวมของ Huawei
เพื่อให้มีการแข่งขันกับ TSMC และ Nvidia ได้ ในมุมของ node size โลกจำเป็นต้องมีภูมิทัศน์การแข่งขันที่ Huawei และจีนเข้ามาทัดทานด้วย
- ถ้าไม่นับประเด็นภูมิรัฐศาสตร์ นี่คือสถานการณ์ที่ดีมาก แต่ AI เป็นดาบสองคม และการแข่งขันในตลาดผู้บริโภคก็มีแนวโน้มสูงที่จะกลายเป็นการแข่งขันด้านอาวุธ เมื่อพิจารณาความสามารถด้านการผลิตและต้นทุนแรงงานของจีน สุดท้ายจีนอาจเป็นฝ่ายชนะได้ เพียงแต่ก่อนจะไปถึงจุดนั้น จำเป็นต้องมี ASML แบบทำซ้ำได้ก่อน ซึ่งในอนาคตอันใกล้ยังไม่สมจริง
- ถ้าสหรัฐยกเลิกข้อจำกัดการส่งออกชิป ผมรู้สึกว่ารัฐบาลจีนอาจหันไปออกข้อจำกัดการนำเข้าเองด้วยซ้ำ เพราะผลประโยชน์จากการสร้างคู่แข่งตัวจริงของ Nvidia/TSMC/Apple/Google นั้นมากกว่ามาก

Huawei เปิดตัวโมเดลโอเพนเวตที่ฝึกบน Ascend GPU

ภาพรวม

แนะนำสถาปัตยกรรม Mixture of Grouped Experts(MoGE)

โมเดล Pangu Pro MoE และการปรับแต่งสำหรับแพลตฟอร์ม Ascend

การพรีเทรนและการออกแบบข้อมูลฝึก

องค์ประกอบของข้อมูล

ขั้นตอนและกลยุทธ์การฝึก

การประเมินข้อมูล

สภาพแวดล้อมพรีเทรนและการปรับแต่งประสิทธิภาพ

โพสต์เทรนนิง (การฟाइनจูนต่อเนื่องและการเรียนรู้แบบเสริมแรง)

Supervised Fine-tuning(SFT)

การเรียนรู้แบบเสริมแรง(RL)

การปรับแต่งระบบและโครงสร้างพื้นฐาน

ระบบฝึกบน Ascend NPU

ประสิทธิภาพและเบนช์มาร์ก

บทสรุปและนัยสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News