- Huawei ถูกเปิดโปงจากภายในว่าได้คัดลอกโมเดล AI ขนาดใหญ่ของ Qwen และ DeepSeek แล้วนำเสนอเป็นผลิตภัณฑ์ของตนเองภายใต้ชื่อ ‘Pangu’
- ตามคำให้การของ พนักงานภายในทีม Pangu โมเดลบางตัวที่ใช้งานจริงไม่ได้พัฒนาขึ้นเอง แต่เป็นการนำโมเดลโอเพนซอร์สภายนอกมาเปลี่ยนชื่อ
- ในทางเทคนิคพบว่าโมเดลสำคัญอย่าง 135B V2 และ Pro MoE 72B มีความสอดคล้องกับสถาปัตยกรรมของ Qwen และ DeepSeek ในระดับสูง
- ภายในองค์กร แนวปฏิบัติดังกล่าวทำให้ ขวัญกำลังใจของนักวิจัยตกต่ำและเกิดการลาออก อีกทั้งความไร้ประสิทธิภาพด้านการบริหารและนโยบายบุคลากรที่ไม่โปร่งใสยิ่งซ้ำเติมปัญหา
- แม้จะมี โมเดลที่พัฒนาขึ้นเองอย่างแท้จริง (เช่น Pangu V3) อยู่ด้วย แต่ธรรมเนียมการคัดลอกและวัฒนธรรมวิจัยที่ไม่ได้รับการยอมรับได้ทิ้งบาดแผลใหญ่ต่อความน่าเชื่อถือของทั้งองค์กร
- ผู้เปิดโปงตัดสินใจเปิดเผยความจริงโดยใช้ชื่อจริงของตนเอง พร้อมเรียกร้องให้องค์กรทบทวนตนเองและเปลี่ยนแปลง
โศกนาฏกรรมของ Pangu: เบื้องลึกอันเจ็บปวดของโมเดลขนาดใหญ่ Pangu ใน Huawei Noah Ark Lab
การแนะนำตัวของผู้เปิดโปงและบรรยากาศหน้างาน
- ผู้เขียนสังกัด ทีมโมเดลขนาดใหญ่ Noah Pangu ของ Huawei และยืนยันตัวตนผ่านข้อมูลภายในที่สอดคล้องกับโครงสร้างองค์กร-โครงการและองค์ประกอบผู้นำ
- โครงการ Pangu ในความเป็นจริงใกล้เคียงกับองค์กรส่งมอบงานมากกว่าองค์กรวิจัย ต้องเผชิญกับเดดไลน์ซ้ำแล้วซ้ำเล่า การทำงานเกินกำลัง และแรงกดดันจากการประเมินกับการรายงานอย่างต่อเนื่อง
- ความเข้มข้นของงานและระบบราชการภายในรุนแรงมาก หลายคนต้องอยู่หอพัก ห่างครอบครัวเป็นเวลานาน และทำงานวันหยุดสุดสัปดาห์อยู่บ่อยครั้ง
- ในทางปฏิบัติ วัฒนธรรมองค์กรที่ครอบงำคือการยึดกำหนดส่งมอบและผลงานของแต่ละสายผลิตภัณฑ์ (Cloud, ICT เป็นต้น) มากกว่าความเป็นอิสระและความคิดสร้างสรรค์ในการวิจัย
คืนที่นอนไม่หลับ กับจิตวิญญาณแห่งการสร้างสรรค์ที่ถูกเหยียบย่ำ
- หลังเกิดข้อถกเถียงเรื่องการลอกเลียนโมเดล Qwen นักวิจัยบางส่วนรู้สึก อับอาย โกรธ และหมดแรงใจ พร้อมกัน
- ตัวผู้เปิดโปงเองหวาดกลัวการตอบโต้จากบริษัทยักษ์ใหญ่และเครือข่ายภายใน แต่ไม่อาจทนต่อ การปกปิดข้อเท็จจริงและการประชาสัมพันธ์เท็จต่อภายนอก ได้อีก จึงตัดสินใจสารภาพตามมโนธรรม
อุปสรรคทางเทคนิค และจุดเริ่มต้นของการลอกเลียน
- โมเดล Pangu รุ่นแรกพยายามฝึกบนพื้นฐานของ Huawei Ascend NPU ด้วยตนเอง แต่เผชิญความลองผิดลองถูกอย่างหนัก เช่น ประสิทธิภาพของ tokenizer และสมรรถนะของโมเดลที่ย่ำแย่
- ทีมตามหลังโมเดลที่ใช้ GPU ของคู่แข่ง (Alibaba, Zhipu) และการฝึกโมเดล dense 230B ที่พัฒนาขึ้นเองก็จบลงด้วยความล้มเหลว
- จากนั้น ห้องแล็บโมเดลขนาดเล็ก แม้จะห่อหุ้มว่าเป็น “การพัฒนาขึ้นเอง” แต่แท้จริงแล้วได้สร้าง 135B V2 ที่คัดลอกและปรับแต่งเพียงเล็กน้อยจากโมเดล Qwen-1.5 (110B) เพื่อส่งมอบใช้งาน และแม้แต่ภายในก็เห็นความคล้ายคลึงกันของโค้ดและโครงสร้าง
- ผู้นำหลักและฝ่ายบริหารทราบข้อเท็จจริงเหล่านี้ แต่ก็เพิกเฉยโดยอ้างแรงกดดันจากผลงานและผลลัพธ์ภายนอก
ความสำเร็จทางเทคนิคที่แท้จริง: Pangu V3
- หลังพยายามอย่างหนัก ทีมได้ฝึกโมเดล Pangu V3 (135B Ultra) ที่พัฒนาขึ้นเองทั้งหมดตั้งแต่ต้นบน Ascend อย่างเป็นอิสระ
- ทีมฝ่าฟันอุปสรรคทางเทคนิคหลายอย่าง (เช่น การรวม tokenizer ให้เป็นหนึ่งเดียว การทำให้ loss curve เสถียร เป็นต้น) จนบรรลุสมรรถนะใกล้เคียงคู่แข่ง
- ความสำเร็จนี้เป็นหลักฐานของ การพัฒนาโมเดลขนาดใหญ่ด้วยตนเองอย่างอิสระ ไม่ใช่การลอกเลียน และเป็นที่มาของความภาคภูมิใจของนักวิจัย
เบื้องหลังการแบ่งงาน คือความเหนื่อยยากที่ไม่ได้รับการยอมรับ
- ห้องแล็บโมเดลขนาดเล็กยังคง นำข้อมูล โค้ด และผลลัพธ์ไปใช้เพื่อดัดแปลง/เผยแพร่โมเดลได้อย่างง่ายดาย ขณะที่ผลงานและรางวัลตอบแทนส่วนใหญ่ตกเป็นขององค์กรดังกล่าว
- ด้วยเหตุนี้ นักวิจัยที่ทุ่มเทจำนวนมากจึงลาออกจากองค์กร หรือกล่าวอย่างขมขื่นว่านี่จะกลายเป็นรอยด่างในเส้นทางวิชาชีพด้านเทคนิคของตน
กรณีลอกเลียนรอบสอง เช่น 224B MoE/718B clone
- แม้แต่ในกระบวนการพัฒนาโมเดล 718B MoE ตัวใหม่ ก็ยังมีการ คัดลอก DeepSeekv3 แทบทั้งดุ้นแล้วตั้งชื่อว่า Pangu Pro MoE 72B ก่อนนำไปเผยแพร่
- ภายในต่างรับรู้แนวปฏิบัติเช่นนี้ แต่บรรยากาศโดยรวมคือการปิดปากกันไว้เพราะ ความอยู่รอดของแต่ละคนและความกลัวต่อการเปิดโปงความจริง
การบริหารจัดการเชิงธุรการที่บิดเบี้ยว
- สำหรับนักวิจัยตัวจริง มีการใช้ กระบวนการ สายตระกูลของโมเดล และระบบตรวจสอบ อย่างเข้มงวด จนทำให้ความเร็วในการพัฒนาล่าช้า
- แต่ในกรณีของโมเดลที่คัดลอก กลับมีมาตรฐานสองชั้นที่ฝังรากลึกในลักษณะว่า “ถ้ามาจากข้างบนก็ผ่านหมด”
เหตุผลของการเปิดโปงและการตัดสินใจลาออก
- หลังเหตุการณ์ HonestAGI บริษัทเริ่มเดินมาตรการจัดการวิกฤตและความพยายามปกปิดภายในในระดับองค์กร
- ผู้เปิดโปงระบุว่าไม่อาจมีส่วนร่วมกับ “รายงานปลอม” และการสมคบคิดภายในได้อีกต่อไป พร้อมขอให้ลบชื่อของตนออกจากรายชื่อทีมและรายงานต่าง ๆ และแสดงเจตนาจะลาออกด้วยตนเอง
คำวิงวอนครั้งสุดท้ายและความผูกพันต่อเพื่อนร่วมงาน
- เพื่อนร่วมงานจำนวนมากได้ย้ายไปยังบริษัทอื่นอย่าง ByteDance, DeepSeek, Tencent, Kuaishou ซึ่งสะท้อนว่า Huawei กำลังเผชิญปัญหาสมองไหลอย่างรุนแรง
- ผู้เปิดโปงย้ำว่า หากมีนวัตกรรม สภาพแวดล้อมที่เหมาะสม และอุปสรรคทางการเมืองที่น้อยลง ก็จะสามารถพัฒนา โมเดลขนาดใหญ่และชิประดับโลก ได้เช่นกัน
- ยังแสดงเจตจำนงว่าจะยอมรับแม้แต่ความเสี่ยงต่อความปลอดภัยของตนเองและครอบครัวจากการเปิดเผยความจริงนี้และการเปิดโปงเพิ่มเติมในอนาคต
คำอธิบายเพิ่มเติมของสถานการณ์
- ในกรณีโคลน 135B V2 ห้องแล็บโมเดลขนาดเล็กได้รับแต่ผลประโยชน์ เช่น รางวัลและอินเซนทีฟ ขณะที่ภาระการสนับสนุน downstream และการบำรุงรักษาถูกผลักไปให้ทีมผู้พัฒนาดั้งเดิม (4th brigade)
- แม้แต่ในการระบุรายชื่อผู้เขียน รายงานทางเทคนิคของ Pangu ก็ยังมีธรรมเนียมทางวิชาการที่ไม่เป็นธรรมอย่างแพร่หลาย เช่น ตัดชื่อผู้ที่มีส่วนสำคัญจริงในการพัฒนาโมเดลออก และใส่ชื่อผู้ที่ไม่ได้มีส่วนร่วมจากห้องแล็บโมเดลขนาดเล็กเข้าไป
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News