Huawei ถูกกล่าวหาว่าโคลนโมเดล Qwen และ DeepSeek แล้วอ้างว่าเป็นโมเดลของตนเอง

(dilemmaworks.substack.com)

2 คะแนน โดย GN⁺ 2025-07-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Huawei ถูกเปิดโปงจากภายในว่าได้คัดลอกโมเดล AI ขนาดใหญ่ของ Qwen และ DeepSeek แล้วนำเสนอเป็นผลิตภัณฑ์ของตนเองภายใต้ชื่อ ‘Pangu’
ตามคำให้การของ พนักงานภายในทีม Pangu โมเดลบางตัวที่ใช้งานจริงไม่ได้พัฒนาขึ้นเอง แต่เป็นการนำโมเดลโอเพนซอร์สภายนอกมาเปลี่ยนชื่อ
ในทางเทคนิคพบว่าโมเดลสำคัญอย่าง 135B V2 และ Pro MoE 72B มีความสอดคล้องกับสถาปัตยกรรมของ Qwen และ DeepSeek ในระดับสูง
ภายในองค์กร แนวปฏิบัติดังกล่าวทำให้ ขวัญกำลังใจของนักวิจัยตกต่ำและเกิดการลาออก อีกทั้งความไร้ประสิทธิภาพด้านการบริหารและนโยบายบุคลากรที่ไม่โปร่งใสยิ่งซ้ำเติมปัญหา
แม้จะมี โมเดลที่พัฒนาขึ้นเองอย่างแท้จริง (เช่น Pangu V3) อยู่ด้วย แต่ธรรมเนียมการคัดลอกและวัฒนธรรมวิจัยที่ไม่ได้รับการยอมรับได้ทิ้งบาดแผลใหญ่ต่อความน่าเชื่อถือของทั้งองค์กร
ผู้เปิดโปงตัดสินใจเปิดเผยความจริงโดยใช้ชื่อจริงของตนเอง พร้อมเรียกร้องให้องค์กรทบทวนตนเองและเปลี่ยนแปลง

โศกนาฏกรรมของ Pangu: เบื้องลึกอันเจ็บปวดของโมเดลขนาดใหญ่ Pangu ใน Huawei Noah Ark Lab

การแนะนำตัวของผู้เปิดโปงและบรรยากาศหน้างาน

ผู้เขียนสังกัด ทีมโมเดลขนาดใหญ่ Noah Pangu ของ Huawei และยืนยันตัวตนผ่านข้อมูลภายในที่สอดคล้องกับโครงสร้างองค์กร-โครงการและองค์ประกอบผู้นำ
โครงการ Pangu ในความเป็นจริงใกล้เคียงกับองค์กรส่งมอบงานมากกว่าองค์กรวิจัย ต้องเผชิญกับเดดไลน์ซ้ำแล้วซ้ำเล่า การทำงานเกินกำลัง และแรงกดดันจากการประเมินกับการรายงานอย่างต่อเนื่อง
ความเข้มข้นของงานและระบบราชการภายในรุนแรงมาก หลายคนต้องอยู่หอพัก ห่างครอบครัวเป็นเวลานาน และทำงานวันหยุดสุดสัปดาห์อยู่บ่อยครั้ง
ในทางปฏิบัติ วัฒนธรรมองค์กรที่ครอบงำคือการยึดกำหนดส่งมอบและผลงานของแต่ละสายผลิตภัณฑ์ (Cloud, ICT เป็นต้น) มากกว่าความเป็นอิสระและความคิดสร้างสรรค์ในการวิจัย

คืนที่นอนไม่หลับ กับจิตวิญญาณแห่งการสร้างสรรค์ที่ถูกเหยียบย่ำ

หลังเกิดข้อถกเถียงเรื่องการลอกเลียนโมเดล Qwen นักวิจัยบางส่วนรู้สึก อับอาย โกรธ และหมดแรงใจ พร้อมกัน
ตัวผู้เปิดโปงเองหวาดกลัวการตอบโต้จากบริษัทยักษ์ใหญ่และเครือข่ายภายใน แต่ไม่อาจทนต่อ การปกปิดข้อเท็จจริงและการประชาสัมพันธ์เท็จต่อภายนอก ได้อีก จึงตัดสินใจสารภาพตามมโนธรรม

อุปสรรคทางเทคนิค และจุดเริ่มต้นของการลอกเลียน

โมเดล Pangu รุ่นแรกพยายามฝึกบนพื้นฐานของ Huawei Ascend NPU ด้วยตนเอง แต่เผชิญความลองผิดลองถูกอย่างหนัก เช่น ประสิทธิภาพของ tokenizer และสมรรถนะของโมเดลที่ย่ำแย่
ทีมตามหลังโมเดลที่ใช้ GPU ของคู่แข่ง (Alibaba, Zhipu) และการฝึกโมเดล dense 230B ที่พัฒนาขึ้นเองก็จบลงด้วยความล้มเหลว
จากนั้น ห้องแล็บโมเดลขนาดเล็ก แม้จะห่อหุ้มว่าเป็น “การพัฒนาขึ้นเอง” แต่แท้จริงแล้วได้สร้าง 135B V2 ที่คัดลอกและปรับแต่งเพียงเล็กน้อยจากโมเดล Qwen-1.5 (110B) เพื่อส่งมอบใช้งาน และแม้แต่ภายในก็เห็นความคล้ายคลึงกันของโค้ดและโครงสร้าง
ผู้นำหลักและฝ่ายบริหารทราบข้อเท็จจริงเหล่านี้ แต่ก็เพิกเฉยโดยอ้างแรงกดดันจากผลงานและผลลัพธ์ภายนอก

ความสำเร็จทางเทคนิคที่แท้จริง: Pangu V3

หลังพยายามอย่างหนัก ทีมได้ฝึกโมเดล Pangu V3 (135B Ultra) ที่พัฒนาขึ้นเองทั้งหมดตั้งแต่ต้นบน Ascend อย่างเป็นอิสระ
ทีมฝ่าฟันอุปสรรคทางเทคนิคหลายอย่าง (เช่น การรวม tokenizer ให้เป็นหนึ่งเดียว การทำให้ loss curve เสถียร เป็นต้น) จนบรรลุสมรรถนะใกล้เคียงคู่แข่ง
ความสำเร็จนี้เป็นหลักฐานของ การพัฒนาโมเดลขนาดใหญ่ด้วยตนเองอย่างอิสระ ไม่ใช่การลอกเลียน และเป็นที่มาของความภาคภูมิใจของนักวิจัย

เบื้องหลังการแบ่งงาน คือความเหนื่อยยากที่ไม่ได้รับการยอมรับ

ห้องแล็บโมเดลขนาดเล็กยังคง นำข้อมูล โค้ด และผลลัพธ์ไปใช้เพื่อดัดแปลง/เผยแพร่โมเดลได้อย่างง่ายดาย ขณะที่ผลงานและรางวัลตอบแทนส่วนใหญ่ตกเป็นขององค์กรดังกล่าว
ด้วยเหตุนี้ นักวิจัยที่ทุ่มเทจำนวนมากจึงลาออกจากองค์กร หรือกล่าวอย่างขมขื่นว่านี่จะกลายเป็นรอยด่างในเส้นทางวิชาชีพด้านเทคนิคของตน

กรณีลอกเลียนรอบสอง เช่น 224B MoE/718B clone

แม้แต่ในกระบวนการพัฒนาโมเดล 718B MoE ตัวใหม่ ก็ยังมีการ คัดลอก DeepSeekv3 แทบทั้งดุ้นแล้วตั้งชื่อว่า Pangu Pro MoE 72B ก่อนนำไปเผยแพร่
ภายในต่างรับรู้แนวปฏิบัติเช่นนี้ แต่บรรยากาศโดยรวมคือการปิดปากกันไว้เพราะ ความอยู่รอดของแต่ละคนและความกลัวต่อการเปิดโปงความจริง

การบริหารจัดการเชิงธุรการที่บิดเบี้ยว

สำหรับนักวิจัยตัวจริง มีการใช้ กระบวนการ สายตระกูลของโมเดล และระบบตรวจสอบ อย่างเข้มงวด จนทำให้ความเร็วในการพัฒนาล่าช้า
แต่ในกรณีของโมเดลที่คัดลอก กลับมีมาตรฐานสองชั้นที่ฝังรากลึกในลักษณะว่า “ถ้ามาจากข้างบนก็ผ่านหมด”

เหตุผลของการเปิดโปงและการตัดสินใจลาออก

หลังเหตุการณ์ HonestAGI บริษัทเริ่มเดินมาตรการจัดการวิกฤตและความพยายามปกปิดภายในในระดับองค์กร
ผู้เปิดโปงระบุว่าไม่อาจมีส่วนร่วมกับ “รายงานปลอม” และการสมคบคิดภายในได้อีกต่อไป พร้อมขอให้ลบชื่อของตนออกจากรายชื่อทีมและรายงานต่าง ๆ และแสดงเจตนาจะลาออกด้วยตนเอง

คำวิงวอนครั้งสุดท้ายและความผูกพันต่อเพื่อนร่วมงาน

เพื่อนร่วมงานจำนวนมากได้ย้ายไปยังบริษัทอื่นอย่าง ByteDance, DeepSeek, Tencent, Kuaishou ซึ่งสะท้อนว่า Huawei กำลังเผชิญปัญหาสมองไหลอย่างรุนแรง
ผู้เปิดโปงย้ำว่า หากมีนวัตกรรม สภาพแวดล้อมที่เหมาะสม และอุปสรรคทางการเมืองที่น้อยลง ก็จะสามารถพัฒนา โมเดลขนาดใหญ่และชิประดับโลก ได้เช่นกัน
ยังแสดงเจตจำนงว่าจะยอมรับแม้แต่ความเสี่ยงต่อความปลอดภัยของตนเองและครอบครัวจากการเปิดเผยความจริงนี้และการเปิดโปงเพิ่มเติมในอนาคต

คำอธิบายเพิ่มเติมของสถานการณ์

ในกรณีโคลน 135B V2 ห้องแล็บโมเดลขนาดเล็กได้รับแต่ผลประโยชน์ เช่น รางวัลและอินเซนทีฟ ขณะที่ภาระการสนับสนุน downstream และการบำรุงรักษาถูกผลักไปให้ทีมผู้พัฒนาดั้งเดิม (4th brigade)
แม้แต่ในการระบุรายชื่อผู้เขียน รายงานทางเทคนิคของ Pangu ก็ยังมีธรรมเนียมทางวิชาการที่ไม่เป็นธรรมอย่างแพร่หลาย เช่น ตัดชื่อผู้ที่มีส่วนสำคัญจริงในการพัฒนาโมเดลออก และใส่ชื่อผู้ที่ไม่ได้มีส่วนร่วมจากห้องแล็บโมเดลขนาดเล็กเข้าไป

1 ความคิดเห็น

GN⁺ 2025-07-07

ความคิดเห็นจาก Hacker News

มองว่าผู้เขียนต้นฉบับมีมุมมองที่ค่อนข้างไร้เดียงสาอยู่พอสมควร ทีม Ascend ในช่วงแรกนั้น (อิงจาก NPU 910A รุ่นแรก) มีประสิทธิภาพด้อยกว่า Nvidia และนี่ก็เป็นผลลัพธ์ที่หลีกเลี่ยงไม่ได้ ฝ่ายบริหารจึงสนับสนุนทีมที่เดินตามทางเลือกแบบ GPU ที่พร้อมทำเชิงพาณิชย์ได้ทันที และทิศทางนี้ก็แข็งตัวขึ้นจากการเมืองภายในบริษัท ท้ายที่สุดทีม Ascend ก็แก้ปัญหาทางเทคนิคได้สำเร็จ แต่สมาชิกจำนวนมากหมดไฟหรือย้ายไปบริษัท AI จีนแห่งอื่น เพราะการปฏิบัติที่ไม่เป็นธรรม อคติแบบระบบราชการ และการไม่ได้รับการยอมรับ HW (น่าจะหมายถึง Huawei) มีวัฒนธรรมและยุทธศาสตร์ใช้งานบุคลากรระดับท็อปอย่างหนักมาเป็นเวลานาน ตั้งแต่ยุค 90 ผู้ให้บริการโทรคมนาคมของจีนก็เคยดึงคนจาก Nortel, Siemens, Lucent มาแล้ว แต่แม้บุคลากรเชื้อสายจีนที่คุ้นกับวัฒนธรรมการทำงานแบบตะวันตกจะปรับตัวกับวัฒนธรรมบริษัทจีนจริง ๆ ได้ยากและหมดไฟกันไป HW ก็ยังครองอุตสาหกรรมได้ในที่สุดด้วยวัฒนธรรมการทำงานแบบลุยหนัก ทุกวันนี้หลังถูกคว่ำบาตร บริษัทกลายเป็นกิจการเชิงยุทธศาสตร์ มูลค่าเพิ่มขึ้นมากจากเซมิคอนดักเตอร์ ชิปในประเทศ และ AI ภายใต้สภาพแวดล้อมระหว่างประเทศในปัจจุบัน HW อยู่ในจุดที่สามารถทำทุกอย่างเพื่อครองตลาดได้ จากจดหมายลาออกฉบับนี้ มองได้ว่า HW สามารถระดมคนเก่งได้มากพอจนทำให้ Ascend ใช้งานได้จริง และมีโอกาสสูงที่จะยังเททรัพยากรบุคลากรต่อไปจนแข่งกับ Nvidia ได้ ในมุมของผู้เขียนรวมถึงคนทำงานส่วนใหญ่ มักมีสัญชาตญาณว่าบริษัทควรให้ค่าตอบแทนที่เป็นธรรมและสร้างสภาพแวดล้อมการทำงานที่ดี แต่ตลอด 30 ปีที่ผ่านมา HW ชนะด้วยการจ่ายเงินเดือนมหาศาลให้คนฉลาดจำนวนมาก (รวมถึงผู้รักชาติ) แล้วโยนพวกเขาเข้าไปแก้ปัญหาจนกว่าคนจะพัง
LLM มีโครงสร้างที่เข้ากันกับลิขสิทธิ์ไม่ได้เลย หากสามารถฝึกจากข้อมูลของคนอื่นโดยไม่ต้องจ่ายเงินได้ การทำสำเนาก็ควรเป็นเสรีเช่นกัน มองว่านี่คือผลสะท้อนย้อนกลับของการคัดลอกในที่สุด
- แบบไร้เดียงสาก็คือมันอยู่ร่วมกันไม่ได้ แต่ก็คิดว่าทนายคงหาวิธีทำให้ถูกกฎหมายจนได้
ในอดีตสำนักพิมพ์แผนที่เคยใส่ตรอกปลอมลงไปเพื่อให้จับการละเมิดลิขสิทธิ์ได้ง่าย เลยสงสัยว่าวิธีนี้จะนำมาใช้กับ LLM ได้หรือไม่
- ตอนทำงานที่ Malwarebytes เคยสงสัยว่า IOBit ขโมยฐานข้อมูล แม้จะมีหลักฐานชัดเจน แต่เพื่อให้คนทั่วไปเข้าใจได้ง่าย จึงสร้างโปรแกรมใหม่ที่มีอยู่แค่บนเครื่องเดียวและเพิ่มลายเซ็นของมันลงในฐานข้อมูล โปรแกรมนั้นไม่ใช่มัลแวร์และไม่สามารถแพร่กระจายได้จริง พออีกฝ่ายเพิ่มมันเข้าไปในฐานข้อมูลของตัวเอง ก็เอาเรื่องไปเปิดเผยในบล็อกจนกลายเป็นประเด็นใหญ่ กรณีที่เกี่ยวข้องคือ คดี IOBit ขโมยข้อมูล
- ตัวอย่างคลาสสิกคือการใส่ข้อบกพร่องหรืออาการผิดปกติเล็กน้อยที่ไม่เป็นอันตรายลงในชิปคอมพิวเตอร์โดยตั้งใจ สินค้าที่จีนผลิตจำนวนมากเป็นผลจากการ reverse engineer ของบริษัทอื่นอย่าง TI จึงมีข้อบกพร่องแบบนี้เยอะ แม้แต่ภายในจีนเองก็ทำแบบนี้ใส่กัน มองว่าเป็นการใช้วิธีลัดเหมือนกันทั้งหมด
- เคยพบตัวอย่างโปรเจกต์ชื่อ OML 1.0: Fingerprinting ซึ่งเป็นเครื่องมือฝังลายนิ้วมือไว้ในโมเดลเพื่อระบุความเป็นเจ้าของ LLM และป้องกันการใช้งานโดยไม่ได้รับอนุญาต
- YouTuber ชื่อ Jay Foreman ก็เคยทำ วิดีโอเกี่ยวกับตรอกปลอมในแผนที่
- ในบทความเปิดโปงภาษาจีนต้นฉบับมีข้อความว่า การวิเคราะห์ของ Honestagi ทำให้ประหลาดใจ เพราะแม้โมเดลนี้จะผ่านการฝึกเพิ่มมาเป็นเวลานานมาก ก็ยังแสดงความคล้ายคลึงในระดับสูง ทรัพยากรคอมพิวต์ที่ใช้ไปเพื่อฟอกพารามิเตอร์ของโมเดลนี้มีมากพอที่จะสร้างโมเดลใหม่ระดับเดียวกันได้เลย ตามคำบอกของเพื่อนร่วมงาน ยังมีความพยายามหลายอย่าง เช่น ตั้งใจฝึกด้วยข้อมูลที่ปนเปื้อนเพื่อจะลบลายน้ำของ Qwen วิธีนี้จะกลายเป็นกรณีที่ไม่เคยมีมาก่อนในงานวิจัยเรื่องสายเลือดของโมเดล และอาจถูกใช้เป็นกรณีตัวอย่างในการตรวจสอบวิธีวิจัยใหม่ ๆ ในอนาคต
Apple เปิดตัว LLM ที่อิงจาก Qwen2.5-Coder-7B พร้อมใส่แนวคิดของตัวเองเข้าไป การเปลี่ยนแปลงหลักคือฝึกปรับแต่งด้วยตัวอย่างโค้ดของ Apple เอง และเมื่อเพิ่มอุณหภูมิ มันสามารถสร้างหลาย code block โดยไม่สนลำดับได้ ข่าวที่เกี่ยวข้อง ข่าว LLM ของ Apple HN discussion
เน้นประสิทธิภาพแบบจีน มองว่าตะวันตกติดกับดักกฎหมายลิขสิทธิ์จากอดีต
เป็นรายงานที่มีความเป็นมนุษย์และตรงไปตรงมามาก แสดงให้เห็นความวุ่นวายภายในบริษัทยักษ์ใหญ่ และโครงสร้างที่ฝ่ายบริหารกดดันในทางที่เอื้อทีมที่ไม่ซื่อสัตย์มากกว่า ผู้เขียนได้ออกจากบริษัทไปแล้ว และถูกประเมินว่าเป็นคนมีคุณธรรม
- ที่จริงแล้ว รายงานนี้ควรถูกมองในบริบทเดียวกับจดหมายลาออกอื่น ๆ ที่เพิ่งปรากฏในจีนต่อเนื่องกัน ช่วงไม่นานมานี้ก็มีจดหมายลาออกของพนักงาน Alibaba ที่อยู่มา 15 ปี ซึ่งวิจารณ์ว่าวัฒนธรรมองค์กรของบริษัทยักษ์ใหญ่ที่เสื่อมถอยคือสาเหตุให้ความสามารถในการแข่งขันลดลงและผลิตภัณฑ์ใหม่ล้มเหลว ประเด็นหลักของรายงานนี้คือ 1. การสร้างภาพลวงระดับชาติเกี่ยวกับความสามารถของ Huawei 2. การหลอกลวงลูกค้าที่จ่ายเงิน 3. ภายใต้ระบบบริหารที่หมกมุ่นกับ KPI ความเป็นจริงที่ว่าการบิดเบือนตัวชี้วัดผลงานถูกปล่อยผ่านหรือแม้แต่ถูกส่งเสริมโดยพฤตินัย (และนี่คือแก่นของรายงาน รวมถึงอุดมคติและการสูญเสียความไว้วางใจของผู้เขียน)
รู้สึกว่าประโยคที่ว่า "วันเสาร์ถือเป็นวันทำงานโดยปริยาย แต่บางครั้งก็มีช่วงน้ำชายามบ่าย หรือแม้กระทั่งมีเมนูกุ้งให้กิน" มีอารมณ์กวีอยู่ในนั้น เลยสงสัยว่ามีเหตุผลพิเศษอะไรหรือไม่ที่มีการเสิร์ฟกุ้งน้ำจืดในสถานการณ์แบบนี้
- คาดเดาว่า "แม้ต้องทำงานวันเสาร์ แต่บางครั้งก็มีของว่างให้ และกุ้งน้ำจืดอาจเป็นของกินยอดนิยม หรืออาจเป็นการแปลคลาดเคลื่อนก็ได้"
รู้สึกแปลกใจกับคำอธิบายโครงสร้างองค์กรที่ว่า "พวกเราอยู่ภายใต้โครงการ 'กองทัพภาคสนามที่ 4' ส่วน core language LLM คือกองพลที่ 4 และกลุ่มโมเดลขนาดเล็กของ Wang Yunhe คือกองพลที่ 16" เลยสงสัยว่านี่เป็นองค์กรที่ขึ้นกับกองทัพคอมมิวนิสต์จริงหรือไม่
- มีความเห็นว่ากองทัพภาคสนามที่ 4 ตัวจริงไม่มีอยู่แล้วหลังปี 1955 และชื่อดังกล่าวน่าจะยังถูกนำมาใช้เป็น codename ของโครงการ LLM มากกว่า
- มีการพูดถึงวัฒนธรรมองค์กรแบบทหารของ Huawei แม้แต่การปฐมนิเทศพนักงานใหม่ก็จัดเหมือนพิธีจบการฝึกทหาร เอกสารอ้างอิง วัฒนธรรมแบบทหารของ Huawei
มีการตั้งคำถามว่าแท้จริงแล้วใครเป็นคนสร้างโมเดลต้นทาง
มีความเห็นว่าสมัยก่อนเคยมีกรณีสมาชิกของ Huawei Lab จงใจรบกวนการฝึกโมเดลแล้วถูกไล่ออก และสงสัยว่าอาจเป็นคนเดียวกับผู้เปิดโปงรายนี้
- คาดว่ากรณีที่พูดถึงน่าจะเป็นเหตุการณ์ที่เด็กฝึกงานของ ByteDance ฝังโค้ดอันตรายในโมเดล AI แล้วถูกไล่ออก ข่าวที่เกี่ยวข้อง bytedance-intern-fired

Huawei ถูกกล่าวหาว่าโคลนโมเดล Qwen และ DeepSeek แล้วอ้างว่าเป็นโมเดลของตนเอง

โศกนาฏกรรมของ Pangu: เบื้องลึกอันเจ็บปวดของโมเดลขนาดใหญ่ Pangu ใน Huawei Noah Ark Lab

การแนะนำตัวของผู้เปิดโปงและบรรยากาศหน้างาน

คืนที่นอนไม่หลับ กับจิตวิญญาณแห่งการสร้างสรรค์ที่ถูกเหยียบย่ำ

อุปสรรคทางเทคนิค และจุดเริ่มต้นของการลอกเลียน

ความสำเร็จทางเทคนิคที่แท้จริง: Pangu V3

เบื้องหลังการแบ่งงาน คือความเหนื่อยยากที่ไม่ได้รับการยอมรับ

กรณีลอกเลียนรอบสอง เช่น 224B MoE/718B clone

การบริหารจัดการเชิงธุรการที่บิดเบี้ยว

เหตุผลของการเปิดโปงและการตัดสินใจลาออก

คำวิงวอนครั้งสุดท้ายและความผูกพันต่อเพื่อนร่วมงาน

คำอธิบายเพิ่มเติมของสถานการณ์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News