2 คะแนน โดย GN⁺ 2025-07-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Huawei ถูกเปิดโปงจากภายในว่าได้คัดลอกโมเดล AI ขนาดใหญ่ของ Qwen และ DeepSeek แล้วนำเสนอเป็นผลิตภัณฑ์ของตนเองภายใต้ชื่อ ‘Pangu’
  • ตามคำให้การของ พนักงานภายในทีม Pangu โมเดลบางตัวที่ใช้งานจริงไม่ได้พัฒนาขึ้นเอง แต่เป็นการนำโมเดลโอเพนซอร์สภายนอกมาเปลี่ยนชื่อ
  • ในทางเทคนิคพบว่าโมเดลสำคัญอย่าง 135B V2 และ Pro MoE 72B มีความสอดคล้องกับสถาปัตยกรรมของ Qwen และ DeepSeek ในระดับสูง
  • ภายในองค์กร แนวปฏิบัติดังกล่าวทำให้ ขวัญกำลังใจของนักวิจัยตกต่ำและเกิดการลาออก อีกทั้งความไร้ประสิทธิภาพด้านการบริหารและนโยบายบุคลากรที่ไม่โปร่งใสยิ่งซ้ำเติมปัญหา
  • แม้จะมี โมเดลที่พัฒนาขึ้นเองอย่างแท้จริง (เช่น Pangu V3) อยู่ด้วย แต่ธรรมเนียมการคัดลอกและวัฒนธรรมวิจัยที่ไม่ได้รับการยอมรับได้ทิ้งบาดแผลใหญ่ต่อความน่าเชื่อถือของทั้งองค์กร
  • ผู้เปิดโปงตัดสินใจเปิดเผยความจริงโดยใช้ชื่อจริงของตนเอง พร้อมเรียกร้องให้องค์กรทบทวนตนเองและเปลี่ยนแปลง

โศกนาฏกรรมของ Pangu: เบื้องลึกอันเจ็บปวดของโมเดลขนาดใหญ่ Pangu ใน Huawei Noah Ark Lab

การแนะนำตัวของผู้เปิดโปงและบรรยากาศหน้างาน

  • ผู้เขียนสังกัด ทีมโมเดลขนาดใหญ่ Noah Pangu ของ Huawei และยืนยันตัวตนผ่านข้อมูลภายในที่สอดคล้องกับโครงสร้างองค์กร-โครงการและองค์ประกอบผู้นำ
  • โครงการ Pangu ในความเป็นจริงใกล้เคียงกับองค์กรส่งมอบงานมากกว่าองค์กรวิจัย ต้องเผชิญกับเดดไลน์ซ้ำแล้วซ้ำเล่า การทำงานเกินกำลัง และแรงกดดันจากการประเมินกับการรายงานอย่างต่อเนื่อง
  • ความเข้มข้นของงานและระบบราชการภายในรุนแรงมาก หลายคนต้องอยู่หอพัก ห่างครอบครัวเป็นเวลานาน และทำงานวันหยุดสุดสัปดาห์อยู่บ่อยครั้ง
  • ในทางปฏิบัติ วัฒนธรรมองค์กรที่ครอบงำคือการยึดกำหนดส่งมอบและผลงานของแต่ละสายผลิตภัณฑ์ (Cloud, ICT เป็นต้น) มากกว่าความเป็นอิสระและความคิดสร้างสรรค์ในการวิจัย

คืนที่นอนไม่หลับ กับจิตวิญญาณแห่งการสร้างสรรค์ที่ถูกเหยียบย่ำ

  • หลังเกิดข้อถกเถียงเรื่องการลอกเลียนโมเดล Qwen นักวิจัยบางส่วนรู้สึก อับอาย โกรธ และหมดแรงใจ พร้อมกัน
  • ตัวผู้เปิดโปงเองหวาดกลัวการตอบโต้จากบริษัทยักษ์ใหญ่และเครือข่ายภายใน แต่ไม่อาจทนต่อ การปกปิดข้อเท็จจริงและการประชาสัมพันธ์เท็จต่อภายนอก ได้อีก จึงตัดสินใจสารภาพตามมโนธรรม

อุปสรรคทางเทคนิค และจุดเริ่มต้นของการลอกเลียน

  • โมเดล Pangu รุ่นแรกพยายามฝึกบนพื้นฐานของ Huawei Ascend NPU ด้วยตนเอง แต่เผชิญความลองผิดลองถูกอย่างหนัก เช่น ประสิทธิภาพของ tokenizer และสมรรถนะของโมเดลที่ย่ำแย่
  • ทีมตามหลังโมเดลที่ใช้ GPU ของคู่แข่ง (Alibaba, Zhipu) และการฝึกโมเดล dense 230B ที่พัฒนาขึ้นเองก็จบลงด้วยความล้มเหลว
  • จากนั้น ห้องแล็บโมเดลขนาดเล็ก แม้จะห่อหุ้มว่าเป็น “การพัฒนาขึ้นเอง” แต่แท้จริงแล้วได้สร้าง 135B V2 ที่คัดลอกและปรับแต่งเพียงเล็กน้อยจากโมเดล Qwen-1.5 (110B) เพื่อส่งมอบใช้งาน และแม้แต่ภายในก็เห็นความคล้ายคลึงกันของโค้ดและโครงสร้าง
  • ผู้นำหลักและฝ่ายบริหารทราบข้อเท็จจริงเหล่านี้ แต่ก็เพิกเฉยโดยอ้างแรงกดดันจากผลงานและผลลัพธ์ภายนอก

ความสำเร็จทางเทคนิคที่แท้จริง: Pangu V3

  • หลังพยายามอย่างหนัก ทีมได้ฝึกโมเดล Pangu V3 (135B Ultra) ที่พัฒนาขึ้นเองทั้งหมดตั้งแต่ต้นบน Ascend อย่างเป็นอิสระ
  • ทีมฝ่าฟันอุปสรรคทางเทคนิคหลายอย่าง (เช่น การรวม tokenizer ให้เป็นหนึ่งเดียว การทำให้ loss curve เสถียร เป็นต้น) จนบรรลุสมรรถนะใกล้เคียงคู่แข่ง
  • ความสำเร็จนี้เป็นหลักฐานของ การพัฒนาโมเดลขนาดใหญ่ด้วยตนเองอย่างอิสระ ไม่ใช่การลอกเลียน และเป็นที่มาของความภาคภูมิใจของนักวิจัย

เบื้องหลังการแบ่งงาน คือความเหนื่อยยากที่ไม่ได้รับการยอมรับ

  • ห้องแล็บโมเดลขนาดเล็กยังคง นำข้อมูล โค้ด และผลลัพธ์ไปใช้เพื่อดัดแปลง/เผยแพร่โมเดลได้อย่างง่ายดาย ขณะที่ผลงานและรางวัลตอบแทนส่วนใหญ่ตกเป็นขององค์กรดังกล่าว
  • ด้วยเหตุนี้ นักวิจัยที่ทุ่มเทจำนวนมากจึงลาออกจากองค์กร หรือกล่าวอย่างขมขื่นว่านี่จะกลายเป็นรอยด่างในเส้นทางวิชาชีพด้านเทคนิคของตน

กรณีลอกเลียนรอบสอง เช่น 224B MoE/718B clone

  • แม้แต่ในกระบวนการพัฒนาโมเดล 718B MoE ตัวใหม่ ก็ยังมีการ คัดลอก DeepSeekv3 แทบทั้งดุ้นแล้วตั้งชื่อว่า Pangu Pro MoE 72B ก่อนนำไปเผยแพร่
  • ภายในต่างรับรู้แนวปฏิบัติเช่นนี้ แต่บรรยากาศโดยรวมคือการปิดปากกันไว้เพราะ ความอยู่รอดของแต่ละคนและความกลัวต่อการเปิดโปงความจริง

การบริหารจัดการเชิงธุรการที่บิดเบี้ยว

  • สำหรับนักวิจัยตัวจริง มีการใช้ กระบวนการ สายตระกูลของโมเดล และระบบตรวจสอบ อย่างเข้มงวด จนทำให้ความเร็วในการพัฒนาล่าช้า
  • แต่ในกรณีของโมเดลที่คัดลอก กลับมีมาตรฐานสองชั้นที่ฝังรากลึกในลักษณะว่า “ถ้ามาจากข้างบนก็ผ่านหมด”

เหตุผลของการเปิดโปงและการตัดสินใจลาออก

  • หลังเหตุการณ์ HonestAGI บริษัทเริ่มเดินมาตรการจัดการวิกฤตและความพยายามปกปิดภายในในระดับองค์กร
  • ผู้เปิดโปงระบุว่าไม่อาจมีส่วนร่วมกับ “รายงานปลอม” และการสมคบคิดภายในได้อีกต่อไป พร้อมขอให้ลบชื่อของตนออกจากรายชื่อทีมและรายงานต่าง ๆ และแสดงเจตนาจะลาออกด้วยตนเอง

คำวิงวอนครั้งสุดท้ายและความผูกพันต่อเพื่อนร่วมงาน

  • เพื่อนร่วมงานจำนวนมากได้ย้ายไปยังบริษัทอื่นอย่าง ByteDance, DeepSeek, Tencent, Kuaishou ซึ่งสะท้อนว่า Huawei กำลังเผชิญปัญหาสมองไหลอย่างรุนแรง
  • ผู้เปิดโปงย้ำว่า หากมีนวัตกรรม สภาพแวดล้อมที่เหมาะสม และอุปสรรคทางการเมืองที่น้อยลง ก็จะสามารถพัฒนา โมเดลขนาดใหญ่และชิประดับโลก ได้เช่นกัน
  • ยังแสดงเจตจำนงว่าจะยอมรับแม้แต่ความเสี่ยงต่อความปลอดภัยของตนเองและครอบครัวจากการเปิดเผยความจริงนี้และการเปิดโปงเพิ่มเติมในอนาคต

คำอธิบายเพิ่มเติมของสถานการณ์

  • ในกรณีโคลน 135B V2 ห้องแล็บโมเดลขนาดเล็กได้รับแต่ผลประโยชน์ เช่น รางวัลและอินเซนทีฟ ขณะที่ภาระการสนับสนุน downstream และการบำรุงรักษาถูกผลักไปให้ทีมผู้พัฒนาดั้งเดิม (4th brigade)
  • แม้แต่ในการระบุรายชื่อผู้เขียน รายงานทางเทคนิคของ Pangu ก็ยังมีธรรมเนียมทางวิชาการที่ไม่เป็นธรรมอย่างแพร่หลาย เช่น ตัดชื่อผู้ที่มีส่วนสำคัญจริงในการพัฒนาโมเดลออก และใส่ชื่อผู้ที่ไม่ได้มีส่วนร่วมจากห้องแล็บโมเดลขนาดเล็กเข้าไป

1 ความคิดเห็น

 
GN⁺ 2025-07-07
ความคิดเห็นจาก Hacker News
  • มองว่าผู้เขียนต้นฉบับมีมุมมองที่ค่อนข้างไร้เดียงสาอยู่พอสมควร ทีม Ascend ในช่วงแรกนั้น (อิงจาก NPU 910A รุ่นแรก) มีประสิทธิภาพด้อยกว่า Nvidia และนี่ก็เป็นผลลัพธ์ที่หลีกเลี่ยงไม่ได้ ฝ่ายบริหารจึงสนับสนุนทีมที่เดินตามทางเลือกแบบ GPU ที่พร้อมทำเชิงพาณิชย์ได้ทันที และทิศทางนี้ก็แข็งตัวขึ้นจากการเมืองภายในบริษัท ท้ายที่สุดทีม Ascend ก็แก้ปัญหาทางเทคนิคได้สำเร็จ แต่สมาชิกจำนวนมากหมดไฟหรือย้ายไปบริษัท AI จีนแห่งอื่น เพราะการปฏิบัติที่ไม่เป็นธรรม อคติแบบระบบราชการ และการไม่ได้รับการยอมรับ HW (น่าจะหมายถึง Huawei) มีวัฒนธรรมและยุทธศาสตร์ใช้งานบุคลากรระดับท็อปอย่างหนักมาเป็นเวลานาน ตั้งแต่ยุค 90 ผู้ให้บริการโทรคมนาคมของจีนก็เคยดึงคนจาก Nortel, Siemens, Lucent มาแล้ว แต่แม้บุคลากรเชื้อสายจีนที่คุ้นกับวัฒนธรรมการทำงานแบบตะวันตกจะปรับตัวกับวัฒนธรรมบริษัทจีนจริง ๆ ได้ยากและหมดไฟกันไป HW ก็ยังครองอุตสาหกรรมได้ในที่สุดด้วยวัฒนธรรมการทำงานแบบลุยหนัก ทุกวันนี้หลังถูกคว่ำบาตร บริษัทกลายเป็นกิจการเชิงยุทธศาสตร์ มูลค่าเพิ่มขึ้นมากจากเซมิคอนดักเตอร์ ชิปในประเทศ และ AI ภายใต้สภาพแวดล้อมระหว่างประเทศในปัจจุบัน HW อยู่ในจุดที่สามารถทำทุกอย่างเพื่อครองตลาดได้ จากจดหมายลาออกฉบับนี้ มองได้ว่า HW สามารถระดมคนเก่งได้มากพอจนทำให้ Ascend ใช้งานได้จริง และมีโอกาสสูงที่จะยังเททรัพยากรบุคลากรต่อไปจนแข่งกับ Nvidia ได้ ในมุมของผู้เขียนรวมถึงคนทำงานส่วนใหญ่ มักมีสัญชาตญาณว่าบริษัทควรให้ค่าตอบแทนที่เป็นธรรมและสร้างสภาพแวดล้อมการทำงานที่ดี แต่ตลอด 30 ปีที่ผ่านมา HW ชนะด้วยการจ่ายเงินเดือนมหาศาลให้คนฉลาดจำนวนมาก (รวมถึงผู้รักชาติ) แล้วโยนพวกเขาเข้าไปแก้ปัญหาจนกว่าคนจะพัง
  • LLM มีโครงสร้างที่เข้ากันกับลิขสิทธิ์ไม่ได้เลย หากสามารถฝึกจากข้อมูลของคนอื่นโดยไม่ต้องจ่ายเงินได้ การทำสำเนาก็ควรเป็นเสรีเช่นกัน มองว่านี่คือผลสะท้อนย้อนกลับของการคัดลอกในที่สุด
    • แบบไร้เดียงสาก็คือมันอยู่ร่วมกันไม่ได้ แต่ก็คิดว่าทนายคงหาวิธีทำให้ถูกกฎหมายจนได้
  • ในอดีตสำนักพิมพ์แผนที่เคยใส่ตรอกปลอมลงไปเพื่อให้จับการละเมิดลิขสิทธิ์ได้ง่าย เลยสงสัยว่าวิธีนี้จะนำมาใช้กับ LLM ได้หรือไม่
    • ตอนทำงานที่ Malwarebytes เคยสงสัยว่า IOBit ขโมยฐานข้อมูล แม้จะมีหลักฐานชัดเจน แต่เพื่อให้คนทั่วไปเข้าใจได้ง่าย จึงสร้างโปรแกรมใหม่ที่มีอยู่แค่บนเครื่องเดียวและเพิ่มลายเซ็นของมันลงในฐานข้อมูล โปรแกรมนั้นไม่ใช่มัลแวร์และไม่สามารถแพร่กระจายได้จริง พออีกฝ่ายเพิ่มมันเข้าไปในฐานข้อมูลของตัวเอง ก็เอาเรื่องไปเปิดเผยในบล็อกจนกลายเป็นประเด็นใหญ่ กรณีที่เกี่ยวข้องคือ คดี IOBit ขโมยข้อมูล
    • ตัวอย่างคลาสสิกคือการใส่ข้อบกพร่องหรืออาการผิดปกติเล็กน้อยที่ไม่เป็นอันตรายลงในชิปคอมพิวเตอร์โดยตั้งใจ สินค้าที่จีนผลิตจำนวนมากเป็นผลจากการ reverse engineer ของบริษัทอื่นอย่าง TI จึงมีข้อบกพร่องแบบนี้เยอะ แม้แต่ภายในจีนเองก็ทำแบบนี้ใส่กัน มองว่าเป็นการใช้วิธีลัดเหมือนกันทั้งหมด
    • เคยพบตัวอย่างโปรเจกต์ชื่อ OML 1.0: Fingerprinting ซึ่งเป็นเครื่องมือฝังลายนิ้วมือไว้ในโมเดลเพื่อระบุความเป็นเจ้าของ LLM และป้องกันการใช้งานโดยไม่ได้รับอนุญาต
    • YouTuber ชื่อ Jay Foreman ก็เคยทำ วิดีโอเกี่ยวกับตรอกปลอมในแผนที่
    • ในบทความเปิดโปงภาษาจีนต้นฉบับมีข้อความว่า การวิเคราะห์ของ Honestagi ทำให้ประหลาดใจ เพราะแม้โมเดลนี้จะผ่านการฝึกเพิ่มมาเป็นเวลานานมาก ก็ยังแสดงความคล้ายคลึงในระดับสูง ทรัพยากรคอมพิวต์ที่ใช้ไปเพื่อฟอกพารามิเตอร์ของโมเดลนี้มีมากพอที่จะสร้างโมเดลใหม่ระดับเดียวกันได้เลย ตามคำบอกของเพื่อนร่วมงาน ยังมีความพยายามหลายอย่าง เช่น ตั้งใจฝึกด้วยข้อมูลที่ปนเปื้อนเพื่อจะลบลายน้ำของ Qwen วิธีนี้จะกลายเป็นกรณีที่ไม่เคยมีมาก่อนในงานวิจัยเรื่องสายเลือดของโมเดล และอาจถูกใช้เป็นกรณีตัวอย่างในการตรวจสอบวิธีวิจัยใหม่ ๆ ในอนาคต
  • Apple เปิดตัว LLM ที่อิงจาก Qwen2.5-Coder-7B พร้อมใส่แนวคิดของตัวเองเข้าไป การเปลี่ยนแปลงหลักคือฝึกปรับแต่งด้วยตัวอย่างโค้ดของ Apple เอง และเมื่อเพิ่มอุณหภูมิ มันสามารถสร้างหลาย code block โดยไม่สนลำดับได้ ข่าวที่เกี่ยวข้อง ข่าว LLM ของ Apple HN discussion
  • เน้นประสิทธิภาพแบบจีน มองว่าตะวันตกติดกับดักกฎหมายลิขสิทธิ์จากอดีต
  • เป็นรายงานที่มีความเป็นมนุษย์และตรงไปตรงมามาก แสดงให้เห็นความวุ่นวายภายในบริษัทยักษ์ใหญ่ และโครงสร้างที่ฝ่ายบริหารกดดันในทางที่เอื้อทีมที่ไม่ซื่อสัตย์มากกว่า ผู้เขียนได้ออกจากบริษัทไปแล้ว และถูกประเมินว่าเป็นคนมีคุณธรรม
    • ที่จริงแล้ว รายงานนี้ควรถูกมองในบริบทเดียวกับจดหมายลาออกอื่น ๆ ที่เพิ่งปรากฏในจีนต่อเนื่องกัน ช่วงไม่นานมานี้ก็มีจดหมายลาออกของพนักงาน Alibaba ที่อยู่มา 15 ปี ซึ่งวิจารณ์ว่าวัฒนธรรมองค์กรของบริษัทยักษ์ใหญ่ที่เสื่อมถอยคือสาเหตุให้ความสามารถในการแข่งขันลดลงและผลิตภัณฑ์ใหม่ล้มเหลว ประเด็นหลักของรายงานนี้คือ 1. การสร้างภาพลวงระดับชาติเกี่ยวกับความสามารถของ Huawei 2. การหลอกลวงลูกค้าที่จ่ายเงิน 3. ภายใต้ระบบบริหารที่หมกมุ่นกับ KPI ความเป็นจริงที่ว่าการบิดเบือนตัวชี้วัดผลงานถูกปล่อยผ่านหรือแม้แต่ถูกส่งเสริมโดยพฤตินัย (และนี่คือแก่นของรายงาน รวมถึงอุดมคติและการสูญเสียความไว้วางใจของผู้เขียน)
  • รู้สึกว่าประโยคที่ว่า "วันเสาร์ถือเป็นวันทำงานโดยปริยาย แต่บางครั้งก็มีช่วงน้ำชายามบ่าย หรือแม้กระทั่งมีเมนูกุ้งให้กิน" มีอารมณ์กวีอยู่ในนั้น เลยสงสัยว่ามีเหตุผลพิเศษอะไรหรือไม่ที่มีการเสิร์ฟกุ้งน้ำจืดในสถานการณ์แบบนี้
    • คาดเดาว่า "แม้ต้องทำงานวันเสาร์ แต่บางครั้งก็มีของว่างให้ และกุ้งน้ำจืดอาจเป็นของกินยอดนิยม หรืออาจเป็นการแปลคลาดเคลื่อนก็ได้"
  • รู้สึกแปลกใจกับคำอธิบายโครงสร้างองค์กรที่ว่า "พวกเราอยู่ภายใต้โครงการ 'กองทัพภาคสนามที่ 4' ส่วน core language LLM คือกองพลที่ 4 และกลุ่มโมเดลขนาดเล็กของ Wang Yunhe คือกองพลที่ 16" เลยสงสัยว่านี่เป็นองค์กรที่ขึ้นกับกองทัพคอมมิวนิสต์จริงหรือไม่
    • มีความเห็นว่ากองทัพภาคสนามที่ 4 ตัวจริงไม่มีอยู่แล้วหลังปี 1955 และชื่อดังกล่าวน่าจะยังถูกนำมาใช้เป็น codename ของโครงการ LLM มากกว่า
    • มีการพูดถึงวัฒนธรรมองค์กรแบบทหารของ Huawei แม้แต่การปฐมนิเทศพนักงานใหม่ก็จัดเหมือนพิธีจบการฝึกทหาร เอกสารอ้างอิง วัฒนธรรมแบบทหารของ Huawei
  • มีการตั้งคำถามว่าแท้จริงแล้วใครเป็นคนสร้างโมเดลต้นทาง
  • มีความเห็นว่าสมัยก่อนเคยมีกรณีสมาชิกของ Huawei Lab จงใจรบกวนการฝึกโมเดลแล้วถูกไล่ออก และสงสัยว่าอาจเป็นคนเดียวกับผู้เปิดโปงรายนี้
    • คาดว่ากรณีที่พูดถึงน่าจะเป็นเหตุการณ์ที่เด็กฝึกงานของ ByteDance ฝังโค้ดอันตรายในโมเดล AI แล้วถูกไล่ออก ข่าวที่เกี่ยวข้อง bytedance-intern-fired