15 คะแนน โดย ragingwind 21 일 전 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek-V4 ที่เผยให้เห็นนวัตกรรมด้านสถาปัตยกรรมและพิกัดใหม่ของ frontier lab ในสัปดาห์ที่ 4 ของเดือนเมษายน 2026 ท่ามกลางการประกาศใหญ่ต่อเนื่องอย่าง GPT-5.5 และ Google Cloud Next เหตุการณ์ที่น่าจับตาที่สุดคือการเปิดตัว DeepSeek-V4 โมเดลรุ่นนี้ปรากฏตัวหลังจาก R1 ราว 1 ปี 4 เดือน โดยขยายขนาดจาก V3 ที่มีระดับ 600B ไปเป็น 1.6T และเพิ่มจำนวนพารามิเตอร์ที่ถูก activate ขึ้นเล็กน้อย ที่สำคัญกว่านั้นคือมีการนำการเปลี่ยนแปลงเชิงอัลกอริทึม 3 สายมาใช้พร้อมกัน ได้แก่ Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) และ Muon optimizer และผลลัพธ์ทั้งหมดก็ถูกอัดแน่นอยู่ในงานวิจัยราว 40 หน้า คิม ซองฮยอน และ โน จองซอก ประเมินว่ารายงานฉบับนี้ไม่ใช่แค่การอวดประสิทธิภาพ แต่เป็นบันทึกของการลองผิดลองถูกอันเจ็บปวดตลอด 1 ปี

การเปลี่ยนแปลงสถาปัตยกรรมหลัก

  • การนำ Sparse Attention มาใช้เต็มรูปแบบ: แทนที่จะอ้างอิงโทเค็นก่อนหน้าทั้งหมดแบบเดิม ได้เปลี่ยนมาเลือกอ้างอิงเฉพาะบางโทเค็นที่มีความหมาย เป็นโครงสร้างที่ผสาน 3 ส่วนเข้าด้วยกัน ได้แก่ sliding window attention, full attention สำหรับโทเค็นที่ถูกบีบอัดเหลือ 1 ใน 100 และ Compressed Sparse Attention ที่บีบอัดเหลือ 1 ใน 4 แล้วใช้ Lightning Indexer คัด top-k ออกมา
  • การใช้ mHC: เป็นโครงสร้างที่ทำให้ Hyper-Connections ซึ่งช่วยขยายช่องทางของ residual connection อันเป็นแกนหลักของ deep learning มีเสถียรภาพบน manifold และผ่อนคลายข้อจำกัดลง
  • การเลือกใช้ Muon optimizer: เป็น optimizer ที่โมเดลจากจีนใช้งานกันแทบจะเป็นมาตรฐานหลังยุค Adam โดยช่วยยกระดับทั้งความเร็วในการฝึกและประสิทธิภาพการใช้ข้อมูล
  • การถอด MLA ออก: เลิกใช้ MLA ซึ่งเคยเป็นเหมือนสัญลักษณ์ของ DeepSeek แล้วเปลี่ยนไปใช้ Multi-Query Attention ที่เรียบง่ายกว่า

ข้อดีและจุดเด่น

  • ต้นทุน long context ลดลงมาก: แม้โมเดลจะใหญ่กว่า V3 ราว 2.5~3 เท่า แต่คอมพิวต์สำหรับการคำนวณโทเค็นลดลงเหลือประมาณ 27% และหน่วยความจำ KV cache ลดลงเหลือประมาณ 10%
  • ฝึก long context ตั้งแต่ขั้น pretraining: โทเค็นช่วงแรก 1T ฝึกที่ 4K~16K และหลังจากนั้นมากกว่า 30T โทเค็นฝึกที่ 64K ขึ้นไป เป็นแนวทางที่ต่างจากธรรมเนียมเดิมซึ่งมักค่อยเพิ่ม context ในขั้นตอนภายหลัง
  • ความลึกของการปรับโครงสร้างพื้นฐานให้เหมาะสม: มีการใส่รายละเอียดแน่นมาก ทั้ง MoE communication/compute overlap ที่ปรับปรุงจาก Comet ของ ByteDance, megakernel ที่รีดประสิทธิภาพจนแตะระดับเกิด power throttling, การมีส่วนร่วมกับ TileLang, การปรับแต่ง batch invariance kernel ครั้งใหญ่ และการบีบอัด expert weight แบบ MXFP4 (4-bit)
  • ภาวะผู้นำเชิงอัลกอริทึม: ในสถานการณ์ที่บิ๊กเทคสหรัฐไม่เปิดเผยสถาปัตยกรรม มีการประเมินว่าอย่างน้อยในด้าน pretraining นั้นอยู่ในระดับเทียบเท่าหรือบางส่วนอาจล้ำหน้า

ข้อเสียและข้อจำกัด

  • ความไม่เสถียรระหว่างการฝึก: ต่างจากกระแสที่นักพัฒนา LLM ช่วงหลังมักพูดว่าการฝึกมีเสถียรภาพมาก DeepSeek-V4 เปิดเผยอย่างตรงไปตรงมาว่าประสบปัญหาความไม่เสถียรในหลายจุด ถึงขั้นต้องใช้ทั้งการแก้ MoE gating, clamping และกลไกซับซ้อนอย่าง Anticipatory Routing ที่ใช้ weight จากช่วงเวลาก่อนหน้ามาช่วย routing
  • ความยากในการทำซ้ำผลลัพธ์: ทีมอื่นในจีนมีข้อสรุปร่วมกันว่าการฝึก Sparse Attention แทบตั้งแต่ศูนย์นั้นยากมาก แม้ DeepSeek จะทำสำเร็จ ก็มีโอกาสสูงที่ทีมอื่นจะตามได้ไม่ง่าย
  • ข้อค้างคาใน post-training: เมื่อเทียบกับการก้าวกระโดดของ pretraining แล้ว ส่วน post-training ยังดูเหมือนมีพื้นที่ให้พัฒนาอีกมาก เป็นจุดที่มีโอกาสเสริมได้มากในเวอร์ชัน 4.1 และ 4.2
  • ความเงียบเรื่องข้อมูล: ระบุเพียงว่าเตรียมโทเค็นไว้ 32T แต่แทบไม่พูดถึงรายละเอียดขององค์ประกอบข้อมูล เช่น มีการใช้ข้อมูลสังเคราะห์หรือไม่

จุดแตกต่าง

  • การเปิดเผยอย่างโปร่งใส: ต่างจาก frontier lab อื่นที่ปิดบังสถาปัตยกรรม ที่นี่อธิบายทั้งโครงสร้างและการลองผิดลองถูกอย่างค่อนข้างตรงไปตรงมา
  • การออกแบบแบบบูรณาการตั้งแต่ขั้น pretraining: จุดเด่นชัดคือการผสาน long context, Sparse Attention และ FP4 quantization เข้าไปใน pretraining แทนที่จะไปทำในขั้นตอนภายหลัง
  • การกระจายความหลากหลายของฮาร์ดแวร์: ระบุว่าใช้งานทั้งชิป NVIDIA ควบคู่กับชิป Huawei ซึ่งสะท้อนว่าทางเลือกด้านเซมิคอนดักเตอร์ภายในจีนกำลังก่อตัวขึ้น

ความหมายในมุมมองอุตสาหกรรม

  • ภูมิทัศน์ frontier lab ของจีนที่เปลี่ยนไป: มีความเห็นว่าทีมเกือบ 5 แห่ง ได้แก่ DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 และ Xiaomi MiMo ได้ก้าวขึ้นมาอยู่แนวหน้าในเวลาเดียวกัน และในด้าน pretraining นั้นเริ่มมีบางพื้นที่ที่เทียบเท่าหรือบางส่วนอาจนำหน้าสหรัฐ
  • post-training คือสมรภูมิถัดไป: ดูมีแนวโน้มว่าในไม่ช้าจะถึงจุดที่มีการทุ่มคอมพิวต์ให้ post-training ในระดับใกล้เคียงกับ pretraining และช่องว่างในส่วนนี้อาจกลายเป็นจุดตัดสินของคนรุ่นถัดไป
  • การอัปเดตโมเดลกลายเป็นเรื่องปกติในชีวิตประจำวัน: เมื่อ GPT-5.5, Claude Mythos, Spud และ DeepSeek-V4 เปลี่ยน base model ในช่วงเวลาใกล้กัน ก็เริ่มเห็นแนวโน้มว่าการอัปเดตโมเดลจะกลายเป็นเรื่องชินชาเหมือนการอัปเดตเบราว์เซอร์ Chrome

DeepSeek-V4 ครั้งนี้อาจใกล้เคียงกับการเป็นบันทึกที่แสดงให้เห็นมากกว่าตัวเลขประสิทธิภาพของโมเดลเดี่ยว ว่าทีมหนึ่งฝ่าด่านปัญหายากตลอด 1 ปีได้อย่างไร ความพยายามในการพา Sparse Attention ไปตั้งแต่ขั้น pretraining งานโครงสร้างพื้นฐานที่กดต้นทุน long context ของสเกล 1.6T ลงมาเหลือในระดับเลขหลักเดียว และกลไกนอกตำราที่นำมาใช้ระหว่างต่อสู้กับความไม่เสถียรในการฝึก ล้วนมีแนวโน้มจะกลายเป็นฐานใหม่ของ frontier model จากจีนในอนาคต ขณะเดียวกัน โจทย์ที่ยังคงชัดเจนในด้าน post-training และข้อมูลก็ยังเหลืออยู่มาก ทำให้ 4.1 และ 4.2 จะลดช่องว่างเหล่านี้ได้แค่ไหน น่าจะเป็นจุดให้จับตาในไตรมาสถัดไป

4 ความคิดเห็น

 
winkagn 20 일 전

ผู้คนพูดกันในทำนองว่าไม่เชื่อถือเพราะเป็นของจีน แต่สำหรับผม ผมรู้สึกขอบคุณ DeepSeek จริง ๆ อย่างน้อยก็ในแง่ที่พวกเขาทำวิจัยและเปิดเผย รวมถึงเผยแพร่แม้กระทั่งกระบวนการลองผิดลองถูกด้วย

 
junghwanlee 21 일 전

คุณโนซองฮุน → เป็นคุณคิมซองฮยอน

 
xguru 21 일 전

แก้ไขไว้แล้ว

 
ragingwind 21 일 전

ขอบคุณครับ น่าจะต้องแก้ไขครับ