สรุปการอ่านงานวิจัย DeepSeek-V4 - โนจองซอก

(youtube.com)

10 คะแนน โดย ragingwind 1 일 전 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek-V4 แสดงให้เห็นทั้งนวัตกรรมด้านสถาปัตยกรรมและพิกัดใหม่ของ frontier lab ในสัปดาห์ที่ 4 ของเดือนเมษายน 2026 ท่ามกลางการประกาศใหญ่ต่อเนื่องอย่าง GPT-5.5 และ Google Cloud Next เหตุการณ์ที่น่าจับตาที่สุดคือการเปิดตัว DeepSeek-V4 รุ่นนี้ปรากฏตัวหลังจาก R1 ราว 1 ปี 4 เดือน โดยขยายขนาดจาก V3 ที่มี 600B ไปเป็น 1.6T และเพิ่มจำนวนพารามิเตอร์ที่ถูก activate ขึ้นเล็กน้อย ที่สำคัญยิ่งกว่านั้นคือมีการนำการเปลี่ยนแปลงเชิงอัลกอริทึม 3 สายมาใช้พร้อมกัน ได้แก่ Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) และ Muon optimizer และผลลัพธ์ทั้งหมดก็ถูกอัดแน่นอยู่ในงานวิจัยราว 40 หน้า โนซองฮุนและโนจองซอกประเมินว่ารายงานฉบับนี้ไม่ใช่แค่การอวดประสิทธิภาพ แต่เป็นบันทึกของการลองผิดลองถูกอันเจ็บปวดตลอด 1 ปี

การเปลี่ยนแปลงหลักของสถาปัตยกรรม

การนำ Sparse Attention มาใช้อย่างจริงจัง: แทนที่จะอ้างอิงโทเค็นก่อนหน้าทั้งหมดแบบเดิม ได้เปลี่ยนมาเลือกอ้างอิงเฉพาะบางโทเค็นที่มีความหมาย เป็นโครงสร้างที่ผสาน 3 ส่วนเข้าด้วยกัน ได้แก่ sliding window attention, full attention สำหรับโทเค็นที่บีบอัดลงเหลือ 1/100 และ Compressed Sparse Attention ที่บีบอัดลงเหลือ 1/4 ก่อนใช้ Lightning Indexer เลือก top-k
การใช้ mHC: เป็นโครงสร้างที่ทำให้ Hyper-Connections ซึ่งช่วยขยายทางผ่านของ residual connection อันเป็นแกนหลักของ deep learning มีเสถียรภาพบน manifold และลดข้อจำกัดลง
การเลือกใช้ Muon optimizer: เป็น optimizer ที่โมเดลจากจีนใช้กันแทบจะเป็นมาตรฐานหลังยุค Adam โดยช่วยยกระดับทั้งความเร็วในการฝึกและประสิทธิภาพการใช้ข้อมูล
การถอด MLA ออก: เลิกใช้ MLA ซึ่งเคยแทบเป็นสัญลักษณ์ของ DeepSeek แล้วเปลี่ยนไปใช้ Multi-Query Attention ที่เรียบง่ายกว่า

ข้อดีและจุดเด่น

ต้นทุนของ long context ลดลงอย่างมาก: แม้โมเดลจะใหญ่กว่า V3 ราว 2.5~3 เท่า แต่คอมพิวต์สำหรับการคำนวณโทเค็นลดลงเหลือประมาณ 27% และหน่วยความจำ KV cache ลดลงเหลือระดับ 10%
ฝึก long context ตั้งแต่ช่วง pretraining: โทเค็น 1T แรกฝึกที่ 4K~16K และโทเค็นมากกว่า 30T หลังจากนั้นฝึกที่ 64K ขึ้นไป แตกต่างจากแนวทางเดิมที่มักเพิ่ม context ในขั้นตอนหลัง
ความลึกของการ optimize โครงสร้างพื้นฐาน: มีการใส่รายละเอียดแน่นมาก ทั้ง MoE communication/compute overlap ที่ปรับปรุงจาก Comet ของ ByteDance, mega-kernel ที่ดันจนถึงระดับเกิด power throttling, การมีส่วนร่วมกับ TileLang, การ optimize batch invariance kernel อย่างมาก และการบีบอัด expert weight แบบ MXFP4 (4-bit)
ภาวะผู้นำเชิงอัลกอริทึม: ในสถานการณ์ที่บิ๊กเทคสหรัฐไม่เปิดเผยสถาปัตยกรรม มีการประเมินว่าเฉพาะในส่วน pretraining นั้น DeepSeek อยู่ในระดับเทียบเท่าหรือบางจุดอาจนำหน้า

ข้อเสียและข้อจำกัด

ความไม่เสถียรระหว่างการฝึก: ต่างจากกระแสที่นักพัฒนา LLM ระยะหลังมักบอกว่าการฝึกมีเสถียรภาพมาก DeepSeek-V4 เปิดเผยอย่างตรงไปตรงมาว่าประสบปัญหาความไม่เสถียรหลายจุด และต้องใช้ทั้งการแก้ MoE gating, clamping รวมถึงกลไกซับซ้อนอย่าง Anticipatory Routing ที่ทำ routing ด้วยน้ำหนักจากช่วงเวลาก่อนหน้า
ความยากในการทำซ้ำผลลัพธ์: ข้อสรุปร่วมของทีมอื่นในจีนคือการฝึก Sparse Attention แบบแทบเริ่มจากศูนย์นั้นยากมาก แม้ DeepSeek จะทำสำเร็จ แต่ทีมอื่นอาจไม่ได้ตามได้ง่าย
ข้อสังเกตต่อ post-training: เมื่อเทียบกับการก้าวกระโดดใน pretraining ส่วน post-training ยังดูเหมือนมีพื้นที่ให้พัฒนาอีกมาก เป็นจุดที่น่าจะเสริมได้อีกมากในขั้น 4.1 และ 4.2
ความเงียบเรื่องข้อมูล: กล่าวเพียงว่าเตรียมโทเค็นไว้ 32T แต่แทบไม่พูดถึงองค์ประกอบข้อมูลอย่างละเอียด เช่น มีการใช้ synthetic data หรือไม่

จุดแตกต่าง

การเปิดเผยอย่างโปร่งใส: ต่างจาก frontier lab อื่นที่มักปกปิดสถาปัตยกรรม DeepSeek อธิบายทั้งโครงสร้างและการลองผิดลองถูกอย่างค่อนข้างตรงไปตรงมา
การออกแบบแบบบูรณาการตั้งแต่ขั้น pretraining: จุดเด่นคือการผสาน long context, Sparse Attention และ FP4 quantization เข้าไปตั้งแต่ pretraining ไม่ใช่ค่อยไปทำภายหลัง
การกระจายความหลากหลายด้านฮาร์ดแวร์: ระบุว่าใช้งานชิปของ Huawei ควบคู่กับชิปของ NVIDIA ซึ่งสะท้อนว่าทางเลือกด้านเซมิคอนดักเตอร์ภายในจีนกำลังก่อตัวชัดขึ้น

ความหมายเมื่อมองจากมุมอุตสาหกรรม

ภูมิทัศน์ใหม่ของ frontier lab จีน: มีความเห็นว่าทีมเกือบ 5 แห่ง ได้แก่ DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 และ Xiaomi MiMo กำลังก้าวขึ้นมาพร้อมกัน และในด้าน pretraining ก็เริ่มมีบางพื้นที่ที่เทียบเท่าหรือบางส่วนเหนือกว่าสหรัฐ
post-training คือสมรภูมิถัดไป: มีแนวโน้มว่าอีกไม่นานคอมพิวต์ในระดับใกล้เคียงกับ pretraining จะถูกทุ่มลงใน post-training และช่องว่างในช่วงนี้อาจกลายเป็นตัวชี้ขาดของคนชนะในรุ่นถัดไป
การอัปเดตโมเดลกลายเป็นเรื่องปกติ: เมื่อ GPT-5.5, Claude Mythos, Spud และ DeepSeek-V4 เปลี่ยน base model ในช่วงเวลาใกล้กัน ก็เริ่มเห็นแนวโน้มว่าการอัปเดตโมเดลจะชินชาจนคล้ายการอัปเดตเบราว์เซอร์ Chrome

DeepSeek-V4 ครั้งนี้จึงใกล้เคียงกับการเป็นบันทึกที่เผยให้เห็นว่าทีมหนึ่งฝ่าโจทย์ยากตลอด 1 ปีอย่างไร มากกว่าจะเป็นเพียงการแสดงตัวเลขประสิทธิภาพของโมเดลเดี่ยว ความพยายามลาก Sparse Attention มาตั้งแต่ขั้น pretraining งานโครงสร้างพื้นฐานที่กดต้นทุน long context ของโมเดลขนาด 1.6T ลงมาเหลืออัตราเลขหลักเดียว และกลไกนอกตำราที่ถูกนำมาใช้เพื่อรับมือกับความไม่เสถียรระหว่างการฝึก ล้วนมีโอกาสกลายเป็นฐานใหม่ของโมเดล frontier จากจีนในอนาคต ขณะเดียวกัน โจทย์ที่ยังค้างอยู่ในด้าน post-training และข้อมูลก็ยังเด่นชัด ทำให้ประเด็นว่ารุ่น 4.1 และ 4.2 จะลดช่องว่างเหล่านี้ได้มากแค่ไหนน่าจะเป็นจุดน่าจับตาในไตรมาสถัดไป

4 ความคิดเห็น

winkagn 1 시간 전

ผู้คนพูดกันในทำนองว่าไม่เชื่อถือเพราะเป็นของจีน แต่สำหรับผม ผมรู้สึกขอบคุณ DeepSeek จริง ๆ อย่างน้อยก็ในแง่ที่พวกเขาทำวิจัยและเปิดเผย รวมถึงเผยแพร่แม้กระทั่งกระบวนการลองผิดลองถูกด้วย

junghwanlee 23 시간 전

คุณโนซองฮุน → เป็นคุณคิมซองฮยอน

xguru 22 시간 전

แก้ไขไว้แล้ว

ragingwind 23 시간 전

ขอบคุณครับ น่าจะต้องแก้ไขครับ

สรุปการอ่านงานวิจัย DeepSeek-V4 - โนจองซอก

บทความที่เกี่ยวข้อง

4 ความคิดเห็น