- DeepSeek-V3.2 คือโมเดลภาษาใหญ่โอเพ่นซอร์สที่ผสาน ประสิทธิภาพการคำนวณสูง เข้ากับ ประสิทธิภาพด้านการอนุมานและเอเจนต์ เข้าด้วยกัน
- โครงสร้าง DeepSeek Sparse Attention (DSA) ใหม่นำเสนอกลไกที่คงประสิทธิภาพได้แม้ในบริบทยาว พร้อมลดความซับซ้อนการคำนวณได้อย่างมาก
- ด้วยกรอบ การเสริมแรงการเรียนรู้แบบขยายได้ (RL) ที่สามารถขยายขนาด ทำให้บรรลุระดับประสิทธิภาพระดับ GPT-5, และเวอร์ชันประสิทธิภาพสูงมีศักยภาพการอนุมานเทียบเท่า Gemini-3.0-Pro
- โดยใช้ ท่อการสังเคราะห์งานเอเจนต์ขนาดใหญ่ ที่สร้างสภาพแวดล้อม 1,800 รายการและพรอมต์ 85,000 รายการ ช่วยยกระดับความสามารถในการ generalization และการปฏิบัติตามคำสั่งในสภาพแวดล้อมปฏิสัมพันธ์ที่ซับซ้อน
- โมเดลโอเพ่นช่วยขยับความได้เปรียบ ลดช่องว่างผลลัพธ์กับโมเดลปิด และก้าวขึ้นเป็น ทางเลือกที่คุ้มค่าด้านต้นทุน
ภาพรวม DeepSeek-V3.2
- DeepSeek-V3.2 เป็นโมเดลที่ออกแบบมาเพื่อเอาชนะข้อจำกัดด้าน การอนุมานและประสิทธิภาพเอเจนต์ของ LLM โอเพ่นซอร์ส
- ประกอบด้วยเทคโนโลยีหลัก 3 อย่าง: DeepSeek Sparse Attention(DSA), กรอบการเสริมแรงการเรียนรู้แบบขยายได้, และ ท่อการสังเคราะห์งานเอเจนต์ขนาดใหญ่
- DeepSeek-V3.2-Speciale เวอร์ชันประสิทธิภาพสูง เหนือกว่า GPT-5 และมีความสามารถการอนุมานในระดับใกล้เคียง Gemini-3.0-Pro
- บันทึกผลงานระดับใกล้เคียงเหรียญทองใน การแข่งขันนานาชาติทางคณิตศาสตร์ (IMO) และ การแข่งขันนานาชาติด้านวิทยาการคอมพิวเตอร์ (IOI) ในปี 2025
- โมเดลโอเพ่นได้ยกระดับทั้งประสิทธิภาพและประสิทธิผลพร้อมกัน ทำให้ ลดช่องว่างผลลัพธ์ระหว่างโอเพ่นโมเดลและโมเดลปิด
ข้อจำกัดของโอเพ่นโมเดลและแนวทางการปรับปรุง
- มีการชี้ว่า LLM โอเพ่นซอร์สตามหลังโมเดลปิดเนื่องจากข้อจำกัดหลัก 3 ข้อ
- โครงสร้าง attention พื้นฐานมีประสิทธิภาพไม่ดีพอ เมื่อประมวลผลลำดับที่ยาว ทำให้ภาระการคำนวณสูง
- การคอมพิวต์ในขั้นตอนหลังการฝึก (post-training) ไม่เพียงพอ ทำให้การทำงานด้อยลงในภารกิจที่ยาก
- ความสามารถในการ generalize และการปฏิบัติงานเอเจนต์ยังไม่สมบูรณ์ ส่งผลให้เกิดข้อจำกัดในการใช้งานจริง
- DeepSeek-V3.2 จึงนำเสนอ โครงสร้าง attention ที่มีประสิทธิภาพ, แนวทางการเรียนรู้เสริมเชิงเสริมที่ขยายขนาดได้, และ ท่อรวมการอนุมานแบบใช้เครื่องมือ เพื่อแก้ปัญหาเหล่านี้
DeepSeek Sparse Attention (DSA)
- DSA ประกอบด้วย lightning indexer และ กลไกคัดเลือกโทเคนที่ละเอียด
- lightning indexer ทำงานด้วยความแม่น FP8 โดยกำหนดว่าโทเคน query แต่ละตัวเลือก key-value คู่บนสุด k อัน
- ทำให้ลดความซับซ้อนจาก O(L²) เหลือ O(Lk) จึงประมวลผลบริบทยาวได้อย่างมีประสิทธิภาพ
- ใช้การนำไปใช้งานแบบ MLA-based และยังคงความเข้ากันได้กับ DeepSeek-V3.1-Terminus เดิม
- ดำเนินการฝึกแบบต่อเนื่อง 2 ขั้นตอน
- ขั้น Dense Warm-up สำหรับเริ่มต้น indexer
- ขั้น Sparse Training ปรับโมเดลทั้งตัวให้สอดคล้องกับรูปแบบ DSA และฝึกด้วยข้อมูล 943.7B โทเคน
การประเมินผลและประสิทธิภาพ
- DeepSeek-V3.2-Exp ปรับปรุงประสิทธิภาพการจัดการคอนเท็กซ์ยาวอย่างชัดเจน พร้อมคงผลลัพธ์เทียบเท่า DeepSeek-V3.1-Terminus ได้โดยไม่ลดทอนคุณภาพ
- ในเกณฑ์อิสระอย่าง AA-LCR3 และ Fiction.liveBench ได้บันทึกคะแนนการอนุมานที่ดีขึ้นเมื่อเทียบกับรุ่นก่อนหน้า
- ภายใต้คลัสเตอร์ GPU H800 ต้นทุนต่อโทเคนลดลงอย่างมาก ทำให้ได้ อัตราเร็วแบบ end-to-end ที่ดีขึ้น
โครงสร้างหลังการฝึก (Post-Training) และการเสริมแรงการเรียนรู้
- ผสาน Specialist Distillation และ Mixed RL เข้าด้วยกัน
- ฝึก 6 โมเดลโดเมนผู้เชี่ยวชาญด้วย RL ได้แก่ คณิตศาสตร์ การเขียนโปรแกรม การอนุมานเชิงตรรกะ เอเจนต์ทั่วไป เอเจนต์โค้ด และเอเจนต์ค้นหา
- ทำการ distill ข้อมูลจากแต่ละโมเดลผู้เชี่ยวชาญเพื่อสร้าง checkpoint สุดท้าย
- ใช้อัลกอริทึม Group Relative Policy Optimization (GRPO) เพื่อรวมการฝึกการอนุมาน เอเจนต์ และการจัดแนวเข้าด้วยกัน
- ผสาน reward model, length penalty, และ reward ความสม่ำเสมอทางภาษา เข้าด้วยกัน
- DeepSeek-V3.2-Speciale เพิ่มการใช้ข้อมูลและรูปแบบรางวัลจาก DeepSeekMath-V2 เพื่อเสริมความแข็งแกร่งด้านความสามารถในการพิสูจน์ทางคณิตศาสตร์
เทคนิคการทำให้เสถียรในการเสริมแรงการเรียนรู้ (Scaling GRPO)
- ใช้ Unbiased KL Estimate เพื่อให้การลู่เข้าเสถียรขึ้น
- แก้ปัญหากราดีเอนต์ไม่เสถียรของตัวประมาณค่า K3 แบบเดิม
- ด้วย Off-Policy Sequence Masking มาสก์ตัวอย่างค่าลบที่มีการไม่สอดคล้องของนโยบายสูงขึ้น เพื่อเพิ่มเสถียรภาพการเรียนรู้
- ใช้ Keep Routing เพื่อคงความสอดคล้องของการ routing ในโมเดล Mixture-of-Experts
- ใช้ Keep Sampling Mask เพื่อป้องกันการไม่ตรงกันของพื้นที่การกระทำระหว่างนโยบายในระหว่างการสุ่มด้วย top-p, top-k
การอัปเดตการคิดด้วยการใช้เครื่องมือ (Thinking in Tool-Use)
- นำ Thinking Context Management มาใช้เพื่อหลีกเลี่ยงการอนุมานซ้ำซ้อนที่ไม่จำเป็นเมื่อมีการเรียกเครื่องมือ
- ลบเนื้อหาการอนุมานเดิมออกเฉพาะเมื่อมีข้อความใหม่จากผู้ใช้
- คงประวัติการเรียกเครื่องมือไว้เพื่อบริหารบริบทได้อย่างมีประสิทธิภาพ
- ที่ Cold-Start ผสานข้อมูลการอนุมานกับข้อมูลเอเจนต์
- ข้อมูลการคิดใช้งานแท็ก
<think></think> เพื่อแสดงเส้นทางการอนุมานอย่างชัดเจน
- สร้างฐานการฝึกแบบบูรณาการผ่าน system prompt ที่รวมการเรียกเครื่องมือ
- ใช้ การสังเคราะห์งานเอเจนต์ขนาดใหญ่ เพื่อสร้างสภาพแวดล้อม 1,800 รายการและพรอมต์ 85,000 รายการ
- ทำการเรียนรู้เสริมด้วย RL ในโลกจริงผ่าน API ค้นเว็บ, เครื่องมือรันโค้ด, และ Jupyter Notebook
- Search Agent ใช้พายป์ไลน์มัลติเอเจนต์เพื่ออัตโนษมัติการสร้างคำถาม การยืนยัน และการประเมินรางวัล
- ใช้โมเดลรางวัลแบบไฮบริดเพื่อเพิ่มประสิทธิภาพทั้งด้านความน่าเชื่อถือของข้อเท็จจริงและประโยชน์ใช้งานจริงพร้อมกัน
สรุป
- DeepSeek-V3.2 ผนวก โครงสร้าง attention ที่มีประสิทธิภาพ เข้ากับ การเรียนรู้เสริมที่ขยายได้ เพื่อผลักดันขีดจำกัดของโอเพ่นโมเดลให้ก้าวไกลขึ้น
- ในด้าน การอนุมานและประสิทธิภาพเชิงเอเจนต์แบบผสานกัน โมเดลนี้ลดช่องว่างกับโมเดลปิดอย่างมาก และผุดขึ้นเป็น ทางเลือกที่คุ้มค่าทางต้นทุน
- เป็นกรณีตัวอย่างที่ชี้ทิศทางการพัฒนา LLM โอเพ่นซอร์สสู่ สมรรถนะสูงอย่างยั่งยืน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
น่าประทับใจที่พวกเขายังคงปรับปรุง ประสิทธิภาพด้านต้นทุน อย่างต่อเนื่อง และแบ่งปันกระบวนการพัฒนาอย่างเปิดเผย
ก็หวังว่าความพยายามแบบนี้จะเป็นแรงต้าน การผูกขาด AI
ถ้าโมเดลเปิดสามารถแข่งขันกับโมเดลเชิงพาณิชย์ได้ ก็อดสงสัยไม่ได้ว่า บริษัทอย่าง Google, Anthropic, OpenAI จะหาเงินจาก AI ได้อย่างไร
ในอดีตที่โอเพนซอร์สไปไม่รอด เพราะคุณภาพและความลึกของฟีเจอร์ตามหลังระบบปิด แต่ตอนนี้ดูเหมือนประสิทธิภาพจะเข้าสู่ ช่วงชะงักงัน แล้ว
สุดท้ายฝ่ายที่มี โครงสร้างพื้นฐานพลังงานที่ถูกที่สุด น่าจะเป็นผู้ชนะในระยะยาว
ตัวอย่างเช่น Amazon ที่ให้บริการ MongoDB API สุดท้ายก็เป็นโครงสร้างที่ทำเงินจากค่าการใช้อินฟราฯ
บริษัทส่วนใหญ่ไม่มีศักยภาพพอจะโฮสต์โมเดล SOTA เอง แค่มองจากความจริงที่ว่าหลายบริษัทยังไม่ได้ดูแลแม้แต่เซิร์ฟเวอร์อีเมลเองก็เข้าใจได้
Google เป็นผู้สร้าง Transformer และ OpenAI ก็ทำให้ ChatGPT สำเร็จด้วย RLHF แต่ตอนนี้ ฟีเจอร์สรุปผลด้วย AI ของ Google กลับมายึดพื้นที่ด้านบนของหน้าค้นหาอีกครั้ง
เอกสารที่เกี่ยวข้อง: Google “We have no moat, and neither does OpenAI”
โมเดลนี้ไม่ได้ปรับปรุงแค่เบนช์มาร์ก แต่ยังพัฒนา ประสิทธิภาพการอนุมาน ได้มากด้วย
ลิงก์ที่เกี่ยวข้อง: เปรียบเทียบประสิทธิภาพของ Thomas Ip
chat template ของ DeepSeek-V3.2 เปลี่ยนไปมาก
ตอนแรกนึกว่าทำฟอร์แมตใหม่ขึ้นมา แต่พอดูไวยากรณ์แล้ว มันแทบจะเหมือนกับ ฟอร์แมต Harmony เลย
ถ้าอย่างนั้น ถ้าระบุไปตั้งแต่แรกว่าเข้ากันได้กับ Harmony ก็น่าจะเข้าใจง่ายกว่านี้
สงสัยว่าทำไมแทบไม่มีโมเดลระดับ 32~512GB และทำไม Mac Studio M4 ถึงมี RAM สูงสุดแค่ 128GB
การที่โมเดลแบบนี้ถูกปล่อยเป็นโอเพนซอร์สถือว่ายอดเยี่ยม แต่ก็ยังสงสัยว่าเครื่องริกระดับ 20,000 ดอลลาร์ ที่มี RTX 5090 สี่ใบ จะรันได้เร็วพอหรือไม่
จุดนี้กลับยิ่งสนับสนุนข้ออ้างในคอมเมนต์ต้นทางว่า สำหรับผู้บริโภคทั่วไปมันช้า
ถ้าดูตาราง 3 ในงานวิจัย DS-Speciale แทบจะได้อันดับ 1~2 ในทุกการทดสอบ แต่ ปริมาณโทเคนที่ปล่อยออกมามากกว่ากว่า 50%
มันสามารถ ขยายประสิทธิภาพการอนุมานด้วยทรัพยากรคอมพิวต์ ได้ โดยสร้างคำตอบหลายแบบแบบขนานแล้วเลือกคำตอบสุดท้าย
หลังจากลองใช้มาสองสามชั่วโมง รู้สึกว่าเป็น โมเดลที่แข็งแรงและแข่งขันได้มาก ดีกว่า GLM4.6 และให้ความรู้สึกว่าดีกว่า Kimi K2 ด้วย รอ v4 เลย
น่าสนใจที่นี่คือโมเดลขนาดใหญ่ระดับ frontier ที่เปิดภายใต้ ไลเซนส์ MIT
ไม่ค่อยเข้าใจเกณฑ์ประเมินของอุตสาหกรรม AI ในสหรัฐฯ เท่าไร เพราะ โมเดลจากจีนถูกกว่ามากแต่ประสิทธิภาพแทบไม่ต่างกัน
อีกอย่าง เบนช์มาร์กก็เริ่มอิ่มตัวแล้ว ช่องว่างเลยดูแคบ แต่ในระดับบนสุด ความต่าง 1% ก็มีความหมายมากในทางปฏิบัติ
ใน กระดานจัดอันดับ Metabench ที่ฉันทำเอง โมเดลจีนก็ดีจริง แต่ก็ยังมีช่องว่างกับกลุ่มบนอยู่
อย่างไรก็ตาม ด้วยต้นทุนการอนุมานที่ต่ำ โมเดลจีนจึงแข็งแกร่งมากในด้าน ความคุ้มค่าต่อราคา
บริษัทสหรัฐฯ ไม่ได้ขายแค่โมเดล แต่ขาย โครงสร้างพื้นฐานหน่วงต่ำทั่วโลก ไปพร้อมกันด้วย นั่นอธิบายมูลค่าบริษัทที่สูง
อนึ่ง Cerebras ก็กำลังให้บริการ GLM 4.6 ที่เร็วมาก
อาจมีสมมติฐานแฝงอยู่ว่า DeepSeek จะถูกแบน และซอฟต์แวร์โอเพนซอร์สจะถูกปิดกั้นในสหรัฐฯ
จากนี้ไป โมเดล frontier อาจสร้างความแตกต่างได้จาก edge case ที่ละเอียดมากขึ้น