เปิดตัว DeepSeek-V3.2: ขยายขีดจำกัดของโมเดลภาษาใหญ่แบบโอเพ่นซอร์ส

(huggingface.co)

6 คะแนน โดย GN⁺ 2025-12-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek-V3.2 คือโมเดลภาษาใหญ่โอเพ่นซอร์สที่ผสาน ประสิทธิภาพการคำนวณสูง เข้ากับ ประสิทธิภาพด้านการอนุมานและเอเจนต์ เข้าด้วยกัน
โครงสร้าง DeepSeek Sparse Attention (DSA) ใหม่นำเสนอกลไกที่คงประสิทธิภาพได้แม้ในบริบทยาว พร้อมลดความซับซ้อนการคำนวณได้อย่างมาก
ด้วยกรอบ การเสริมแรงการเรียนรู้แบบขยายได้ (RL) ที่สามารถขยายขนาด ทำให้บรรลุระดับประสิทธิภาพระดับ GPT-5, และเวอร์ชันประสิทธิภาพสูงมีศักยภาพการอนุมานเทียบเท่า Gemini-3.0-Pro
โดยใช้ ท่อการสังเคราะห์งานเอเจนต์ขนาดใหญ่ ที่สร้างสภาพแวดล้อม 1,800 รายการและพรอมต์ 85,000 รายการ ช่วยยกระดับความสามารถในการ generalization และการปฏิบัติตามคำสั่งในสภาพแวดล้อมปฏิสัมพันธ์ที่ซับซ้อน
โมเดลโอเพ่นช่วยขยับความได้เปรียบ ลดช่องว่างผลลัพธ์กับโมเดลปิด และก้าวขึ้นเป็น ทางเลือกที่คุ้มค่าด้านต้นทุน

ภาพรวม DeepSeek-V3.2

DeepSeek-V3.2 เป็นโมเดลที่ออกแบบมาเพื่อเอาชนะข้อจำกัดด้าน การอนุมานและประสิทธิภาพเอเจนต์ของ LLM โอเพ่นซอร์ส
- ประกอบด้วยเทคโนโลยีหลัก 3 อย่าง: DeepSeek Sparse Attention(DSA), กรอบการเสริมแรงการเรียนรู้แบบขยายได้, และ ท่อการสังเคราะห์งานเอเจนต์ขนาดใหญ่
DeepSeek-V3.2-Speciale เวอร์ชันประสิทธิภาพสูง เหนือกว่า GPT-5 และมีความสามารถการอนุมานในระดับใกล้เคียง Gemini-3.0-Pro
- บันทึกผลงานระดับใกล้เคียงเหรียญทองใน การแข่งขันนานาชาติทางคณิตศาสตร์ (IMO) และ การแข่งขันนานาชาติด้านวิทยาการคอมพิวเตอร์ (IOI) ในปี 2025
โมเดลโอเพ่นได้ยกระดับทั้งประสิทธิภาพและประสิทธิผลพร้อมกัน ทำให้ ลดช่องว่างผลลัพธ์ระหว่างโอเพ่นโมเดลและโมเดลปิด

ข้อจำกัดของโอเพ่นโมเดลและแนวทางการปรับปรุง

มีการชี้ว่า LLM โอเพ่นซอร์สตามหลังโมเดลปิดเนื่องจากข้อจำกัดหลัก 3 ข้อ
- โครงสร้าง attention พื้นฐานมีประสิทธิภาพไม่ดีพอ เมื่อประมวลผลลำดับที่ยาว ทำให้ภาระการคำนวณสูง
- การคอมพิวต์ในขั้นตอนหลังการฝึก (post-training) ไม่เพียงพอ ทำให้การทำงานด้อยลงในภารกิจที่ยาก
- ความสามารถในการ generalize และการปฏิบัติงานเอเจนต์ยังไม่สมบูรณ์ ส่งผลให้เกิดข้อจำกัดในการใช้งานจริง
DeepSeek-V3.2 จึงนำเสนอ โครงสร้าง attention ที่มีประสิทธิภาพ, แนวทางการเรียนรู้เสริมเชิงเสริมที่ขยายขนาดได้, และ ท่อรวมการอนุมานแบบใช้เครื่องมือ เพื่อแก้ปัญหาเหล่านี้

DeepSeek Sparse Attention (DSA)

DSA ประกอบด้วย lightning indexer และ กลไกคัดเลือกโทเคนที่ละเอียด
- lightning indexer ทำงานด้วยความแม่น FP8 โดยกำหนดว่าโทเคน query แต่ละตัวเลือก key-value คู่บนสุด k อัน
- ทำให้ลดความซับซ้อนจาก O(L²) เหลือ O(Lk) จึงประมวลผลบริบทยาวได้อย่างมีประสิทธิภาพ
ใช้การนำไปใช้งานแบบ MLA-based และยังคงความเข้ากันได้กับ DeepSeek-V3.1-Terminus เดิม
ดำเนินการฝึกแบบต่อเนื่อง 2 ขั้นตอน
- ขั้น Dense Warm-up สำหรับเริ่มต้น indexer
- ขั้น Sparse Training ปรับโมเดลทั้งตัวให้สอดคล้องกับรูปแบบ DSA และฝึกด้วยข้อมูล 943.7B โทเคน

การประเมินผลและประสิทธิภาพ

DeepSeek-V3.2-Exp ปรับปรุงประสิทธิภาพการจัดการคอนเท็กซ์ยาวอย่างชัดเจน พร้อมคงผลลัพธ์เทียบเท่า DeepSeek-V3.1-Terminus ได้โดยไม่ลดทอนคุณภาพ
ในเกณฑ์อิสระอย่าง AA-LCR3 และ Fiction.liveBench ได้บันทึกคะแนนการอนุมานที่ดีขึ้นเมื่อเทียบกับรุ่นก่อนหน้า
ภายใต้คลัสเตอร์ GPU H800 ต้นทุนต่อโทเคนลดลงอย่างมาก ทำให้ได้ อัตราเร็วแบบ end-to-end ที่ดีขึ้น

โครงสร้างหลังการฝึก (Post-Training) และการเสริมแรงการเรียนรู้

ผสาน Specialist Distillation และ Mixed RL เข้าด้วยกัน
- ฝึก 6 โมเดลโดเมนผู้เชี่ยวชาญด้วย RL ได้แก่ คณิตศาสตร์ การเขียนโปรแกรม การอนุมานเชิงตรรกะ เอเจนต์ทั่วไป เอเจนต์โค้ด และเอเจนต์ค้นหา
- ทำการ distill ข้อมูลจากแต่ละโมเดลผู้เชี่ยวชาญเพื่อสร้าง checkpoint สุดท้าย
ใช้อัลกอริทึม Group Relative Policy Optimization (GRPO) เพื่อรวมการฝึกการอนุมาน เอเจนต์ และการจัดแนวเข้าด้วยกัน
- ผสาน reward model, length penalty, และ reward ความสม่ำเสมอทางภาษา เข้าด้วยกัน
DeepSeek-V3.2-Speciale เพิ่มการใช้ข้อมูลและรูปแบบรางวัลจาก DeepSeekMath-V2 เพื่อเสริมความแข็งแกร่งด้านความสามารถในการพิสูจน์ทางคณิตศาสตร์

เทคนิคการทำให้เสถียรในการเสริมแรงการเรียนรู้ (Scaling GRPO)

ใช้ Unbiased KL Estimate เพื่อให้การลู่เข้าเสถียรขึ้น
- แก้ปัญหากราดีเอนต์ไม่เสถียรของตัวประมาณค่า K3 แบบเดิม
ด้วย Off-Policy Sequence Masking มาสก์ตัวอย่างค่าลบที่มีการไม่สอดคล้องของนโยบายสูงขึ้น เพื่อเพิ่มเสถียรภาพการเรียนรู้
ใช้ Keep Routing เพื่อคงความสอดคล้องของการ routing ในโมเดล Mixture-of-Experts
ใช้ Keep Sampling Mask เพื่อป้องกันการไม่ตรงกันของพื้นที่การกระทำระหว่างนโยบายในระหว่างการสุ่มด้วย top-p, top-k

การอัปเดตการคิดด้วยการใช้เครื่องมือ (Thinking in Tool-Use)

นำ Thinking Context Management มาใช้เพื่อหลีกเลี่ยงการอนุมานซ้ำซ้อนที่ไม่จำเป็นเมื่อมีการเรียกเครื่องมือ
- ลบเนื้อหาการอนุมานเดิมออกเฉพาะเมื่อมีข้อความใหม่จากผู้ใช้
- คงประวัติการเรียกเครื่องมือไว้เพื่อบริหารบริบทได้อย่างมีประสิทธิภาพ
ที่ Cold-Start ผสานข้อมูลการอนุมานกับข้อมูลเอเจนต์
- ข้อมูลการคิดใช้งานแท็ก <think></think> เพื่อแสดงเส้นทางการอนุมานอย่างชัดเจน
- สร้างฐานการฝึกแบบบูรณาการผ่าน system prompt ที่รวมการเรียกเครื่องมือ
ใช้ การสังเคราะห์งานเอเจนต์ขนาดใหญ่ เพื่อสร้างสภาพแวดล้อม 1,800 รายการและพรอมต์ 85,000 รายการ
- ทำการเรียนรู้เสริมด้วย RL ในโลกจริงผ่าน API ค้นเว็บ, เครื่องมือรันโค้ด, และ Jupyter Notebook
- Search Agent ใช้พายป์ไลน์มัลติเอเจนต์เพื่ออัตโนษมัติการสร้างคำถาม การยืนยัน และการประเมินรางวัล
- ใช้โมเดลรางวัลแบบไฮบริดเพื่อเพิ่มประสิทธิภาพทั้งด้านความน่าเชื่อถือของข้อเท็จจริงและประโยชน์ใช้งานจริงพร้อมกัน

สรุป

DeepSeek-V3.2 ผนวก โครงสร้าง attention ที่มีประสิทธิภาพ เข้ากับ การเรียนรู้เสริมที่ขยายได้ เพื่อผลักดันขีดจำกัดของโอเพ่นโมเดลให้ก้าวไกลขึ้น
ในด้าน การอนุมานและประสิทธิภาพเชิงเอเจนต์แบบผสานกัน โมเดลนี้ลดช่องว่างกับโมเดลปิดอย่างมาก และผุดขึ้นเป็น ทางเลือกที่คุ้มค่าทางต้นทุน
เป็นกรณีตัวอย่างที่ชี้ทิศทางการพัฒนา LLM โอเพ่นซอร์สสู่ สมรรถนะสูงอย่างยั่งยืน

1 ความคิดเห็น

GN⁺ 2025-12-02

ความคิดเห็นจาก Hacker News

น่าประทับใจที่พวกเขายังคงปรับปรุง ประสิทธิภาพด้านต้นทุน อย่างต่อเนื่อง และแบ่งปันกระบวนการพัฒนาอย่างเปิดเผย
ก็หวังว่าความพยายามแบบนี้จะเป็นแรงต้าน การผูกขาด AI
- แต่ก็ไม่มีทางรู้ได้จริง ๆ ว่าใคร “ชนะ” เรื่องประสิทธิภาพด้านต้นทุน เพราะเราไม่รู้โครงสร้างกำไรขาดทุนของแต่ละบริษัท
- เห็นด้วย แต่ก็ไม่คิดว่าเจตนาของพวกเขาจะมีอยู่เพียงด้านเดียว
- ตราบใดที่ยังรันได้ไม่สมบูรณ์บน GPU ตัวเดียว ก็ยังไม่มีใครเป็นผู้ชนะด้านประสิทธิภาพต้นทุนอย่างแท้จริง
- น่าจะยังคงเปิดเผยต่อไปจนกว่าจะสร้างโมเดลที่ดีกว่าคู่แข่งอย่างชัดเจน แต่ถ้าหลังจาก ขึ้นนำได้จริงแล้ว ยังเปิดต่อไปอยู่ ตอนนั้นคงต้องชื่นชมจากใจจริง
- แต่การมองว่า บริษัทที่ได้รับการสนับสนุนจากพรรคคอมมิวนิสต์จีน มีเจตนาบริสุทธิ์ ก็ดูเป็นความคิดที่ไร้เดียงสาไปหน่อย เบื้องหลังคงมีเป้าหมายอื่นแน่
ถ้าโมเดลเปิดสามารถแข่งขันกับโมเดลเชิงพาณิชย์ได้ ก็อดสงสัยไม่ได้ว่า บริษัทอย่าง Google, Anthropic, OpenAI จะหาเงินจาก AI ได้อย่างไร
ในอดีตที่โอเพนซอร์สไปไม่รอด เพราะคุณภาพและความลึกของฟีเจอร์ตามหลังระบบปิด แต่ตอนนี้ดูเหมือนประสิทธิภาพจะเข้าสู่ ช่วงชะงักงัน แล้ว
สุดท้ายฝ่ายที่มี โครงสร้างพื้นฐานพลังงานที่ถูกที่สุด น่าจะเป็นผู้ชนะในระยะยาว
- ตามเอกสารภายในของ Google ระบุว่า “AI/LLM ไม่มีคูเมือง (moat)” แต่ถึงจะไม่ได้เป็นเจ้าของโมเดลเอง ก็ยังทำกำไรมหาศาลได้หากให้บริการในรูปแบบ SaaS หรือ MaaS
  ตัวอย่างเช่น Amazon ที่ให้บริการ MongoDB API สุดท้ายก็เป็นโครงสร้างที่ทำเงินจากค่าการใช้อินฟราฯ
  บริษัทส่วนใหญ่ไม่มีศักยภาพพอจะโฮสต์โมเดล SOTA เอง แค่มองจากความจริงที่ว่าหลายบริษัทยังไม่ได้ดูแลแม้แต่เซิร์ฟเวอร์อีเมลเองก็เข้าใจได้
  Google เป็นผู้สร้าง Transformer และ OpenAI ก็ทำให้ ChatGPT สำเร็จด้วย RLHF แต่ตอนนี้ ฟีเจอร์สรุปผลด้วย AI ของ Google กลับมายึดพื้นที่ด้านบนของหน้าค้นหาอีกครั้ง
  เอกสารที่เกี่ยวข้อง: Google “We have no moat, and neither does OpenAI”
- องค์กรต่าง ๆ เชื่อถือ OpenAI หรือ Anthropic และการมี ฝ่ายให้โยนความรับผิดชอบใส่เมื่อเกิดปัญหา ก็เป็นเรื่องสำคัญเช่นกัน
- ถ้าสามารถหา พลังงานราคาถูกจากอวกาศ ได้ Musk อาจได้เปรียบอย่างมากในการแข่ง AI เขาหมกมุ่นกับการสร้างโรงงานดาวเทียม AI บนดวงจันทร์
- ท้ายที่สุดชัยชนะคือการผสมกันของ UX, lock-in และความน่าเชื่อถือ ยิ่งเป็น AI ที่เข้าถึงข้อมูลส่วนตัวอย่างลึก คนก็ยิ่งเลือกแบรนด์ที่คุ้นเคย
- ตัวโมเดลล้วน ๆ ไม่ได้ทำเงิน กุญแจของมูลค่าคือ การผสานโมเดลเข้าไปในแพลตฟอร์มที่สร้างรายได้อยู่แล้ว
โมเดลนี้ไม่ได้ปรับปรุงแค่เบนช์มาร์ก แต่ยังพัฒนา ประสิทธิภาพการอนุมาน ได้มากด้วย
ลิงก์ที่เกี่ยวข้อง: เปรียบเทียบประสิทธิภาพของ Thomas Ip
- อยากรู้ว่าอะไรทำให้มันมีประสิทธิภาพขนาดนั้น
chat template ของ DeepSeek-V3.2 เปลี่ยนไปมาก
ตอนแรกนึกว่าทำฟอร์แมตใหม่ขึ้นมา แต่พอดูไวยากรณ์แล้ว มันแทบจะเหมือนกับ ฟอร์แมต Harmony เลย
ถ้าอย่างนั้น ถ้าระบุไปตั้งแต่แรกว่าเข้ากันได้กับ Harmony ก็น่าจะเข้าใจง่ายกว่านี้
สงสัยว่าทำไมแทบไม่มีโมเดลระดับ 32~512GB และทำไม Mac Studio M4 ถึงมี RAM สูงสุดแค่ 128GB
- พูดเล่น ๆ แต่ทำให้นึกถึงประโยคว่า “128GB ก็พอแล้ว” หวังว่า M5 Max จะมี RAM มากกว่านี้
การที่โมเดลแบบนี้ถูกปล่อยเป็นโอเพนซอร์สถือว่ายอดเยี่ยม แต่ก็ยังสงสัยว่าเครื่องริกระดับ 20,000 ดอลลาร์ ที่มี RTX 5090 สี่ใบ จะรันได้เร็วพอหรือไม่
- มีคนบอกว่า Mac Studio M3 Ultra 512GB ทำได้ประมาณ 20 โทเคนต่อวินาที วิดีโอเดโม
- โมเดลขนาดใหญ่ในโลกความจริงเหมาะกับการรันบน คลาวด์แบบคิดเงินรายชั่วโมงหรือรายโทเคน มากกว่า จะซื้อแร็ก H100 มารันเองก็ได้ แต่ใช้คลาวด์มีประสิทธิภาพกว่ามาก
- ตอนนี้ริกส่วนตัว ไม่คุ้มค่าในเชิงต้นทุน แล้ว พอรวมค่า GPU, ค่าไฟ และค่าระบายความร้อนแล้ว ดูแล้วซื้อ RTX Pro 6000 น่าจะดีกว่า
- ผู้ให้บริการสองรายบน OpenRouter ที่มี DeepSeek-V3.2 อยู่ด้วย (รวม DeepSeek เอง) ต่างก็รันที่ราว 28tps ลิงก์ OpenRouter
  จุดนี้กลับยิ่งสนับสนุนข้ออ้างในคอมเมนต์ต้นทางว่า สำหรับผู้บริโภคทั่วไปมันช้า
- ฉันเองก็ใช้ริกที่มี RTX 3090 อยู่ 6 ใบ แต่โมเดล 685B พารามิเตอร์ช้าเกินไป ใช้ได้สบายแค่ โมเดลต่ำกว่า 144B เท่านั้น โดยเฉพาะ GLM 4.5 Air ที่ดีมาก
ถ้าดูตาราง 3 ในงานวิจัย DS-Speciale แทบจะได้อันดับ 1~2 ในทุกการทดสอบ แต่ ปริมาณโทเคนที่ปล่อยออกมามากกว่ากว่า 50%
- ปัญหาการให้เหตุผลเชิงตรรกะ บางอย่างจำเป็นต้องมีสายโซ่ความคิดที่ยาวกว่า DeepSeek ที่ต้นทุนต่ำจึงสามารถเร่งจุดนี้ได้เต็มที่
  มันสามารถ ขยายประสิทธิภาพการอนุมานด้วยทรัพยากรคอมพิวต์ ได้ โดยสร้างคำตอบหลายแบบแบบขนานแล้วเลือกคำตอบสุดท้าย
หลังจากลองใช้มาสองสามชั่วโมง รู้สึกว่าเป็น โมเดลที่แข็งแรงและแข่งขันได้มาก ดีกว่า GLM4.6 และให้ความรู้สึกว่าดีกว่า Kimi K2 ด้วย รอ v4 เลย
น่าสนใจที่นี่คือโมเดลขนาดใหญ่ระดับ frontier ที่เปิดภายใต้ ไลเซนส์ MIT
ไม่ค่อยเข้าใจเกณฑ์ประเมินของอุตสาหกรรม AI ในสหรัฐฯ เท่าไร เพราะ โมเดลจากจีนถูกกว่ามากแต่ประสิทธิภาพแทบไม่ต่างกัน
- โมเดลจีนส่วนใหญ่เน้น ข้อความเป็นหลัก ส่วนโมเดลจากสหรัฐฯ และยุโรปรองรับทั้งภาพ เสียง และวิดีโอ จึงมีต้นทุนสูงกว่า
  อีกอย่าง เบนช์มาร์กก็เริ่มอิ่มตัวแล้ว ช่องว่างเลยดูแคบ แต่ในระดับบนสุด ความต่าง 1% ก็มีความหมายมากในทางปฏิบัติ
  ใน กระดานจัดอันดับ Metabench ที่ฉันทำเอง โมเดลจีนก็ดีจริง แต่ก็ยังมีช่องว่างกับกลุ่มบนอยู่
  อย่างไรก็ตาม ด้วยต้นทุนการอนุมานที่ต่ำ โมเดลจีนจึงแข็งแกร่งมากในด้าน ความคุ้มค่าต่อราคา
- ในการใช้งานจริง ความเร็วของอินฟราฯ คือปัจจัยสำคัญ บน OpenRouter โมเดลจีนยังไม่เร็วเท่า Claude, GPT หรือ Gemini
  บริษัทสหรัฐฯ ไม่ได้ขายแค่โมเดล แต่ขาย โครงสร้างพื้นฐานหน่วงต่ำทั่วโลก ไปพร้อมกันด้วย นั่นอธิบายมูลค่าบริษัทที่สูง
  อนึ่ง Cerebras ก็กำลังให้บริการ GLM 4.6 ที่เร็วมาก
- ผู้ให้บริการภายนอก ยังไม่รองรับ caching ถ้าเปิด caching ได้ ต้นทุนของโมเดลสหรัฐฯ จะลดลงเหลือประมาณ 2 เท่า และแข่งขันได้มากขึ้นมาก
- มูลค่าประเมินของบริษัทสหรัฐฯ ตั้งอยู่บน ศักยภาพในอนาคต มากกว่าผลงานปัจจุบัน เป็นการลงทุนภายใต้ความเข้าใจที่ยังไม่มากพอต่องานวิจัยจีน
  อาจมีสมมติฐานแฝงอยู่ว่า DeepSeek จะถูกแบน และซอฟต์แวร์โอเพนซอร์สจะถูกปิดกั้นในสหรัฐฯ
- ถึงอย่างนั้น ถ้าสหรัฐฯ ไม่ได้เป็นฝ่ายจุดชนวนการแข่งขันด้วย FOMO (ความกลัวว่าจะพลาด) ก่อน กลยุทธ์ของจีนก็คงใช้ไม่ได้ผลแบบทุกวันนี้
  จากนี้ไป โมเดล frontier อาจสร้างความแตกต่างได้จาก edge case ที่ละเอียดมากขึ้น

เปิดตัว DeepSeek-V3.2: ขยายขีดจำกัดของโมเดลภาษาใหญ่แบบโอเพ่นซอร์ส

ภาพรวม DeepSeek-V3.2

ข้อจำกัดของโอเพ่นโมเดลและแนวทางการปรับปรุง

DeepSeek Sparse Attention (DSA)

การประเมินผลและประสิทธิภาพ

โครงสร้างหลังการฝึก (Post-Training) และการเสริมแรงการเรียนรู้

เทคนิคการทำให้เสถียรในการเสริมแรงการเรียนรู้ (Scaling GRPO)

การอัปเดตการคิดด้วยการใช้เครื่องมือ (Thinking in Tool-Use)

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News