- โมเดลภาษาขนาดใหญ่แบบ Mixture-of-Experts(MoE) ที่รองรับ คอนเท็กซ์ 1M โทเค็น เปิดตัว 2 เวอร์ชันคือ Pro (พารามิเตอร์ 1.6T) และ Flash (พารามิเตอร์ 284B)
- สถาปัตยกรรม attention แบบไฮบริดที่ผสาน Compressed Sparse Attention(CSA) และ Heavily Compressed Attention(HCA) ช่วยให้ประสิทธิภาพกับคอนเท็กซ์ยาวดีขึ้นมาก โดยที่ระดับ 1 ล้านโทเค็น ใช้ FLOPs สำหรับการอนุมานเพียง 27% และใช้ KV cache เพียง 10% เมื่อเทียบกับ DeepSeek-V3.2
- หลัง pretrain ด้วยโทเค็นคุณภาพสูงหลากหลายมากกว่า 32T แล้ว ใช้ post-training pipeline แบบ 2 ขั้นตอน โดยฝึกผู้เชี่ยวชาญรายโดเมนแยกกัน ก่อนรวมเข้าเป็นโมเดลเดียวด้วย on-policy distillation
- DeepSeek-V4-Pro-Max ทำผลงาน ดีที่สุดในโอเพนซอร์ส บนโค้ดดิงเบนช์มาร์ก เช่น LiveCodeBench 93.5, SWE Verified 80.6 และ Codeforces 3206
- รองรับโหมดการอนุมาน 3 แบบคือ Non-Think, Think High และ Think Max ให้เลือกใช้ได้ตามงานตั้งแต่งานทั่วไปไปจนถึงการให้เหตุผลระดับยากที่สุด
ภาพรวมโมเดลและสถาปัตยกรรม
- ซีรีส์ DeepSeek-V4 ประกอบด้วย 2 โมเดลคือ DeepSeek-V4-Pro (พารามิเตอร์รวม 1.6T, activate 49B) และ DeepSeek-V4-Flash (พารามิเตอร์รวม 284B, activate 13B)
- ทั้งสองโมเดลรองรับ ความยาวคอนเท็กซ์ 1 ล้านโทเค็น
- อัปเกรดสถาปัตยกรรมและการเพิ่มประสิทธิภาพหลัก 3 อย่าง:
- Hybrid Attention Architecture: ผสาน CSA และ HCA เพื่อเพิ่มประสิทธิภาพของคอนเท็กซ์ยาวอย่างมาก โดยที่ 1 ล้านโทเค็น ลด FLOPs สำหรับการอนุมานต่อโทเค็นเหลือ 27% และ KV cache เหลือ 10% เมื่อเทียบกับ DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections(mHC): เสริม residual connection เดิมให้แข็งแรงขึ้น เพื่อให้ได้ทั้งเสถียรภาพของการส่งสัญญาณระหว่างเลเยอร์และความสามารถในการแทนค่าของโมเดล
- Muon Optimizer: ช่วยให้คอนเวิร์จเร็วขึ้นและมีเสถียรภาพในการฝึกสูงขึ้น
กระบวนการฝึกและ post-training pipeline
- pretrain ด้วยโทเค็นที่หลากหลายและมีคุณภาพสูงมากกว่า 32T
- ใน post-training ใช้ กระบวนทัศน์ 2 ขั้นตอน:
- ขั้นที่ 1: ฝึกผู้เชี่ยวชาญรายโดเมนแบบแยกกันผ่าน SFT และ RL (ใช้ GRPO)
- ขั้นที่ 2: รวมความเชี่ยวชาญจากหลายโดเมนเข้าเป็นโมเดลเดียวด้วย on-policy distillation
โหมดการอนุมาน
- ทั้ง DeepSeek-V4-Pro และ DeepSeek-V4-Flash รองรับ โหมดการอนุมาน 3 แบบ:
- Non-Think: ตอบสนองเร็วและตรงไปตรงมา เหมาะกับงานประจำวันหรือการตัดสินใจที่มีความเสี่ยงต่ำ
- Think High: การวิเคราะห์เชิงตรรกะอย่างรอบคอบ เหมาะกับการแก้ปัญหาที่ซับซ้อนหรือการวางแผน
- Think Max: ขยายความสามารถในการให้เหตุผลไปจนสุดขีด ใช้สำหรับสำรวจขอบเขตการอนุมานของโมเดล
ประสิทธิภาพเบนช์มาร์ก — โมเดล Base
- DeepSeek-V4-Pro-Base ทำได้ดีกว่า V3.2-Base และ V4-Flash-Base ในเบนช์มาร์กส่วนใหญ่:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
- V4-Flash-Base แสดงให้เห็นถึงประสิทธิภาพที่คุ้มค่า โดยใช้พารามิเตอร์ activate เพียง 13B แต่เข้าใกล้หรือบางเบนช์มาร์กทำได้ดีกว่า V3.2-Base (activate 37B)
ประสิทธิภาพเบนช์มาร์ก — โมเดล Instruct (V4-Pro-Max เทียบกับ frontier model)
- โดดเด่นใน โค้ดดิงเบนช์มาร์ก:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- ด้าน ความรู้และการให้เหตุผล:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4 สูงกว่าหลายโมเดล แต่ยังต่ำกว่า Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
- งานเอเจนต์:
- SWE Verified 80.6, MCPAtlas Public 73.6 อยู่ในกลุ่มบน
- ใน Terminal Bench 2.0(67.9) และ HLE w/ tools(48.2) ยังตามหลังโมเดล closed-source บางรุ่น
- V4-Flash-Max เมื่อให้ thinking budget มากขึ้น จะมีความสามารถด้านการให้เหตุผลเข้าใกล้เวอร์ชัน Pro แต่ในงานความรู้ล้วนและเวิร์กโฟลว์เอเจนต์ที่ซับซ้อนยังตามหลังเล็กน้อยจากความต่างของขนาดพารามิเตอร์
การเปรียบเทียบประสิทธิภาพตามโหมด
- ในทุกเบนช์มาร์ก V4-Pro Max ทำผลงานสูงสุด
- มีแนวโน้มที่ประสิทธิภาพจะเพิ่มขึ้นอย่างสม่ำเสมอจาก Non-Think → Think High → Think Max:
- ตัวอย่าง: ใน GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- ตัวอย่าง: ใน LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
- V4-Flash Max ให้ผลลัพธ์ใกล้เคียงหรือเหนือกว่า V4-Pro High ในหลายเบนช์มาร์ก
การดาวน์โหลดโมเดลและความแม่นยำ
- มี 4 โมเดลให้ใช้งาน: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
- โมเดล Base ใช้ความแม่นยำแบบ FP8 Mixed ส่วนโมเดล Instruct ใช้ความแม่นยำแบบ FP4 + FP8 Mixed
- พารามิเตอร์ผู้เชี่ยวชาญของ MoE ใช้ FP4 ส่วนที่เหลือส่วนใหญ่ใช้ FP8
- ดาวน์โหลดได้จาก HuggingFace และ ModelScope
เทมเพลตแชตและการรันแบบโลคัล
- ไม่มีเทมเพลตแชตรูปแบบ Jinja แต่มี สคริปต์ Python และ test case สำหรับเข้ารหัส/พาร์สข้อความในฟอร์แมตที่เข้ากันได้กับ OpenAI ให้ในโฟลเดอร์
encoding - พารามิเตอร์ sampling ที่แนะนำสำหรับการดีพลอยแบบโลคัล: temperature 1.0, top_p 1.0
- ในโหมด Think Max แนะนำให้ใช้ context window อย่างน้อย 384K โทเค็น
ใบอนุญาต
- ทั้งน้ำหนักโมเดลและรีโพซิทอรีใช้ MIT License
1 ความคิดเห็น
ความเห็นจาก Hacker News
โมเดลขนาดใหญ่อย่าง v4 pro มีราคาอยู่ราว 4 ดอลลาร์ต่อการสร้างผลลัพธ์ 1 ล้านโทเค็น แต่ก็ยังไม่ค่อยแน่ใจนักว่าคำพูดที่ว่า "แล็บแนวหน้ากำลังอัดเงินอุดหนุนงานอนุมานกันแบบบ้าคลั่ง" นั้นจริงแค่ไหน
แค่ ระบบสมัครสมาชิก ก็ดูน่าจะทำกำไรได้มากพออยู่แล้ว และราคา API ก็ยิ่งไม่ต้องพูดถึง
อินพุตอยู่ที่ $1.74/M, เอาต์พุต $3.48/M ตามราคาใน OpenRouter
ในข่าวประชาสัมพันธ์ระบุว่าเมื่อการ์ดประมวลผล Ascend 950 ออกมาในช่วงครึ่งหลังของปีนี้ ราคา Pro น่าจะลดลงมาก
ถึงอย่างนั้น ช่วงนี้บรรยากาศก็เหมือนว่าการประเมินต้นทุนนั้นสูงขึ้นกว่าที่คาดไว้
บริการแบบสมัครสมาชิก น่าจะทำกำไรได้อยู่แล้ว และเรื่องเงินอุดหนุนก็ดูเหมือนเป็นตรรกะที่ใช้เพื่อดึงมาร์จินจาก API ลูกค้าองค์กรให้สูงขึ้นมากกว่า
ที่จีนค่าไฟก็ถูกกว่าด้วย
แปลกดีที่ เอกสารสำหรับนักพัฒนา ออกมาก่อนข่าวประชาสัมพันธ์หวือหวา แล้วกลับให้ความรู้สึกอบอุ่นอยู่เหมือนกัน
พอเห็นว่าแก้ไขแล้ว ดูเหมือนคำว่า "open source" ในคอมเมนต์บนสุดจะถูกเอาออกไปแล้ว
ขึ้น OpenRouter แล้วเรียบร้อย
Pro ราคาอินพุต $1.74/m เอาต์พุต $3.48/m ส่วน Flash ราคาอินพุต $0.14/m เอาต์พุต $0.28/m
ฝั่งนี้ขึ้น Api Error
แต่โมเดลอื่นใช้งานได้ปกติทั้งหมด
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
รู้สึกดีที่ได้เห็น โอเพนซอร์ส ของจริงออกมาจากจีน
แม้จะรู้ว่าอาจมีเจตนาแอบแฝงอยู่ แต่ก็ยังรู้สึกถูกใจอยู่ดี
เจตนาแอบแฝงของจีน ยังเป็นแค่ข้อสันนิษฐาน แต่ฝั่งอเมริกานั้นแสดงออกอย่างเปิดเผยอยู่แล้ว
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
เอา 1.6T Pro base model ขึ้น Hugging Face แล้ว
นี่เป็นครั้งแรกที่เห็นการเขียนโมเดลระดับ T แบบนี้
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
โมเดลเปิดออกมาแล้วและค่อนข้างน่าประทับใจ
ให้ ประสิทธิภาพระดับแนวหน้า แต่ต้นทุนต่ำกว่ามาก และรู้สึกว่าดีกว่า Opus 4.6
คนที่ใช้ Opus ก็เชื่ออยู่แล้วว่ามันดีที่สุด ส่วนคนที่ไม่ใช้ก็ไม่ต้องการทั้งต้นทุน การล็อกอิน และข้อจำกัดเหล่านั้น
สำหรับคนที่ไม่ใช้อย่างผม ก็ยังใช้โมเดลที่ถูกและเร็วที่สุดที่ทำงานเสร็จได้ ซึ่งตอนนี้คือ MiniMax M2.5
บางครั้งลองใช้โมเดลใหม่ที่แพงกว่าก็ได้ผลคล้ายกัน เลยอดคิดไม่ได้ว่าอาจมี การโหมเกินจริงของทั้งวงการ AI ที่ทำให้เหมือนมีแต่เบนช์มาร์กดีขึ้น
สัปดาห์นี้ผมเข้าร่วมงานแฮ็กกาธอน Anthropic Opus 4.7 มาตลอดและได้ใช้ 4.7 แบบเข้มข้น แม้มันจะกินโทเค็นมากกว่า 4.6 เยอะ แต่ก็น่าประทับใจทีเดียว
อยากรู้ว่ามีการลองเขียนโค้ดจริงด้วย agent harness หรือยัง
ถ้าความสามารถด้านโค้ดดีกว่า Claude Code + Opus 4.6 ผมพร้อมย้ายทันที
ทุกวันมีโพสต์เปิดตัวที่บอกว่า ดีกว่า Opus 4.6 แต่แม้แต่ deepseek เองก็ไม่ได้อ้างว่าดีกว่า opus เมื่อคิดรวม thinking
Dsv3 ไม่ใช่โมเดลสายปั่นตัวเลขเบนช์มาร์ก และก็ค่อนข้างเสถียรกับงานนอกเบนช์มาร์กด้วย ถึงจะยังไม่ถึง SoTA แต่ก็ใช้ได้ดี
โมเดลนี้ก็ดูคล้ายกัน
อยู่ในระดับ ต่ำกว่าตัวท็อปนิดเดียว แต่ช่องว่างไม่มากและราคาถูกกว่ามาก
โมเดลใหญ่ตอนนี้ ds ให้บริการเองที่ $1.74 in / $3.48 out / $0.14 cache ซึ่งถือว่าถูกมากเมื่อเทียบกับสิ่งที่ได้
โมเดลเล็กอยู่ที่ $0.14 in / $0.28 out / $0.028 cache ซึ่งแทบจะ ถูกจนไม่ต้องคิดมาก และอาจเป็นตัวเลือกที่พอจะรันที่บ้านได้จริง
ถ้าประสิทธิภาพมาดีพอ ก็น่าจะแข่งกับสาย haiku หรือ gemini-flash ได้สบาย
การปรับดีขึ้นเฉลี่ยอยู่ที่ราว 2% ซึ่งพูดตรงๆ ก็ยังไม่แน่ใจว่าเยอะมากหรือเล็กน้อย
Claude 4.6 ทำได้ดีกว่าเกือบ 10pp ในงานถามตอบจากบริบทยาว โดยเฉพาะ corpuses ของ CorpusQA และบทสนทนาหลายรอบของ MRCR
ในทางกลับกัน DSv4 สูงกว่าถึง 14pp ใน IMOAnswerBench และ 12pp ใน SimpleQA-Verified
ดาวน์โหลดน้ำหนักโมเดลได้ที่นี่
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
ดีมากที่มี base model ใหม่ออกมาด้วย
ผมสนใจเรื่องนี้ลึกมากและก็มีส่วนได้ส่วนเสียอยู่จริง แต่พูดตามตรง ตอนนี้เริ่ม หมดไฟ กับการพยายามตามทุกอย่างให้ทันแล้ว
รู้สึกเหมือนเลยจุดที่ AI ต้องมาสรุปความก้าวหน้าของ AI ให้ AI ตามทัน ไปนานแล้ว
มันคล้ายข่าวทั่วไป ถ้ามีเรื่องที่ต้องรู้จริงๆ เดี๋ยวก็ต้องมีคนมาบอกเอง
มองมันเหมือนตามดูกีฬาได้เลย และถ้ายอมรับว่า ตำแหน่งจ่าฝูงเปลี่ยนได้ มันก็ไม่เหนื่อยขนาดนั้น
โมเดลใหม่ออกมาก็มักเป็นแค่เบนช์มาร์กดีขึ้นไม่กี่ตัว ส่วนประสบการณ์เชิงอัตวิสัยเวลาใช้งานจริงแทบไม่ต่าง
หลังจากนั้นก็ไม่ค่อยมีอะไรที่น่าตื่นตะลึงจริงๆ และตอนนี้ก็ดูเหมือนจะนิ่งจนเหลือแต่กลุ่มฮาร์ดคอร์ที่ยังสนใจ
สิ่งที่กวนใจกว่าการที่ High Flyer ลอก Anthropic แบบโจ่งแจ้ง เพื่อทำสิ่งนี้ คือ GAB กลับให้เวลาพวกเขามากพอที่จะซ่อน easter egg ระดับ xz ไว้ข้างในเป็นสิบๆ จุด
เพิ่งลองผ่าน OpenRouter บน Pi Coding agent เมื่อกี้ แล้วพบว่ามันใช้เครื่องมือ read กับ write ได้ไม่ค่อยถูกบ่อยมาก
ค่อนข้างน่าผิดหวัง และสงสัยว่ามีทางแก้ที่ดีกว่าการใส่พรอมป์ต์ประมาณ "อย่าเรียกตรง ให้ใช้เครื่องมือที่ให้มาเสมอ" หรือไม่
มีโอกาสสูงว่า การทดสอบล่วงหน้ากับ Pi ยังทำได้ไม่มากพอ