DeepSeek V4 – เกือบแตะระดับฟรอนเทียร์แล้ว และราคาถูกกว่ามาก
(simonwillison.net)- DeepSeek เปิดตัวโมเดลพรีวิว 2 รุ่นแรกในซีรีส์ V4 ได้แก่ DeepSeek-V4-Pro และ DeepSeek-V4-Flash โดยทั้งสองรุ่นเป็นโมเดลแบบ Mixture of Experts ที่รองรับคอนเท็กซ์ 1 ล้านโทเค็น และเผยแพร่ภายใต้ไลเซนส์ MIT
- DeepSeek-V4-Pro เป็นโมเดลที่มีพารามิเตอร์รวม 1.6T และพารามิเตอร์ที่ทำงานจริง 49B นับเป็นโมเดล open weight ที่มีขนาดใหญ่ที่สุดรุ่นใหม่ ใหญ่กว่า Kimi K2.6, GLM-5.1 และ DeepSeek V3.2
- จุดแตกต่างสำคัญของ DeepSeek V4 คือ ราคา โดย Flash คิดค่าบริการอินพุต $0.14 และเอาต์พุต $0.28 ต่อ 1 ล้านโทเค็น ส่วน Pro คิดอินพุต $1.74 และเอาต์พุต $3.48 ซึ่งต่ำกว่าทั้งโมเดลขนาดเล็กและขนาดใหญ่ที่ใช้เปรียบเทียบ
- ราคาที่ต่ำนี้เชื่อมโยงกับ การเพิ่มประสิทธิภาพสำหรับคอนเท็กซ์ยาว โดยที่คอนเท็กซ์ 1 ล้านโทเค็น Pro ใช้ FLOPs ต่อโทเค็นเพียง 27% และ KV cache เพียง 10% เมื่อเทียบกับ DeepSeek-V3.2 ส่วน Flash ลดลงเหลือ FLOPs 10% และ KV cache 7%
- จากเบนช์มาร์กภายในของบริษัท DeepSeek-V4-Pro สามารถแข่งขันกับโมเดลระดับฟรอนเทียร์ได้ แต่ยังด้อยกว่า GPT-5.4 และ Gemini-3.1-Pro เล็กน้อย และมีเส้นทางการพัฒนาที่ตามหลังโมเดลฟรอนเทียร์ล้ำสมัยราว 3~6 เดือน
การเปิดตัวโมเดลและสเปกพื้นฐาน
- หลังจาก V3.2 และ V3.2 Speciale ในเดือนธันวาคม 2025 DeepSeek ได้เปิดตัว DeepSeek-V4-Pro และ DeepSeek-V4-Flash เป็น โมเดลพรีวิว 2 รุ่นแรกของซีรีส์ V4
- ทั้งสองรุ่นเป็นโมเดลแบบ Mixture of Experts ที่รองรับ คอนเท็กซ์ 1 ล้านโทเค็น และใช้ไลเซนส์ MIT มาตรฐาน
- DeepSeek-V4-Pro เป็นโมเดลที่มี พารามิเตอร์รวม 1.6T และพารามิเตอร์ที่ทำงานจริง 49B ส่วน DeepSeek-V4-Flash มีพารามิเตอร์รวม 284B และพารามิเตอร์ที่ทำงานจริง 13B
- DeepSeek-V4-Pro มีขนาดใหญ่กว่า Kimi K2.6 ที่ 1.1T, GLM-5.1 ที่ 754B และ DeepSeek V3.2 ที่ 685B จึงดูจะเป็นโมเดล open weight ที่ใหญ่ที่สุดรุ่นใหม่
- ตามข้อมูลบน Hugging Face ขนาดโมเดลของ Pro อยู่ที่ 865GB และ Flash อยู่ที่ 160GB โดย Flash เวอร์ชัน quantized แบบเบาน่าจะสามารถรันได้บน MacBook Pro M5 ที่มีหน่วยความจำ 128GB
- โมเดล Pro ก็อาจรันบนเครื่องเดียวกันได้เช่นกัน หากสามารถสตรีมเฉพาะ expert ที่ต้องใช้งานจริงจากดิสก์ได้
-
ทดสอบแบบง่ายผ่าน OpenRouter
- ใช้ OpenRouter และ llm-openrouter เพื่อเรียกใช้โมเดลด้วยคำสั่งต่อไปนี้
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - มีการเผยแพร่ผลลัพธ์ที่สร้างได้เป็น SVG นกกระทุงของ DeepSeek-V4-Flash และ SVG นกกระทุงของ DeepSeek-V4-Pro
- และยังนำผลลัพธ์จากพรอมป์ต์เดียวกันของ DeepSeek V3.2 เดือนธันวาคม 2025, V3.1 เดือนสิงหาคม 2025 และ V3-0324 เดือนมีนาคม 2025 มาแสดงเปรียบเทียบด้วย
ราคา ประสิทธิภาพ และตำแหน่งด้านสมรรถนะ
- สิ่งที่โดดเด่นที่สุดของ DeepSeek V4 คือ ราคา โดยอ้างอิงจาก หน้าราคาของ DeepSeek Flash คิดค่าบริการอินพุต $0.14 ต่อ 1 ล้านโทเค็น และเอาต์พุต $0.28 ต่อ 1 ล้านโทเค็น
- ส่วน Pro คิดค่าบริการ $1.74 ต่อ 1 ล้านโทเค็นสำหรับอินพุต และ $3.48 ต่อ 1 ล้านโทเค็นสำหรับเอาต์พุต
- ในตารางเปรียบเทียบ DeepSeek V4 Flash มีราคาต่ำกว่า GPT-5.4 Nano ที่อินพุต $0.20·เอาต์พุต $1.25 และ Gemini 3.1 Flash-Lite ที่อินพุต $0.25·เอาต์พุต $1.50 ทำให้เป็นโมเดลขนาดเล็กที่ถูกที่สุด
- DeepSeek V4 Pro มีราคาต่ำกว่า Gemini 3.1 Pro ที่อินพุต $2·เอาต์พุต $12, GPT-5.4 ที่อินพุต $2.50·เอาต์พุต $15, Claude Sonnet 4.6 ที่อินพุต $3·เอาต์พุต $15, Claude Opus 4.7 ที่อินพุต $5·เอาต์พุต $25 และ GPT-5.5 ที่อินพุต $5·เอาต์พุต $30 ทำให้เป็นโมเดลฟรอนเทียร์ขนาดใหญ่ที่ถูกที่สุด
-
การเพิ่มประสิทธิภาพเป็นฐานรองรับราคาที่ต่ำ
- งานวิจัยของ DeepSeek ระบุว่าการเปิดตัวครั้งนี้ให้ความสำคัญอย่างมากกับประสิทธิภาพของพรอมป์ต์คอนเท็กซ์ยาว
- ที่คอนเท็กซ์ 1 ล้านโทเค็น DeepSeek-V4-Pro ใช้ FLOPs ต่อโทเค็นเพียง 27% และมีขนาด KV cache เพียง 10% เมื่อเทียบกับ DeepSeek-V3.2
- ภายใต้เงื่อนไขเดียวกัน DeepSeek-V4-Flash ลด FLOPs ต่อโทเค็นลงเหลือ 10% และขนาด KV cache เหลือ 7% เมื่อเทียบกับ DeepSeek-V3.2
-
จากเบนช์มาร์กถือว่าเข้าใกล้ฟรอนเทียร์ แต่ยังไม่ถึงระดับสูงสุด
- เบนช์มาร์กรายงานภายในของ DeepSeek แสดงผลว่าโมเดล Pro สามารถแข่งขันกับโมเดลฟรอนเทียร์อื่น ๆ ได้
- ตามเอกสารดังกล่าว DeepSeek-V4-Pro-Max ที่ขยายโทเค็นสำหรับการให้เหตุผล แสดงสมรรถนะสูงกว่า GPT-5.2 และ Gemini-3.0-Pro บนเบนช์มาร์กการให้เหตุผลมาตรฐาน
- อย่างไรก็ตาม ยังตามหลัง GPT-5.4 และ Gemini-3.1-Pro เล็กน้อย และมีเส้นทางการพัฒนาที่ตามหลังโมเดลฟรอนเทียร์ล้ำสมัยประมาณ 3~6 เดือน
- คาดหวังได้ว่าจะมีเวอร์ชัน quantized ของ Unsloth เผยแพร่บน huggingface.co/unsloth/models และยังต้องติดตามต่อว่าโมเดล Flash จะรันบนเครื่องโลคัลได้ดีเพียงใด
2 ความคิดเห็น
อย่างแรกเลยคือราคาถูกมากก็ดีอยู่หรอก แต่ปัญหาคือมันช้าเกินไป....งานที่
codexใช้เวลา 5 นาที เจ้านี่คิดอยู่ 20 นาที เลยตอนนี้ใช้สำหรับรีวิวโค้ดมากกว่าจะเอาไปใช้ทำจริง ซึ่งเรื่องรีวิวโค้ดทำได้ค่อนข้างดี เลยค่อนข้างพอใจความคิดเห็นบน Hacker News
สำหรับผม จุดต่างที่ใหญ่ที่สุดคือ DeepSeek แค่ทำตามที่สั่ง ผมลองใช้ทั้ง GPT และ Claude เพื่อทำงาน reverse engineering ช่วงหลัง ๆ แต่ทั้งคู่ปฏิเสธหมด แถมบัญชี OpenAI ของผมยังโดนเตือนอีก
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
ผมหงุดหงิดมาก มันเหมือนมีม Patrick จาก SpongeBob แบบเป๊ะ ๆ ไม่เข้าใจเลยว่าทำไมต้องพยายามทำให้โมเดลกลายเป็นเจ้าหน้าที่บังคับใช้กฎหมาย เรื่องผิดกฎหมายก็ยังผิดกฎหมายอยู่ดี และก็มีผู้เชี่ยวชาญที่รับมืออาชญากรรมอยู่แล้ว Google ไม่จำเป็นต้องเป็นผู้ตัดสินความจริงและความยุติธรรม แค่หน่วยงานบังคับใช้กฎหมายเองก็ตรวจสอบเอาผิดได้ยากพออยู่แล้ว อย่างน้อยพวกนั้นก็ทำงานเพื่อเรา
เพื่อนนักพัฒนา เรากำลังสร้างโลกแบบไหนกันอยู่วะ นี่มันบ้าชัด ๆ ลองนึกภาพค้อนบอกว่า “ห้ามเอาไปขันน็อต ใช้ได้กับตะปูเท่านั้น ถ้าทำอีกฉันจะระเบิดตัวเอง” ผมอยากให้เลิกสร้างซอฟต์แวร์แบบนี้ได้แล้ว
ลองจินตนาการว่า OpenAI ซื้อบริษัทไปอีก 20 แห่ง แล้ววันหนึ่งคุณใช้ Figma หรือ Next ไม่ได้อีกเพียงเพราะเมื่อก่อนเคยข้ามเส้นที่คลุมเครือไปครั้งหนึ่ง มันไม่ใช่แค่ OpenAI แต่ทั้ง ecosystem ตอนนี้อ่านทางยากมาก
ผมเคยถาม Gemini เกี่ยวกับคำคมจาก Catch-22 ซึ่งไม่ได้มีเนื้อหารุนแรงหรือทางเพศ แต่มันหยุดกลางสตรีมตลอดแล้วบอกว่าพูดต่อไม่ได้ ทั้งที่ในหนังสือมีเนื้อหาแบบนั้นอยู่บ้าง เลยทำให้คิดว่าแค่เรื่องนั้นก็อาจทำให้บัญชี workspace ทั้งก้อนได้คะแนนติดลบ
ในอุดมคติ ผมรู้ว่าอนาคตควรเป็นแบบรันในเครื่อง แต่ถ้าดูต้นทุนจริงกับการใช้พลังงานในอีกไม่กี่ปีข้างหน้า ก็ไม่แน่ใจว่ามันจะเป็นจริงได้แค่ไหนสำหรับคนส่วนใหญ่ ถ้าอยู่ใน ecosystem นั้น ข้อยกเว้นคงมีประมาณชิปตระกูล M*
DeepSeek v4 Pro ให้ความรู้สึกด้านบุคลิกคล้าย Claude Opus 4.6 และเรื่องต้นทุนก็น่าประทับใจ
ผมให้มันโฟกัสแค่ endpoint เดียวใน TypeScript codebase ขนาดค่อนข้างใหญ่ แล้วไล่ดู API, DTO, service, database model แบบลึกเป็นชั้น ๆ รวมถึงทำความเข้าใจ type ที่เกี่ยวข้องทั้งหมดโดยไม่ให้เกิด type ชั่วคราวขึ้นมา
มันสรุปให้สั้นมากแต่จับประเด็น ว่ามี type ไหนถูกนำเข้ามา และตัวไหนถูกคืนค่า จากนั้นผมก็ขอให้มันช่วยทำทั้งหมดให้ง่ายลง
สองพรอมป์ต์นี้น่าจะกวาดดูหลายไฟล์พอสมควร แต่ค่าใช้จ่ายรวมของเวอร์ชัน Pro คือแค่ $0.09 ถ้าเป็น Claude Opus จากประสบการณ์ก่อนขึ้นราคา แค่สองพรอมป์ต์นี้ก็น่าจะเผาเงินไป $9~$13 ได้สบาย ๆ และประโยชน์ที่เพิ่มมาก็คงไม่ได้มากนัก
อ้างอิงไว้ก่อนว่าผมไม่ได้ใช้ OpenRouter แต่เรียก DeepSeek API ตรง เพราะ OpenRouter เองโดน rate limit จากฝั่ง DeepSeek อยู่
เลยทำ MCP ที่ใช้ Prolog โดยให้ tree-sitter parse โค้ดเป็นกราฟ แล้วให้โมเดลถามได้ว่า “ฟังก์ชันที่เชื่อมกับฟังก์ชันนี้ทั้งหมดคืออะไรบ้าง?” ถ้าจะดูว่า endpoint หนึ่งทำอะไร ก็ไล่กราฟฝั่ง call subtree ได้แบบง่ายและคาดเดาได้
https://github.com/yogthos/chiasmus
เกี่ยวข้องกันตรงที่มีไลฟ์เดโมรัน DeepSeek v4 Flash บน MacBook 128GB วิดีโอเป็นภาษาอิตาลีแต่มีซับอังกฤษ
https://www.youtube.com/watch?v=todMmp6AGCE
ผมลองต่อเข้ากับ vscode copilot แล้วใช้ทั้ง flash กับ pro สำหรับ proof of concept เล็ก ๆ แค่ flash ก็พอแล้ว เร็วพอควรและถูกมากจริง ๆ
มันค้างไปบ้างสองสามครั้ง อาจเป็นปัญหา latency แต่ผลลัพธ์ออกมาดี ส่วน pro ผมใช้กับงานหนักและการวางแผน ซึ่งมันก็ทำได้ยอดเยี่ยม
ผมจ่ายประมาณ 10 เซนต์สำหรับ proof of concept เล็ก ๆ ชิ้นหนึ่ง และมันทำงานตรงตามที่พรอมป์ต์ไว้เป๊ะ สำหรับผม นี่คือทางเลือกจริงหลังจะยกเลิก GitHub Copilot สิ้นเดือนนี้
แม้ต้นทุนจะต่ำกว่าโมเดลแนว frontier แต่มี สองปัจจัย ที่ทำให้ DS4 Pro กับ K2.6 ไม่ได้ถูกอย่างที่เห็น
DS4 Pro มีส่วนลดบน API ทางการ ซึ่งมักถูกมองข้ามหรือปนกันในบทสนทนา Simon ใช้ราคาเต็มในการเปรียบเทียบ เลยไม่ใช่ปัญหาในที่นี้
อีกประเด็นคือ DS4 Pro และ K2.6 มักใช้ reasoning token มากกว่าโมเดล frontier อย่างชัดเจน ในการทดสอบของผม มีบางกรณีแย่ ๆ ที่มันใช้ token เยอะจนค่าคำขออาจพอ ๆ กับโมเดล frontier ได้ เพื่อความยุติธรรม ต้องบอกว่าผมใช้ DS กับ Kimi ผ่าน provider ภายนอก เลยอาจเป็นปัญหาจากการตั้งค่าฝั่งนั้น
แต่ถ้าดูหน้าโมเดลของ Artificial Analysis จะเห็นว่าใน benchmark ด้านความฉลาด DSv4 Pro ใช้ 190M token, K2.6 ใช้ 170M token ขณะที่ GPT 5.5 high ใช้แค่ 45M
“Intelligence vs. Cost to Run Artificial Analysis Intelligence Index” ผมแนะนำให้ดู “Intelligence vs Cost” ใน UI โมเดล open source ยังถูกกว่าอยู่ แต่ไม่ถึงกับถูกอย่างที่คุณคาดจากราคา token อย่างเดียว
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
มันเพิ่ม HCA และ mCH ซึ่งเป็นวิธีค่อนข้างใหม่ในการปรับปรุงประสิทธิภาพ long-context และ attention เมื่อเทียบกับ v3.2 มันต้องใช้แค่ 27% ของ FLOP สำหรับ reasoning และแค่ 10% ของ KV cache หมายความว่าด้วยทรัพยากรคำนวณเท่าเดิม จะเสิร์ฟงานได้มากกว่า 3 เท่า และใช้ KV cache เดิมเพียง 30%
แถมนี่เป็นรีลีส PREVIEW ด้วย DeepSeek เป็นแล็บวิจัยที่เปิดจริง ๆ และในแต่ละรีลีสก็ไม่ใช่แค่ทำของออกมาเยอะ แต่ยังเปิดเผยและแชร์ด้วย ผมกำลังรันมันแบบโลคัลอยู่
ถ้าจะพูดว่ามัน “ถูก” แค่ไหน v3.2 ตอนใช้ context 256k เคยกิน GPU memory ไม่พอจนล้นไปที่ system memory แต่ผมก็ยังโอเคกับประมาณ 7k token ต่อวินาที รอบนี้ผมใส่ context เต็ม 1 ล้าน token ลงใน GPU memory ได้ 100% วิ่งเร็วขึ้นมากกว่า 2 เท่า และผลลัพธ์ก็ดีกว่า
อันนี้ถูกจริง ๆ Moonshot ก็พูดชัดว่าตัวเองขาด GPU ซึ่งนั่นแหละคือเหตุผล ถ้ามี capacity GPU แบบในสหรัฐฯ และได้ซัพพอร์ตโมเดลแบบที่นี่ ก็คงแจกฟรีไปแล้ว
ก่อนหน้านี้ผมเคยลองทำแบบเดียวกันกับ Opus 4.6 แล้วโดนเผางบ $10 ที่ผมตั้งไว้ก่อนจะได้คำตอบแรกกลับมาด้วยซ้ำ
ต่อให้คิดราคาส่วนลดหนักแบบนี้ คำตอบที่แก้ปัญหาได้ครบก็น่าจะยังอยู่ในหลักดอลลาร์ตัวเดียว ส่วน Opus คือเสียเงินหลักสองหลักโดยไม่ได้อะไรเลยจริง ๆ
V4 ขยับขึ้นจาก V3.2 แบบชัดเจนใน multilingual benchmark ของเรา
แต่มีข้อควรระวังสองอย่าง ตอนใช้ผ่าน OpenRouter เพื่อทำ reasoning เราเจอปัญหาความเร็ว (TPS) ช้ามากและบางครั้งไม่เสถียร พอเช็กเมื่อกี้ ทุก provider ที่ใช้ได้ก็ยังอยู่แค่ 10~30 TPS ซึ่งไม่สูงสำหรับโมเดลที่ใช้เวลาคิดเยอะอย่าง DeepSeek
ส่วน DeepSeek API ทางการนั้นไม่รับประกัน data privacy แม้จะเป็นผู้ใช้แบบเสียเงินก็ตาม
ถ้าใช้ผ่าน Azure AI Foundry อาจไม่มีปัญหาทั้งสองข้อ อย่างหลังเท่าที่ผมรู้เป็นแบบนั้น แต่ผมยังไม่ได้ทดสอบ
อย่างไรก็ดี เป็นเรื่องน่ายินดีที่มี โมเดล open weight ออกมาเพิ่มและพอจะแข่งกับโมเดลระดับท็อปล่าสุดได้
DeepSeek API ทางการ ถ้าใช้ต่อเนื่องเป็นเซสชันยาว ๆ บน codebase เดิม จะมี cache hit rate เกิน 99% ทำให้ถูกกว่าโมเดล frontier มาก มีตัวอย่างเซสชัน 200M token ใน claude code
น่าแปลกใจที่คนจำนวนมาก โดยเฉพาะเวลาใช้ developer API ของผู้สร้างโมเดลโดยตรง แทบไม่สนใจเลยว่าโมเดลพวกนี้ เอาข้อมูลของพวกเขาไปฝึกแบบเปิดเผย
เวลาเกิดเรื่องแบบ “GitHub ตอนนี้ opt-in โค้ดของทุกคนเข้าฝึกโมเดลอัตโนมัติ” จะมีคอมเมนต์โกรธเป็นร้อยอย่างสมเหตุสมผล แต่พอเป็นเรื่องใช้โมเดลจีนผ่าน OpenRouter ประเด็นนี้กลับแทบไม่ถูกพูดถึงแล้ว อธิบายได้ด้วยคำว่า “เป็นคนละกลุ่มกัน” ก็จริง แต่ความต่างมันชัดเกินไปจนผมไม่คิดว่าแค่นั้นจะอธิบายหมด
นี่เป็นหนึ่งในข้อดีใหญ่ของ open weight คือทั้งจีนและสหรัฐฯ ต่างก็ไม่ได้เอาข้อมูลของผมไป
พอมหรสพเงินอุดหนุนจบลงแล้ว และทุกอย่างไปสู่การคิดเงินตามการใช้งานจริง ก็ยังพอมีความหวังว่ามันจะไม่กีดกันคนธรรมดาที่ไม่มี งบ $200 ต่อเดือน แบบสมบูรณ์
อย่างแรกคือเรายังค้นพบวิธียัดความฉลาดให้ลงไปในโมเดลที่เล็กลงได้เรื่อย ๆ หมายความว่าสเปกฮาร์ดแวร์เดิมจะให้ความสามารถของโมเดลมากขึ้นเรื่อย ๆ ตามเวลา
อย่างที่สองคือฮาร์ดแวร์ก็ยังพัฒนาต่อ และอุปทานก็ค่อย ๆ ไล่ทันอุปสงค์ ทำให้สเปกฮาร์ดแวร์ที่ซื้อได้ด้วยเงิน 1 ดอลลาร์ดีขึ้นเรื่อย ๆ ตามเวลา
หวังว่าสักวันเราจะมองโมเดลแบบ “เข้าถึง AI ผ่าน provider API” แบบเดียวกับที่ตอนนี้เรามองยุค “ทุกคนต่อเข้ากับเมนเฟรมของบริษัท”
ช่วงไม่กี่วันที่ผ่านมาผมลองใช้ v4 pro แล้ว ในแง่คุณภาพโดยรวมมันดูใกล้กับ OpenAI 5.4 หรือ Opus 4.6 มาก ผมยังไม่ได้ลอง 4.7
เอาให้ชัดคือผมไม่ได้ทำงานระดับ cutting edge อะไร ส่วนใหญ่ใช้กับงาน frontend และเพราะผมไม่เก่งด้านนั้น เลยต้องการแค่ prototype ที่ดูใช้ได้
สำหรับเป้าหมายของผม มันเป็นโมเดลที่โอเคมากและราคาสมเหตุสมผล แต่ผมก็ยังรอโมเดล open ที่เล็กพอจะรันในเครื่องได้จริง ๆ เพราะผมไม่ชอบที่ต้องพึ่งเครื่องคนอื่นและปล่อยให้ข้อมูลของผมไหลออกไปหมดในกระบวนการนั้น
เพื่อความโปร่งใส ผมเป็นผู้ร่วมก่อตั้ง วิธีนี้คือรันโมเดลใน secure enclave และตรวจสอบว่าโค้ดโอเพนซอร์สที่รันอยู่ใน enclave ตรงกับ runtime attestation NVIDIA confidential computing ถูกใช้ในกระบวนการนี้
เอกสารอธิบายขั้นตอนการตรวจสอบไว้ที่นี่: https://docs.tinfoil.sh/verification/verification-in-tinfoil