10 คะแนน โดย GN⁺ 2026-04-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลภาษาขนาดใหญ่แบบ Mixture-of-Experts(MoE) ที่รองรับ คอนเท็กซ์ 1M โทเค็น เปิดตัว 2 เวอร์ชันคือ Pro (พารามิเตอร์ 1.6T) และ Flash (พารามิเตอร์ 284B)
  • สถาปัตยกรรม attention แบบไฮบริดที่ผสาน Compressed Sparse Attention(CSA) และ Heavily Compressed Attention(HCA) ช่วยให้ประสิทธิภาพกับคอนเท็กซ์ยาวดีขึ้นมาก โดยที่ระดับ 1 ล้านโทเค็น ใช้ FLOPs สำหรับการอนุมานเพียง 27% และใช้ KV cache เพียง 10% เมื่อเทียบกับ DeepSeek-V3.2
  • หลัง pretrain ด้วยโทเค็นคุณภาพสูงหลากหลายมากกว่า 32T แล้ว ใช้ post-training pipeline แบบ 2 ขั้นตอน โดยฝึกผู้เชี่ยวชาญรายโดเมนแยกกัน ก่อนรวมเข้าเป็นโมเดลเดียวด้วย on-policy distillation
  • DeepSeek-V4-Pro-Max ทำผลงาน ดีที่สุดในโอเพนซอร์ส บนโค้ดดิงเบนช์มาร์ก เช่น LiveCodeBench 93.5, SWE Verified 80.6 และ Codeforces 3206
  • รองรับโหมดการอนุมาน 3 แบบคือ Non-Think, Think High และ Think Max ให้เลือกใช้ได้ตามงานตั้งแต่งานทั่วไปไปจนถึงการให้เหตุผลระดับยากที่สุด

ภาพรวมโมเดลและสถาปัตยกรรม

  • ซีรีส์ DeepSeek-V4 ประกอบด้วย 2 โมเดลคือ DeepSeek-V4-Pro (พารามิเตอร์รวม 1.6T, activate 49B) และ DeepSeek-V4-Flash (พารามิเตอร์รวม 284B, activate 13B)
  • ทั้งสองโมเดลรองรับ ความยาวคอนเท็กซ์ 1 ล้านโทเค็น
  • อัปเกรดสถาปัตยกรรมและการเพิ่มประสิทธิภาพหลัก 3 อย่าง:
    • Hybrid Attention Architecture: ผสาน CSA และ HCA เพื่อเพิ่มประสิทธิภาพของคอนเท็กซ์ยาวอย่างมาก โดยที่ 1 ล้านโทเค็น ลด FLOPs สำหรับการอนุมานต่อโทเค็นเหลือ 27% และ KV cache เหลือ 10% เมื่อเทียบกับ DeepSeek-V3.2
    • Manifold-Constrained Hyper-Connections(mHC): เสริม residual connection เดิมให้แข็งแรงขึ้น เพื่อให้ได้ทั้งเสถียรภาพของการส่งสัญญาณระหว่างเลเยอร์และความสามารถในการแทนค่าของโมเดล
    • Muon Optimizer: ช่วยให้คอนเวิร์จเร็วขึ้นและมีเสถียรภาพในการฝึกสูงขึ้น

กระบวนการฝึกและ post-training pipeline

  • pretrain ด้วยโทเค็นที่หลากหลายและมีคุณภาพสูงมากกว่า 32T
  • ใน post-training ใช้ กระบวนทัศน์ 2 ขั้นตอน:
    • ขั้นที่ 1: ฝึกผู้เชี่ยวชาญรายโดเมนแบบแยกกันผ่าน SFT และ RL (ใช้ GRPO)
    • ขั้นที่ 2: รวมความเชี่ยวชาญจากหลายโดเมนเข้าเป็นโมเดลเดียวด้วย on-policy distillation
โฆษณา

โหมดการอนุมาน

  • ทั้ง DeepSeek-V4-Pro และ DeepSeek-V4-Flash รองรับ โหมดการอนุมาน 3 แบบ:
    • Non-Think: ตอบสนองเร็วและตรงไปตรงมา เหมาะกับงานประจำวันหรือการตัดสินใจที่มีความเสี่ยงต่ำ
    • Think High: การวิเคราะห์เชิงตรรกะอย่างรอบคอบ เหมาะกับการแก้ปัญหาที่ซับซ้อนหรือการวางแผน
    • Think Max: ขยายความสามารถในการให้เหตุผลไปจนสุดขีด ใช้สำหรับสำรวจขอบเขตการอนุมานของโมเดล

ประสิทธิภาพเบนช์มาร์ก — โมเดล Base

  • DeepSeek-V4-Pro-Base ทำได้ดีกว่า V3.2-Base และ V4-Flash-Base ในเบนช์มาร์กส่วนใหญ่:
    • MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro: 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified: 55.2 (V3.2-Base 28.3)
    • FACTS Parametric: 62.6 (V3.2-Base 27.1)
    • HumanEval: 76.8 (V3.2-Base 62.8)
    • LongBench-V2: 51.5 (V3.2-Base 40.2)
  • V4-Flash-Base แสดงให้เห็นถึงประสิทธิภาพที่คุ้มค่า โดยใช้พารามิเตอร์ activate เพียง 13B แต่เข้าใกล้หรือบางเบนช์มาร์กทำได้ดีกว่า V3.2-Base (activate 37B)

ประสิทธิภาพเบนช์มาร์ก — โมเดล Instruct (V4-Pro-Max เทียบกับ frontier model)

  • โดดเด่นใน โค้ดดิงเบนช์มาร์ก:
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
    โฆษณา
  • ด้าน ความรู้และการให้เหตุผล:
    • SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4 สูงกว่าหลายโมเดล แต่ยังต่ำกว่า Gemini-3.1-Pro High (75.6, 85.9)
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • งานเอเจนต์:
    • SWE Verified 80.6, MCPAtlas Public 73.6 อยู่ในกลุ่มบน
    • ใน Terminal Bench 2.0(67.9) และ HLE w/ tools(48.2) ยังตามหลังโมเดล closed-source บางรุ่น
  • V4-Flash-Max เมื่อให้ thinking budget มากขึ้น จะมีความสามารถด้านการให้เหตุผลเข้าใกล้เวอร์ชัน Pro แต่ในงานความรู้ล้วนและเวิร์กโฟลว์เอเจนต์ที่ซับซ้อนยังตามหลังเล็กน้อยจากความต่างของขนาดพารามิเตอร์

การเปรียบเทียบประสิทธิภาพตามโหมด

  • ในทุกเบนช์มาร์ก V4-Pro Max ทำผลงานสูงสุด
  • มีแนวโน้มที่ประสิทธิภาพจะเพิ่มขึ้นอย่างสม่ำเสมอจาก Non-Think → Think High → Think Max:
    • ตัวอย่าง: ใน GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • ตัวอย่าง: ใน LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
    โฆษณา
  • V4-Flash Max ให้ผลลัพธ์ใกล้เคียงหรือเหนือกว่า V4-Pro High ในหลายเบนช์มาร์ก

การดาวน์โหลดโมเดลและความแม่นยำ

  • มี 4 โมเดลให้ใช้งาน: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
  • โมเดล Base ใช้ความแม่นยำแบบ FP8 Mixed ส่วนโมเดล Instruct ใช้ความแม่นยำแบบ FP4 + FP8 Mixed
    • พารามิเตอร์ผู้เชี่ยวชาญของ MoE ใช้ FP4 ส่วนที่เหลือส่วนใหญ่ใช้ FP8
  • ดาวน์โหลดได้จาก HuggingFace และ ModelScope

เทมเพลตแชตและการรันแบบโลคัล

  • ไม่มีเทมเพลตแชตรูปแบบ Jinja แต่มี สคริปต์ Python และ test case สำหรับเข้ารหัส/พาร์สข้อความในฟอร์แมตที่เข้ากันได้กับ OpenAI ให้ในโฟลเดอร์ encoding
  • พารามิเตอร์ sampling ที่แนะนำสำหรับการดีพลอยแบบโลคัล: temperature 1.0, top_p 1.0
  • ในโหมด Think Max แนะนำให้ใช้ context window อย่างน้อย 384K โทเค็น

ใบอนุญาต

  • ทั้งน้ำหนักโมเดลและรีโพซิทอรีใช้ MIT License

1 ความคิดเห็น

 
GN⁺ 2026-04-24
ความเห็นจาก Hacker News
  • โมเดลขนาดใหญ่อย่าง v4 pro มีราคาอยู่ราว 4 ดอลลาร์ต่อการสร้างผลลัพธ์ 1 ล้านโทเค็น แต่ก็ยังไม่ค่อยแน่ใจนักว่าคำพูดที่ว่า "แล็บแนวหน้ากำลังอัดเงินอุดหนุนงานอนุมานกันแบบบ้าคลั่ง" นั้นจริงแค่ไหน
    แค่ ระบบสมัครสมาชิก ก็ดูน่าจะทำกำไรได้มากพออยู่แล้ว และราคา API ก็ยิ่งไม่ต้องพูดถึง
    อินพุตอยู่ที่ $1.74/M, เอาต์พุต $3.48/M ตามราคาใน OpenRouter

    • มีคำอธิบายด้วยว่าราคาสูงเพราะตอนนี้ DeepSeek ขาดแคลนการ์ดสำหรับ inference
      ในข่าวประชาสัมพันธ์ระบุว่าเมื่อการ์ดประมวลผล Ascend 950 ออกมาในช่วงครึ่งหลังของปีนี้ ราคา Pro น่าจะลดลงมาก
    • ถ้าดูเฉพาะต้นทุนการดำเนินงานอาจมีกำไร แต่ถ้านับต้นทุนทุนที่รวม ตารางค่าเสื่อมราคา แล้ว ตอนนี้อาจยังไม่ใช่
      ถึงอย่างนั้น ช่วงนี้บรรยากาศก็เหมือนว่าการประเมินต้นทุนนั้นสูงขึ้นกว่าที่คาดไว้
    • ผมก็คิดคล้ายกัน
      บริการแบบสมัครสมาชิก น่าจะทำกำไรได้อยู่แล้ว และเรื่องเงินอุดหนุนก็ดูเหมือนเป็นตรรกะที่ใช้เพื่อดึงมาร์จินจาก API ลูกค้าองค์กรให้สูงขึ้นมากกว่า
    • ประเด็นนั้นถูกต้อง แต่ตอนนี้ยังไม่มี ผู้ให้บริการฝั่งตะวันตก ที่กดราคาได้ถึงระดับนี้
      ที่จีนค่าไฟก็ถูกกว่าด้วย
  • แปลกดีที่ เอกสารสำหรับนักพัฒนา ออกมาก่อนข่าวประชาสัมพันธ์หวือหวา แล้วกลับให้ความรู้สึกอบอุ่นอยู่เหมือนกัน

    • ใช่เลย นี่แหละ this is the way ของจริง
    • ถ้าจะเรียกสิ่งนี้ว่า โอเพนซอร์ส ก็อดสงสัยไม่ได้ว่าข้อมูลฝึกกับสคริปต์ฝึกอยู่ไหน
      พอเห็นว่าแก้ไขแล้ว ดูเหมือนคำว่า "open source" ในคอมเมนต์บนสุดจะถูกเอาออกไปแล้ว
  • ขึ้น OpenRouter แล้วเรียบร้อย
    Pro ราคาอินพุต $1.74/m เอาต์พุต $3.48/m ส่วน Flash ราคาอินพุต $0.14/m เอาต์พุต $0.28/m

  • รู้สึกดีที่ได้เห็น โอเพนซอร์ส ของจริงออกมาจากจีน
    แม้จะรู้ว่าอาจมีเจตนาแอบแฝงอยู่ แต่ก็ยังรู้สึกถูกใจอยู่ดี

    • บริษัทอเมริกันเรียกตรวจสอบตัวตนหนักเกินจำเป็นแม้แต่ตอนจะจ่ายเงินเพื่อเข้าถึงโมเดล อีกทั้งยังเก็บข้อมูล วิเคราะห์ข้อมูล และเอาไปใช้ฝึกได้ แถมยังพูดโต้งๆ ว่าอาจส่งต่อให้หน่วยงานรัฐเมื่อมีคำขอ
      เจตนาแอบแฝงของจีน ยังเป็นแค่ข้อสันนิษฐาน แต่ฝั่งอเมริกานั้นแสดงออกอย่างเปิดเผยอยู่แล้ว
    • ถ้าอยากเข้าใจว่าทำไมแล็บจีนถึงเปิดโมเดล บทความนี้ช่วยได้
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • มันเป็นแค่ open weights เท่านั้น
  • เอา 1.6T Pro base model ขึ้น Hugging Face แล้ว
    นี่เป็นครั้งแรกที่เห็นการเขียนโมเดลระดับ T แบบนี้

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    โมเดลเปิดออกมาแล้วและค่อนข้างน่าประทับใจ
    ให้ ประสิทธิภาพระดับแนวหน้า แต่ต้นทุนต่ำกว่ามาก และรู้สึกว่าดีกว่า Opus 4.6

    • ตอนนี้เริ่มรู้สึกว่าไม่จำเป็นต้องเอาโมเดลไปเทียบกับ Opus แล้วหรือเปล่า
      คนที่ใช้ Opus ก็เชื่ออยู่แล้วว่ามันดีที่สุด ส่วนคนที่ไม่ใช้ก็ไม่ต้องการทั้งต้นทุน การล็อกอิน และข้อจำกัดเหล่านั้น
      สำหรับคนที่ไม่ใช้อย่างผม ก็ยังใช้โมเดลที่ถูกและเร็วที่สุดที่ทำงานเสร็จได้ ซึ่งตอนนี้คือ MiniMax M2.5
      บางครั้งลองใช้โมเดลใหม่ที่แพงกว่าก็ได้ผลคล้ายกัน เลยอดคิดไม่ได้ว่าอาจมี การโหมเกินจริงของทั้งวงการ AI ที่ทำให้เหมือนมีแต่เบนช์มาร์กดีขึ้น
    • อยากรู้ว่าเทียบกับ Opus 4.7 แล้วเป็นอย่างไร
      สัปดาห์นี้ผมเข้าร่วมงานแฮ็กกาธอน Anthropic Opus 4.7 มาตลอดและได้ใช้ 4.7 แบบเข้มข้น แม้มันจะกินโทเค็นมากกว่า 4.6 เยอะ แต่ก็น่าประทับใจทีเดียว
    • อยากรู้ว่ามัน ดีกว่า Opus 4.6 จริง หรือแค่ปรับแต่งให้เก่งเบนช์มาร์ก
      อยากรู้ว่ามีการลองเขียนโค้ดจริงด้วย agent harness หรือยัง
      ถ้าความสามารถด้านโค้ดดีกว่า Claude Code + Opus 4.6 ผมพร้อมย้ายทันที
    • มาอีกแล้วสินะ
      ทุกวันมีโพสต์เปิดตัวที่บอกว่า ดีกว่า Opus 4.6 แต่แม้แต่ deepseek เองก็ไม่ได้อ้างว่าดีกว่า opus เมื่อคิดรวม thinking
      Dsv3 ไม่ใช่โมเดลสายปั่นตัวเลขเบนช์มาร์ก และก็ค่อนข้างเสถียรกับงานนอกเบนช์มาร์กด้วย ถึงจะยังไม่ถึง SoTA แต่ก็ใช้ได้ดี
      โมเดลนี้ก็ดูคล้ายกัน
      อยู่ในระดับ ต่ำกว่าตัวท็อปนิดเดียว แต่ช่องว่างไม่มากและราคาถูกกว่ามาก
      โมเดลใหญ่ตอนนี้ ds ให้บริการเองที่ $1.74 in / $3.48 out / $0.14 cache ซึ่งถือว่าถูกมากเมื่อเทียบกับสิ่งที่ได้
      โมเดลเล็กอยู่ที่ $0.14 in / $0.28 out / $0.028 cache ซึ่งแทบจะ ถูกจนไม่ต้องคิดมาก และอาจเป็นตัวเลือกที่พอจะรันที่บ้านได้จริง
      ถ้าประสิทธิภาพมาดีพอ ก็น่าจะแข่งกับสาย haiku หรือ gemini-flash ได้สบาย
    • ลองคำนวณคร่าวๆ จากตัวเลขเบนช์มาร์กที่เปิดเผยมา ทั้งสองตัวมีคะแนนครบใน 20 ตัวชี้วัดเดียวกันและต่างกันรวม 20.1 จุดเปอร์เซ็นต์
      การปรับดีขึ้นเฉลี่ยอยู่ที่ราว 2% ซึ่งพูดตรงๆ ก็ยังไม่แน่ใจว่าเยอะมากหรือเล็กน้อย
      Claude 4.6 ทำได้ดีกว่าเกือบ 10pp ในงานถามตอบจากบริบทยาว โดยเฉพาะ corpuses ของ CorpusQA และบทสนทนาหลายรอบของ MRCR
      ในทางกลับกัน DSv4 สูงกว่าถึง 14pp ใน IMOAnswerBench และ 12pp ใน SimpleQA-Verified
  • ดาวน์โหลดน้ำหนักโมเดลได้ที่นี่
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • ผมสนใจเรื่องนี้ลึกมากและก็มีส่วนได้ส่วนเสียอยู่จริง แต่พูดตามตรง ตอนนี้เริ่ม หมดไฟ กับการพยายามตามทุกอย่างให้ทันแล้ว
    รู้สึกเหมือนเลยจุดที่ AI ต้องมาสรุปความก้าวหน้าของ AI ให้ AI ตามทัน ไปนานแล้ว

    • ไม่ต้องพยายามตามทุกอย่างก็ดีแล้ว
      มันคล้ายข่าวทั่วไป ถ้ามีเรื่องที่ต้องรู้จริงๆ เดี๋ยวก็ต้องมีคนมาบอกเอง
    • ผู้เล่นหลักแทบไม่เปลี่ยน
      มองมันเหมือนตามดูกีฬาได้เลย และถ้ายอมรับว่า ตำแหน่งจ่าฝูงเปลี่ยนได้ มันก็ไม่เหนื่อยขนาดนั้น
    • ในความรู้สึก หลัง GPT-4 มาก็คล้ายๆ กันไปหมด
      โมเดลใหม่ออกมาก็มักเป็นแค่เบนช์มาร์กดีขึ้นไม่กี่ตัว ส่วนประสบการณ์เชิงอัตวิสัยเวลาใช้งานจริงแทบไม่ต่าง
      หลังจากนั้นก็ไม่ค่อยมีอะไรที่น่าตื่นตะลึงจริงๆ และตอนนี้ก็ดูเหมือนจะนิ่งจนเหลือแต่กลุ่มฮาร์ดคอร์ที่ยังสนใจ
  • สิ่งที่กวนใจกว่าการที่ High Flyer ลอก Anthropic แบบโจ่งแจ้ง เพื่อทำสิ่งนี้ คือ GAB กลับให้เวลาพวกเขามากพอที่จะซ่อน easter egg ระดับ xz ไว้ข้างในเป็นสิบๆ จุด

  • เพิ่งลองผ่าน OpenRouter บน Pi Coding agent เมื่อกี้ แล้วพบว่ามันใช้เครื่องมือ read กับ write ได้ไม่ค่อยถูกบ่อยมาก
    ค่อนข้างน่าผิดหวัง และสงสัยว่ามีทางแก้ที่ดีกว่าการใส่พรอมป์ต์ประมาณ "อย่าเรียกตรง ให้ใช้เครื่องมือที่ให้มาเสมอ" หรือไม่

    • เพิ่งออกมาได้ไม่นาน น่าจะรอดูอีกหน่อยจะดีกว่า
      มีโอกาสสูงว่า การทดสอบล่วงหน้ากับ Pi ยังทำได้ไม่มากพอ