6 คะแนน โดย GN⁺ 2025-12-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepSeek-V3.2 คือโมเดลภาษาใหญ่โอเพ่นซอร์สที่ผสาน ประสิทธิภาพการคำนวณสูง เข้ากับ ประสิทธิภาพด้านการอนุมานและเอเจนต์ เข้าด้วยกัน
  • โครงสร้าง DeepSeek Sparse Attention (DSA) ใหม่นำเสนอกลไกที่คงประสิทธิภาพได้แม้ในบริบทยาว พร้อมลดความซับซ้อนการคำนวณได้อย่างมาก
  • ด้วยกรอบ การเสริมแรงการเรียนรู้แบบขยายได้ (RL) ที่สามารถขยายขนาด ทำให้บรรลุระดับประสิทธิภาพระดับ GPT-5, และเวอร์ชันประสิทธิภาพสูงมีศักยภาพการอนุมานเทียบเท่า Gemini-3.0-Pro
  • โดยใช้ ท่อการสังเคราะห์งานเอเจนต์ขนาดใหญ่ ที่สร้างสภาพแวดล้อม 1,800 รายการและพรอมต์ 85,000 รายการ ช่วยยกระดับความสามารถในการ generalization และการปฏิบัติตามคำสั่งในสภาพแวดล้อมปฏิสัมพันธ์ที่ซับซ้อน
  • โมเดลโอเพ่นช่วยขยับความได้เปรียบ ลดช่องว่างผลลัพธ์กับโมเดลปิด และก้าวขึ้นเป็น ทางเลือกที่คุ้มค่าด้านต้นทุน

ภาพรวม DeepSeek-V3.2

  • DeepSeek-V3.2 เป็นโมเดลที่ออกแบบมาเพื่อเอาชนะข้อจำกัดด้าน การอนุมานและประสิทธิภาพเอเจนต์ของ LLM โอเพ่นซอร์ส
    • ประกอบด้วยเทคโนโลยีหลัก 3 อย่าง: DeepSeek Sparse Attention(DSA), กรอบการเสริมแรงการเรียนรู้แบบขยายได้, และ ท่อการสังเคราะห์งานเอเจนต์ขนาดใหญ่
  • DeepSeek-V3.2-Speciale เวอร์ชันประสิทธิภาพสูง เหนือกว่า GPT-5 และมีความสามารถการอนุมานในระดับใกล้เคียง Gemini-3.0-Pro
    • บันทึกผลงานระดับใกล้เคียงเหรียญทองใน การแข่งขันนานาชาติทางคณิตศาสตร์ (IMO) และ การแข่งขันนานาชาติด้านวิทยาการคอมพิวเตอร์ (IOI) ในปี 2025
  • โมเดลโอเพ่นได้ยกระดับทั้งประสิทธิภาพและประสิทธิผลพร้อมกัน ทำให้ ลดช่องว่างผลลัพธ์ระหว่างโอเพ่นโมเดลและโมเดลปิด

ข้อจำกัดของโอเพ่นโมเดลและแนวทางการปรับปรุง

  • มีการชี้ว่า LLM โอเพ่นซอร์สตามหลังโมเดลปิดเนื่องจากข้อจำกัดหลัก 3 ข้อ
    • โครงสร้าง attention พื้นฐานมีประสิทธิภาพไม่ดีพอ เมื่อประมวลผลลำดับที่ยาว ทำให้ภาระการคำนวณสูง
    • การคอมพิวต์ในขั้นตอนหลังการฝึก (post-training) ไม่เพียงพอ ทำให้การทำงานด้อยลงในภารกิจที่ยาก
    • ความสามารถในการ generalize และการปฏิบัติงานเอเจนต์ยังไม่สมบูรณ์ ส่งผลให้เกิดข้อจำกัดในการใช้งานจริง
  • DeepSeek-V3.2 จึงนำเสนอ โครงสร้าง attention ที่มีประสิทธิภาพ, แนวทางการเรียนรู้เสริมเชิงเสริมที่ขยายขนาดได้, และ ท่อรวมการอนุมานแบบใช้เครื่องมือ เพื่อแก้ปัญหาเหล่านี้

DeepSeek Sparse Attention (DSA)

  • DSA ประกอบด้วย lightning indexer และ กลไกคัดเลือกโทเคนที่ละเอียด
    • lightning indexer ทำงานด้วยความแม่น FP8 โดยกำหนดว่าโทเคน query แต่ละตัวเลือก key-value คู่บนสุด k อัน
    • ทำให้ลดความซับซ้อนจาก O(L²) เหลือ O(Lk) จึงประมวลผลบริบทยาวได้อย่างมีประสิทธิภาพ
  • ใช้การนำไปใช้งานแบบ MLA-based และยังคงความเข้ากันได้กับ DeepSeek-V3.1-Terminus เดิม
  • ดำเนินการฝึกแบบต่อเนื่อง 2 ขั้นตอน
    • ขั้น Dense Warm-up สำหรับเริ่มต้น indexer
    • ขั้น Sparse Training ปรับโมเดลทั้งตัวให้สอดคล้องกับรูปแบบ DSA และฝึกด้วยข้อมูล 943.7B โทเคน

การประเมินผลและประสิทธิภาพ

  • DeepSeek-V3.2-Exp ปรับปรุงประสิทธิภาพการจัดการคอนเท็กซ์ยาวอย่างชัดเจน พร้อมคงผลลัพธ์เทียบเท่า DeepSeek-V3.1-Terminus ได้โดยไม่ลดทอนคุณภาพ
  • ในเกณฑ์อิสระอย่าง AA-LCR3 และ Fiction.liveBench ได้บันทึกคะแนนการอนุมานที่ดีขึ้นเมื่อเทียบกับรุ่นก่อนหน้า
  • ภายใต้คลัสเตอร์ GPU H800 ต้นทุนต่อโทเคนลดลงอย่างมาก ทำให้ได้ อัตราเร็วแบบ end-to-end ที่ดีขึ้น

โครงสร้างหลังการฝึก (Post-Training) และการเสริมแรงการเรียนรู้

  • ผสาน Specialist Distillation และ Mixed RL เข้าด้วยกัน
    • ฝึก 6 โมเดลโดเมนผู้เชี่ยวชาญด้วย RL ได้แก่ คณิตศาสตร์ การเขียนโปรแกรม การอนุมานเชิงตรรกะ เอเจนต์ทั่วไป เอเจนต์โค้ด และเอเจนต์ค้นหา
    • ทำการ distill ข้อมูลจากแต่ละโมเดลผู้เชี่ยวชาญเพื่อสร้าง checkpoint สุดท้าย
  • ใช้อัลกอริทึม Group Relative Policy Optimization (GRPO) เพื่อรวมการฝึกการอนุมาน เอเจนต์ และการจัดแนวเข้าด้วยกัน
    • ผสาน reward model, length penalty, และ reward ความสม่ำเสมอทางภาษา เข้าด้วยกัน
  • DeepSeek-V3.2-Speciale เพิ่มการใช้ข้อมูลและรูปแบบรางวัลจาก DeepSeekMath-V2 เพื่อเสริมความแข็งแกร่งด้านความสามารถในการพิสูจน์ทางคณิตศาสตร์

เทคนิคการทำให้เสถียรในการเสริมแรงการเรียนรู้ (Scaling GRPO)

  • ใช้ Unbiased KL Estimate เพื่อให้การลู่เข้าเสถียรขึ้น
    • แก้ปัญหากราดีเอนต์ไม่เสถียรของตัวประมาณค่า K3 แบบเดิม
  • ด้วย Off-Policy Sequence Masking มาสก์ตัวอย่างค่าลบที่มีการไม่สอดคล้องของนโยบายสูงขึ้น เพื่อเพิ่มเสถียรภาพการเรียนรู้
  • ใช้ Keep Routing เพื่อคงความสอดคล้องของการ routing ในโมเดล Mixture-of-Experts
  • ใช้ Keep Sampling Mask เพื่อป้องกันการไม่ตรงกันของพื้นที่การกระทำระหว่างนโยบายในระหว่างการสุ่มด้วย top-p, top-k

การอัปเดตการคิดด้วยการใช้เครื่องมือ (Thinking in Tool-Use)

  • นำ Thinking Context Management มาใช้เพื่อหลีกเลี่ยงการอนุมานซ้ำซ้อนที่ไม่จำเป็นเมื่อมีการเรียกเครื่องมือ
    • ลบเนื้อหาการอนุมานเดิมออกเฉพาะเมื่อมีข้อความใหม่จากผู้ใช้
    • คงประวัติการเรียกเครื่องมือไว้เพื่อบริหารบริบทได้อย่างมีประสิทธิภาพ
  • ที่ Cold-Start ผสานข้อมูลการอนุมานกับข้อมูลเอเจนต์
    • ข้อมูลการคิดใช้งานแท็ก <think></think> เพื่อแสดงเส้นทางการอนุมานอย่างชัดเจน
    • สร้างฐานการฝึกแบบบูรณาการผ่าน system prompt ที่รวมการเรียกเครื่องมือ
  • ใช้ การสังเคราะห์งานเอเจนต์ขนาดใหญ่ เพื่อสร้างสภาพแวดล้อม 1,800 รายการและพรอมต์ 85,000 รายการ
    • ทำการเรียนรู้เสริมด้วย RL ในโลกจริงผ่าน API ค้นเว็บ, เครื่องมือรันโค้ด, และ Jupyter Notebook
    • Search Agent ใช้พายป์ไลน์มัลติเอเจนต์เพื่ออัตโนษมัติการสร้างคำถาม การยืนยัน และการประเมินรางวัล
    • ใช้โมเดลรางวัลแบบไฮบริดเพื่อเพิ่มประสิทธิภาพทั้งด้านความน่าเชื่อถือของข้อเท็จจริงและประโยชน์ใช้งานจริงพร้อมกัน

สรุป

  • DeepSeek-V3.2 ผนวก โครงสร้าง attention ที่มีประสิทธิภาพ เข้ากับ การเรียนรู้เสริมที่ขยายได้ เพื่อผลักดันขีดจำกัดของโอเพ่นโมเดลให้ก้าวไกลขึ้น
  • ในด้าน การอนุมานและประสิทธิภาพเชิงเอเจนต์แบบผสานกัน โมเดลนี้ลดช่องว่างกับโมเดลปิดอย่างมาก และผุดขึ้นเป็น ทางเลือกที่คุ้มค่าทางต้นทุน
  • เป็นกรณีตัวอย่างที่ชี้ทิศทางการพัฒนา LLM โอเพ่นซอร์สสู่ สมรรถนะสูงอย่างยั่งยืน

1 ความคิดเห็น

 
GN⁺ 2025-12-02
ความคิดเห็นจาก Hacker News
  • น่าประทับใจที่พวกเขายังคงปรับปรุง ประสิทธิภาพด้านต้นทุน อย่างต่อเนื่อง และแบ่งปันกระบวนการพัฒนาอย่างเปิดเผย
    ก็หวังว่าความพยายามแบบนี้จะเป็นแรงต้าน การผูกขาด AI

    • แต่ก็ไม่มีทางรู้ได้จริง ๆ ว่าใคร “ชนะ” เรื่องประสิทธิภาพด้านต้นทุน เพราะเราไม่รู้โครงสร้างกำไรขาดทุนของแต่ละบริษัท
    • เห็นด้วย แต่ก็ไม่คิดว่าเจตนาของพวกเขาจะมีอยู่เพียงด้านเดียว
    • ตราบใดที่ยังรันได้ไม่สมบูรณ์บน GPU ตัวเดียว ก็ยังไม่มีใครเป็นผู้ชนะด้านประสิทธิภาพต้นทุนอย่างแท้จริง
    • น่าจะยังคงเปิดเผยต่อไปจนกว่าจะสร้างโมเดลที่ดีกว่าคู่แข่งอย่างชัดเจน แต่ถ้าหลังจาก ขึ้นนำได้จริงแล้ว ยังเปิดต่อไปอยู่ ตอนนั้นคงต้องชื่นชมจากใจจริง
    • แต่การมองว่า บริษัทที่ได้รับการสนับสนุนจากพรรคคอมมิวนิสต์จีน มีเจตนาบริสุทธิ์ ก็ดูเป็นความคิดที่ไร้เดียงสาไปหน่อย เบื้องหลังคงมีเป้าหมายอื่นแน่
  • ถ้าโมเดลเปิดสามารถแข่งขันกับโมเดลเชิงพาณิชย์ได้ ก็อดสงสัยไม่ได้ว่า บริษัทอย่าง Google, Anthropic, OpenAI จะหาเงินจาก AI ได้อย่างไร
    ในอดีตที่โอเพนซอร์สไปไม่รอด เพราะคุณภาพและความลึกของฟีเจอร์ตามหลังระบบปิด แต่ตอนนี้ดูเหมือนประสิทธิภาพจะเข้าสู่ ช่วงชะงักงัน แล้ว
    สุดท้ายฝ่ายที่มี โครงสร้างพื้นฐานพลังงานที่ถูกที่สุด น่าจะเป็นผู้ชนะในระยะยาว

    • ตามเอกสารภายในของ Google ระบุว่า “AI/LLM ไม่มีคูเมือง (moat)” แต่ถึงจะไม่ได้เป็นเจ้าของโมเดลเอง ก็ยังทำกำไรมหาศาลได้หากให้บริการในรูปแบบ SaaS หรือ MaaS
      ตัวอย่างเช่น Amazon ที่ให้บริการ MongoDB API สุดท้ายก็เป็นโครงสร้างที่ทำเงินจากค่าการใช้อินฟราฯ
      บริษัทส่วนใหญ่ไม่มีศักยภาพพอจะโฮสต์โมเดล SOTA เอง แค่มองจากความจริงที่ว่าหลายบริษัทยังไม่ได้ดูแลแม้แต่เซิร์ฟเวอร์อีเมลเองก็เข้าใจได้
      Google เป็นผู้สร้าง Transformer และ OpenAI ก็ทำให้ ChatGPT สำเร็จด้วย RLHF แต่ตอนนี้ ฟีเจอร์สรุปผลด้วย AI ของ Google กลับมายึดพื้นที่ด้านบนของหน้าค้นหาอีกครั้ง
      เอกสารที่เกี่ยวข้อง: Google “We have no moat, and neither does OpenAI”
    • องค์กรต่าง ๆ เชื่อถือ OpenAI หรือ Anthropic และการมี ฝ่ายให้โยนความรับผิดชอบใส่เมื่อเกิดปัญหา ก็เป็นเรื่องสำคัญเช่นกัน
    • ถ้าสามารถหา พลังงานราคาถูกจากอวกาศ ได้ Musk อาจได้เปรียบอย่างมากในการแข่ง AI เขาหมกมุ่นกับการสร้างโรงงานดาวเทียม AI บนดวงจันทร์
    • ท้ายที่สุดชัยชนะคือการผสมกันของ UX, lock-in และความน่าเชื่อถือ ยิ่งเป็น AI ที่เข้าถึงข้อมูลส่วนตัวอย่างลึก คนก็ยิ่งเลือกแบรนด์ที่คุ้นเคย
    • ตัวโมเดลล้วน ๆ ไม่ได้ทำเงิน กุญแจของมูลค่าคือ การผสานโมเดลเข้าไปในแพลตฟอร์มที่สร้างรายได้อยู่แล้ว
  • โมเดลนี้ไม่ได้ปรับปรุงแค่เบนช์มาร์ก แต่ยังพัฒนา ประสิทธิภาพการอนุมาน ได้มากด้วย
    ลิงก์ที่เกี่ยวข้อง: เปรียบเทียบประสิทธิภาพของ Thomas Ip

    • อยากรู้ว่าอะไรทำให้มันมีประสิทธิภาพขนาดนั้น
  • chat template ของ DeepSeek-V3.2 เปลี่ยนไปมาก
    ตอนแรกนึกว่าทำฟอร์แมตใหม่ขึ้นมา แต่พอดูไวยากรณ์แล้ว มันแทบจะเหมือนกับ ฟอร์แมต Harmony เลย
    ถ้าอย่างนั้น ถ้าระบุไปตั้งแต่แรกว่าเข้ากันได้กับ Harmony ก็น่าจะเข้าใจง่ายกว่านี้

  • สงสัยว่าทำไมแทบไม่มีโมเดลระดับ 32~512GB และทำไม Mac Studio M4 ถึงมี RAM สูงสุดแค่ 128GB

    • พูดเล่น ๆ แต่ทำให้นึกถึงประโยคว่า “128GB ก็พอแล้ว” หวังว่า M5 Max จะมี RAM มากกว่านี้
  • การที่โมเดลแบบนี้ถูกปล่อยเป็นโอเพนซอร์สถือว่ายอดเยี่ยม แต่ก็ยังสงสัยว่าเครื่องริกระดับ 20,000 ดอลลาร์ ที่มี RTX 5090 สี่ใบ จะรันได้เร็วพอหรือไม่

    • มีคนบอกว่า Mac Studio M3 Ultra 512GB ทำได้ประมาณ 20 โทเคนต่อวินาที วิดีโอเดโม
    • โมเดลขนาดใหญ่ในโลกความจริงเหมาะกับการรันบน คลาวด์แบบคิดเงินรายชั่วโมงหรือรายโทเคน มากกว่า จะซื้อแร็ก H100 มารันเองก็ได้ แต่ใช้คลาวด์มีประสิทธิภาพกว่ามาก
    • ตอนนี้ริกส่วนตัว ไม่คุ้มค่าในเชิงต้นทุน แล้ว พอรวมค่า GPU, ค่าไฟ และค่าระบายความร้อนแล้ว ดูแล้วซื้อ RTX Pro 6000 น่าจะดีกว่า
    • ผู้ให้บริการสองรายบน OpenRouter ที่มี DeepSeek-V3.2 อยู่ด้วย (รวม DeepSeek เอง) ต่างก็รันที่ราว 28tps ลิงก์ OpenRouter
      จุดนี้กลับยิ่งสนับสนุนข้ออ้างในคอมเมนต์ต้นทางว่า สำหรับผู้บริโภคทั่วไปมันช้า
    • ฉันเองก็ใช้ริกที่มี RTX 3090 อยู่ 6 ใบ แต่โมเดล 685B พารามิเตอร์ช้าเกินไป ใช้ได้สบายแค่ โมเดลต่ำกว่า 144B เท่านั้น โดยเฉพาะ GLM 4.5 Air ที่ดีมาก
  • ถ้าดูตาราง 3 ในงานวิจัย DS-Speciale แทบจะได้อันดับ 1~2 ในทุกการทดสอบ แต่ ปริมาณโทเคนที่ปล่อยออกมามากกว่ากว่า 50%

    • ปัญหาการให้เหตุผลเชิงตรรกะ บางอย่างจำเป็นต้องมีสายโซ่ความคิดที่ยาวกว่า DeepSeek ที่ต้นทุนต่ำจึงสามารถเร่งจุดนี้ได้เต็มที่
      มันสามารถ ขยายประสิทธิภาพการอนุมานด้วยทรัพยากรคอมพิวต์ ได้ โดยสร้างคำตอบหลายแบบแบบขนานแล้วเลือกคำตอบสุดท้าย
  • หลังจากลองใช้มาสองสามชั่วโมง รู้สึกว่าเป็น โมเดลที่แข็งแรงและแข่งขันได้มาก ดีกว่า GLM4.6 และให้ความรู้สึกว่าดีกว่า Kimi K2 ด้วย รอ v4 เลย

  • น่าสนใจที่นี่คือโมเดลขนาดใหญ่ระดับ frontier ที่เปิดภายใต้ ไลเซนส์ MIT

  • ไม่ค่อยเข้าใจเกณฑ์ประเมินของอุตสาหกรรม AI ในสหรัฐฯ เท่าไร เพราะ โมเดลจากจีนถูกกว่ามากแต่ประสิทธิภาพแทบไม่ต่างกัน

    • โมเดลจีนส่วนใหญ่เน้น ข้อความเป็นหลัก ส่วนโมเดลจากสหรัฐฯ และยุโรปรองรับทั้งภาพ เสียง และวิดีโอ จึงมีต้นทุนสูงกว่า
      อีกอย่าง เบนช์มาร์กก็เริ่มอิ่มตัวแล้ว ช่องว่างเลยดูแคบ แต่ในระดับบนสุด ความต่าง 1% ก็มีความหมายมากในทางปฏิบัติ
      ใน กระดานจัดอันดับ Metabench ที่ฉันทำเอง โมเดลจีนก็ดีจริง แต่ก็ยังมีช่องว่างกับกลุ่มบนอยู่
      อย่างไรก็ตาม ด้วยต้นทุนการอนุมานที่ต่ำ โมเดลจีนจึงแข็งแกร่งมากในด้าน ความคุ้มค่าต่อราคา
    • ในการใช้งานจริง ความเร็วของอินฟราฯ คือปัจจัยสำคัญ บน OpenRouter โมเดลจีนยังไม่เร็วเท่า Claude, GPT หรือ Gemini
      บริษัทสหรัฐฯ ไม่ได้ขายแค่โมเดล แต่ขาย โครงสร้างพื้นฐานหน่วงต่ำทั่วโลก ไปพร้อมกันด้วย นั่นอธิบายมูลค่าบริษัทที่สูง
      อนึ่ง Cerebras ก็กำลังให้บริการ GLM 4.6 ที่เร็วมาก
    • ผู้ให้บริการภายนอก ยังไม่รองรับ caching ถ้าเปิด caching ได้ ต้นทุนของโมเดลสหรัฐฯ จะลดลงเหลือประมาณ 2 เท่า และแข่งขันได้มากขึ้นมาก
    • มูลค่าประเมินของบริษัทสหรัฐฯ ตั้งอยู่บน ศักยภาพในอนาคต มากกว่าผลงานปัจจุบัน เป็นการลงทุนภายใต้ความเข้าใจที่ยังไม่มากพอต่องานวิจัยจีน
      อาจมีสมมติฐานแฝงอยู่ว่า DeepSeek จะถูกแบน และซอฟต์แวร์โอเพนซอร์สจะถูกปิดกั้นในสหรัฐฯ
    • ถึงอย่างนั้น ถ้าสหรัฐฯ ไม่ได้เป็นฝ่ายจุดชนวนการแข่งขันด้วย FOMO (ความกลัวว่าจะพลาด) ก่อน กลยุทธ์ของจีนก็คงใช้ไม่ได้ผลแบบทุกวันนี้
      จากนี้ไป โมเดล frontier อาจสร้างความแตกต่างได้จาก edge case ที่ละเอียดมากขึ้น