- โมเดล เชิงทดลอง ที่พัฒนาบนพื้นฐานของ V3.1-Terminus โดยนำ DeepSeek Sparse Attention (กลไก sparse attention) มาใช้เพื่อเพิ่มประสิทธิภาพในการประมวลผลคอนเท็กซ์ยาว
- Sparse Attention รองรับการคำนวณแบบสปาร์สในระดับละเอียด ช่วยปรับปรุง ประสิทธิภาพในการฝึกและการอนุมาน ได้อย่างมาก ขณะเดียวกันยังคง คุณภาพของผลลัพธ์ใกล้เคียงกับเดิม
- ในเบนช์มาร์กหลักหลายรายการ ให้ผลว่า ประสิทธิภาพใกล้เคียงหรือดีขึ้นบางส่วน เมื่อเทียบกับ V3.1-Terminus โดยเห็นผลเด่นชัดเป็นพิเศษใน การเขียนโค้ด การแก้โจทย์คณิตศาสตร์ และการใช้เครื่องมือแบบเอเจนต์
- เพื่อการวิจัยและการนำไปใช้ ได้เปิดซอร์สเคอร์เนลที่เกี่ยวข้องอย่าง TileLang, DeepGEMM, FlashMLA มาพร้อมกัน โดยมีทั้งเวอร์ชันออกแบบให้อ่านง่ายและ CUDA kernel ประสิทธิภาพสูง
- สามารถรันได้ทันทีในหลายสภาพแวดล้อม เช่น HuggingFace, SGLang, vLLM จึงมีแนวโน้มจะเป็นรากฐานสำหรับการวิจัยและการใช้งานจริงของ สถาปัตยกรรมทรานส์ฟอร์เมอร์ที่มีประสิทธิภาพ รุ่นถัดไป
บทนำ
- DeepSeek-V3.2-Exp เป็น โมเดลช่วงก่อนสถาปัตยกรรมรุ่นถัดไป ที่พัฒนาต่อยอดจาก V3.1-Terminus
- จุดเด่นหลักคือการใช้ DeepSeek Sparse Attention (DSA) ที่ช่วยให้ การอนุมานและการเรียนรู้กับคอนเท็กซ์ยาวมีประสิทธิภาพ
- เป้าหมายคือการ ปรับปรุงประสิทธิภาพการคำนวณ และเพิ่มประสิทธิภาพในการ ประมวลผลลำดับข้อความที่ยาวขึ้น
ผลลัพธ์สำคัญ
- DSA ทำให้เกิด sparse attention แบบละเอียด ได้เป็นครั้งแรก ช่วยเพิ่มประสิทธิภาพโดยยังคงคุณภาพผลลัพธ์ของโมเดลไว้
- การตั้งค่าการฝึกใช้แบบเดียวกับ V3.1-Terminus เพื่อให้มั่นใจใน ความน่าเชื่อถือของการเปรียบเทียบประสิทธิภาพ
- ผลลัพธ์จากเบนช์มาร์กสาธารณะ:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- โดยรวมพบว่า ใกล้เคียงกันหรือดีขึ้นเล็กน้อย
เคอร์เนลโอเพนซอร์ส
- TileLang: มีตัวอย่างเคอร์เนลที่อ่านเข้าใจง่ายสำหรับงานวิจัย
- DeepGEMM: เปิดเผย CUDA kernel ประสิทธิภาพสูงและ indexer logits kernel
- FlashMLA: มี sparse attention kernel ให้ใช้งาน
วิธีรัน
- HuggingFace: หลังแปลงโมเดลแล้ว สามารถรันอินเทอร์แอ็กทีฟแชตด้วย
torchrun ได้
- SGLang: มี Docker image ให้ (สำหรับ H200, MI350, NPUs)
- vLLM: รองรับตั้งแต่ Day-0 และมีเอกสารสูตรใช้งานอย่างเป็นทางการ
ใบอนุญาต
- เผยแพร่ภายใต้ MIT License
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สังเกตว่าผลกระทบลำดับรองที่คนพูดถึงไม่มากคือเรื่องราคา การที่ราคาลดลงพร้อมกับการสเกลโมเดลอย่างรวดเร็วนั้นน่าประทับใจ และเป็นปัจจัยสำคัญพอๆ กับการแพร่หลายของ AI และความฉลาดของโมเดล โดยพื้นฐานแล้วเท่าที่รู้ก็ไม่มี "กฎ" อะไรมาหยุดการลดลงของราคาได้ ตอนนี้มันคล้ายกฎของมัวร์ (หรือรอบการพัฒนาชิป AI/Nvidia) ที่ฮาร์ดแวร์แต่ละเจเนอเรชันจะเร็วขึ้นมากและถูกลงมาก ดังนั้นอีก 1 ปีข้างหน้าก็น่าจะใช้ ChatGPT-5 ได้ในราคาครึ่งหนึ่ง (แน่นอนว่าโมเดลประสิทธิภาพสูงกว่าก็ยังแพงกว่า แต่หมายถึงเมื่อดูจากค่าบริการต่อโทเค็น)
ยินดีกับแนวโน้มที่โมเดลโอเพนซอร์สจากจีนยังพัฒนาต่อและราคาถูกลงอย่างต่อเนื่อง เป็นโมเดลที่ถูกอยู่แล้ว และตอนนี้ราคา API ยังลดเพิ่มอีก 50% เหลือ Input $0.28/M, (กรณี cache hit $0.028/M), Output $0.42/M
พอเห็นว่าราคาลดลงก็เลยสงสัยว่าราคาเดิมเท่าไร เพราะกลับมีความรู้สึกว่าช่วงหลังราคาน่าจะขึ้นมาก่อนด้วยซ้ำ
ราคาลดลงก็ดี แต่ก็สงสัยว่าระดับนี้จะรักษาไว้ได้นานแค่ไหน เพราะก่อนหน้านี้เคยถูกมากแล้วก็ขึ้นแรงครั้งหนึ่ง ก่อนจะกลับมาลดอีกตอนนี้
ลิงก์แนะนำโมเดล Deepseek v3.2-exp
แปลกตรงที่โมเดลนี้ถูกระบุว่า "ฝึกด้วยข้อมูล" ("ผู้ให้บริการรายนี้อาจนำพรอมป์ต์และผลลัพธ์ไปใช้ฝึกโมเดลใหม่ ผู้ให้บริการรายนี้ถูกปิดใช้งานอยู่ แต่สามารถเปิดใช้งานอีกครั้งได้หากนโยบายข้อมูลเปลี่ยนแปลง") โดยทั่วไปโมเดลแบบเสียเงินแทบไม่ค่อยนำข้อมูลอินพุตไปใช้ฝึก เลยสงสัยว่า OpenRouter แสดงผิด หรือ Deepseek ใช้ข้อมูลผู้ใช้เพื่อฝึกจริงๆ
สงสัยว่า Open Router เป็นโอเพนซอร์สจริงหรือไม่ เพราะรีโป "หลัก" อยู่ในสถานะ archive และมีแต่โปรเจกต์เล็กๆ ดูเหมือนโอเพนซอร์สจริงๆ จะมีแค่ API client bindings ส่วนบริการ routing แกนหลักอาจจะปิดอยู่หรือเปล่า
ไม่แน่ใจว่าเข้าใจถูกไหม แต่จุดเด่นของโมเดลนี้คือฝึกให้เลียนแบบการกระจาย attention ทั้งหมด ขณะเดียวกันก็คัดกรองเฉพาะโทเค็น top-k ที่สำคัญ (ในที่นี้ k=2048) ดังนั้นแม้หน้าต่างคอนเท็กซ์จะใหญ่ขึ้น ความซับซ้อนเชิงคอมพิวต์ของการคำนวณ [query, key] ก็ไม่ได้เพิ่มแบบเชิงเส้นและคงที่อยู่ (แต่ถ้าดูจากกราฟจริง จะยังมีขั้นตอนที่ indexer กวาดดูคอนเท็กซ์ทั้งหมดคร่าวๆ หนึ่งรอบ จึงยังเป็น O(L))
ปัญหาใหญ่ของโมเดล "ราคาถูก" แบบนี้คือ ถ้าผู้ให้บริการไม่รองรับ caching ต้นทุนในการใช้งานจริง โดยเฉพาะใน agent workflow อาจกลับสูงกว่าเดิมได้ ค่าโทเค็น input/output แทบไม่มีความหมาย และต้นทุนจากส่วน cache hit (การนำกลับมาใช้ซ้ำ) กลับกินสัดส่วนโทเค็นส่วนใหญ่ แบบนี้ใช้ GPT-5 ไปเลยอาจจะถูกกว่า หรือได้โมเดลที่ทรงพลังกว่าในต้นทุนใกล้เคียงกัน
DeepSeek รองรับ cache และถ้า cache hit ต้นทุนจะเป็นเพียง 1 ใน 10 ของ cache miss โดยตัวเลขคือ cache hit $0.028/M, cache miss $0.28/M, output $0.42/M อ้างอิง
เข้าใจว่าโมเดลนี้รองรับ caching อยู่แล้ว และในหน้าข้อมูลราคาก็ระบุชัดว่าโทเค็น input กรณี cache hit อยู่ที่ $0.028
ประกาศว่าเป็นปัญหาร้ายแรง แต่ก็ใส่เงื่อนไข IF ไว้เอง DeepSeek API รองรับ caching อย่างเป็นทางการ อย่าสร้างปัญหาจากสิ่งที่ไม่มี คู่มือ cache
น่าทึ่งที่แทบคง benchmark เดิมไว้ได้ แต่ลดต้นทุนลงอย่างมาก
อีกประเด็นที่น่าสนใจคือการพัฒนาโมเดลยังเร็วมาก จนฮาร์ดแวร์เฉพาะทางสำหรับโมเดลใดโมเดลหนึ่งยังไม่โดดเด่นมาก และข้อได้เปรียบด้านการสเกลหลักก็ยังเกิดบนแพลตฟอร์มแบบอเนกประสงค์
Deep Sparse Attention ดูเหมือนจะช่วยงานที่มีโครงสร้างอย่างโค้ดและการให้เหตุผลกับข้อความยาวได้จริง
รู้สึกว่าน่าทึ่งมาก และอยากรู้ว่ามันทำงานกับข้อมูลโลกจริงที่ความแตกต่างเล็กๆ น้อยๆ สำคัญอย่างไรบ้าง อีกทั้งก็อยากรู้มากว่าเคยทดสอบกับสถานการณ์ที่เกินหน้าต่างคอนเท็กซ์ 128K หรือไม่
เจ๋งดีที่ได้เห็นกรณีที่นำ sparse attention ไปใช้ในสภาพแวดล้อมจริง