2 คะแนน โดย GN⁺ 2025-09-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล เชิงทดลอง ที่พัฒนาบนพื้นฐานของ V3.1-Terminus โดยนำ DeepSeek Sparse Attention (กลไก sparse attention) มาใช้เพื่อเพิ่มประสิทธิภาพในการประมวลผลคอนเท็กซ์ยาว
  • Sparse Attention รองรับการคำนวณแบบสปาร์สในระดับละเอียด ช่วยปรับปรุง ประสิทธิภาพในการฝึกและการอนุมาน ได้อย่างมาก ขณะเดียวกันยังคง คุณภาพของผลลัพธ์ใกล้เคียงกับเดิม
  • ในเบนช์มาร์กหลักหลายรายการ ให้ผลว่า ประสิทธิภาพใกล้เคียงหรือดีขึ้นบางส่วน เมื่อเทียบกับ V3.1-Terminus โดยเห็นผลเด่นชัดเป็นพิเศษใน การเขียนโค้ด การแก้โจทย์คณิตศาสตร์ และการใช้เครื่องมือแบบเอเจนต์
  • เพื่อการวิจัยและการนำไปใช้ ได้เปิดซอร์สเคอร์เนลที่เกี่ยวข้องอย่าง TileLang, DeepGEMM, FlashMLA มาพร้อมกัน โดยมีทั้งเวอร์ชันออกแบบให้อ่านง่ายและ CUDA kernel ประสิทธิภาพสูง
  • สามารถรันได้ทันทีในหลายสภาพแวดล้อม เช่น HuggingFace, SGLang, vLLM จึงมีแนวโน้มจะเป็นรากฐานสำหรับการวิจัยและการใช้งานจริงของ สถาปัตยกรรมทรานส์ฟอร์เมอร์ที่มีประสิทธิภาพ รุ่นถัดไป

บทนำ

  • DeepSeek-V3.2-Exp เป็น โมเดลช่วงก่อนสถาปัตยกรรมรุ่นถัดไป ที่พัฒนาต่อยอดจาก V3.1-Terminus
  • จุดเด่นหลักคือการใช้ DeepSeek Sparse Attention (DSA) ที่ช่วยให้ การอนุมานและการเรียนรู้กับคอนเท็กซ์ยาวมีประสิทธิภาพ
  • เป้าหมายคือการ ปรับปรุงประสิทธิภาพการคำนวณ และเพิ่มประสิทธิภาพในการ ประมวลผลลำดับข้อความที่ยาวขึ้น

ผลลัพธ์สำคัญ

  • DSA ทำให้เกิด sparse attention แบบละเอียด ได้เป็นครั้งแรก ช่วยเพิ่มประสิทธิภาพโดยยังคงคุณภาพผลลัพธ์ของโมเดลไว้
  • การตั้งค่าการฝึกใช้แบบเดียวกับ V3.1-Terminus เพื่อให้มั่นใจใน ความน่าเชื่อถือของการเปรียบเทียบประสิทธิภาพ
  • ผลลัพธ์จากเบนช์มาร์กสาธารณะ:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • โดยรวมพบว่า ใกล้เคียงกันหรือดีขึ้นเล็กน้อย

เคอร์เนลโอเพนซอร์ส

  • TileLang: มีตัวอย่างเคอร์เนลที่อ่านเข้าใจง่ายสำหรับงานวิจัย
  • DeepGEMM: เปิดเผย CUDA kernel ประสิทธิภาพสูงและ indexer logits kernel
  • FlashMLA: มี sparse attention kernel ให้ใช้งาน

วิธีรัน

  • HuggingFace: หลังแปลงโมเดลแล้ว สามารถรันอินเทอร์แอ็กทีฟแชตด้วย torchrun ได้
  • SGLang: มี Docker image ให้ (สำหรับ H200, MI350, NPUs)
  • vLLM: รองรับตั้งแต่ Day-0 และมีเอกสารสูตรใช้งานอย่างเป็นทางการ

ใบอนุญาต

  • เผยแพร่ภายใต้ MIT License

1 ความคิดเห็น

 
GN⁺ 2025-09-30
ความคิดเห็นจาก Hacker News
  • สังเกตว่าผลกระทบลำดับรองที่คนพูดถึงไม่มากคือเรื่องราคา การที่ราคาลดลงพร้อมกับการสเกลโมเดลอย่างรวดเร็วนั้นน่าประทับใจ และเป็นปัจจัยสำคัญพอๆ กับการแพร่หลายของ AI และความฉลาดของโมเดล โดยพื้นฐานแล้วเท่าที่รู้ก็ไม่มี "กฎ" อะไรมาหยุดการลดลงของราคาได้ ตอนนี้มันคล้ายกฎของมัวร์ (หรือรอบการพัฒนาชิป AI/Nvidia) ที่ฮาร์ดแวร์แต่ละเจเนอเรชันจะเร็วขึ้นมากและถูกลงมาก ดังนั้นอีก 1 ปีข้างหน้าก็น่าจะใช้ ChatGPT-5 ได้ในราคาครึ่งหนึ่ง (แน่นอนว่าโมเดลประสิทธิภาพสูงกว่าก็ยังแพงกว่า แต่หมายถึงเมื่อดูจากค่าบริการต่อโทเค็น)

    • นี่ประเมินขนาดการลดราคาต่ำไปมาก ตัวอย่างเช่น งานวิจัยของ Andreessen Horowitz ระบุว่าตลอด 2 ปีหลังจาก GPT-3.5 เปิดตัว ต้นทุน inference ลดลงปีละ 10 เท่า อ้างอิง ดังนั้นแม้จะเป็นสถานการณ์ที่การเติบโตชะลอลง ก็ยังมองว่าในอีก 5 ปีข้างหน้ามีโอกาสลดลงได้ 1,000 เท่า การลดราคาปัจจุบันไม่ได้ผูกตรงกับกฎของมัวร์เท่านั้น แต่ยังมาจากนวัตกรรมหลายด้าน เช่น การเพิ่มประสิทธิภาพโมเดล ซัพพลายเชนหน่วยความจำแบนด์วิดท์สูง และการลงทุนโครงสร้างพื้นฐานด้านพลังงาน
  • ยินดีกับแนวโน้มที่โมเดลโอเพนซอร์สจากจีนยังพัฒนาต่อและราคาถูกลงอย่างต่อเนื่อง เป็นโมเดลที่ถูกอยู่แล้ว และตอนนี้ราคา API ยังลดเพิ่มอีก 50% เหลือ Input $0.28/M, (กรณี cache hit $0.028/M), Output $0.42/M

    • พอเห็นว่าราคาลดลงก็เลยสงสัยว่าราคาเดิมเท่าไร เพราะกลับมีความรู้สึกว่าช่วงหลังราคาน่าจะขึ้นมาก่อนด้วยซ้ำ

    • ราคาลดลงก็ดี แต่ก็สงสัยว่าระดับนี้จะรักษาไว้ได้นานแค่ไหน เพราะก่อนหน้านี้เคยถูกมากแล้วก็ขึ้นแรงครั้งหนึ่ง ก่อนจะกลับมาลดอีกตอนนี้

  • ลิงก์แนะนำโมเดล Deepseek v3.2-exp

    • แปลกตรงที่โมเดลนี้ถูกระบุว่า "ฝึกด้วยข้อมูล" ("ผู้ให้บริการรายนี้อาจนำพรอมป์ต์และผลลัพธ์ไปใช้ฝึกโมเดลใหม่ ผู้ให้บริการรายนี้ถูกปิดใช้งานอยู่ แต่สามารถเปิดใช้งานอีกครั้งได้หากนโยบายข้อมูลเปลี่ยนแปลง") โดยทั่วไปโมเดลแบบเสียเงินแทบไม่ค่อยนำข้อมูลอินพุตไปใช้ฝึก เลยสงสัยว่า OpenRouter แสดงผิด หรือ Deepseek ใช้ข้อมูลผู้ใช้เพื่อฝึกจริงๆ

    • สงสัยว่า Open Router เป็นโอเพนซอร์สจริงหรือไม่ เพราะรีโป "หลัก" อยู่ในสถานะ archive และมีแต่โปรเจกต์เล็กๆ ดูเหมือนโอเพนซอร์สจริงๆ จะมีแค่ API client bindings ส่วนบริการ routing แกนหลักอาจจะปิดอยู่หรือเปล่า

  • ไม่แน่ใจว่าเข้าใจถูกไหม แต่จุดเด่นของโมเดลนี้คือฝึกให้เลียนแบบการกระจาย attention ทั้งหมด ขณะเดียวกันก็คัดกรองเฉพาะโทเค็น top-k ที่สำคัญ (ในที่นี้ k=2048) ดังนั้นแม้หน้าต่างคอนเท็กซ์จะใหญ่ขึ้น ความซับซ้อนเชิงคอมพิวต์ของการคำนวณ [query, key] ก็ไม่ได้เพิ่มแบบเชิงเส้นและคงที่อยู่ (แต่ถ้าดูจากกราฟจริง จะยังมีขั้นตอนที่ indexer กวาดดูคอนเท็กซ์ทั้งหมดคร่าวๆ หนึ่งรอบ จึงยังเป็น O(L))

  • ปัญหาใหญ่ของโมเดล "ราคาถูก" แบบนี้คือ ถ้าผู้ให้บริการไม่รองรับ caching ต้นทุนในการใช้งานจริง โดยเฉพาะใน agent workflow อาจกลับสูงกว่าเดิมได้ ค่าโทเค็น input/output แทบไม่มีความหมาย และต้นทุนจากส่วน cache hit (การนำกลับมาใช้ซ้ำ) กลับกินสัดส่วนโทเค็นส่วนใหญ่ แบบนี้ใช้ GPT-5 ไปเลยอาจจะถูกกว่า หรือได้โมเดลที่ทรงพลังกว่าในต้นทุนใกล้เคียงกัน

    • DeepSeek รองรับ cache และถ้า cache hit ต้นทุนจะเป็นเพียง 1 ใน 10 ของ cache miss โดยตัวเลขคือ cache hit $0.028/M, cache miss $0.28/M, output $0.42/M อ้างอิง

    • เข้าใจว่าโมเดลนี้รองรับ caching อยู่แล้ว และในหน้าข้อมูลราคาก็ระบุชัดว่าโทเค็น input กรณี cache hit อยู่ที่ $0.028

    • ประกาศว่าเป็นปัญหาร้ายแรง แต่ก็ใส่เงื่อนไข IF ไว้เอง DeepSeek API รองรับ caching อย่างเป็นทางการ อย่าสร้างปัญหาจากสิ่งที่ไม่มี คู่มือ cache

  • น่าทึ่งที่แทบคง benchmark เดิมไว้ได้ แต่ลดต้นทุนลงอย่างมาก

  • อีกประเด็นที่น่าสนใจคือการพัฒนาโมเดลยังเร็วมาก จนฮาร์ดแวร์เฉพาะทางสำหรับโมเดลใดโมเดลหนึ่งยังไม่โดดเด่นมาก และข้อได้เปรียบด้านการสเกลหลักก็ยังเกิดบนแพลตฟอร์มแบบอเนกประสงค์

    • ถึงอย่างนั้นก็ควรพูดถึงชิปที่ปรับสถาปัตยกรรมให้เหมาะ เช่น Google TPU, Groq, Cerebras ด้วย พวกนี้ไม่ได้เฉพาะทางแบบสมบูรณ์ แต่เป็นตัวอย่างของการปรับให้เหมาะบนโครงสร้างที่ทั่วไปมากกว่า
  • Deep Sparse Attention ดูเหมือนจะช่วยงานที่มีโครงสร้างอย่างโค้ดและการให้เหตุผลกับข้อความยาวได้จริง

  • รู้สึกว่าน่าทึ่งมาก และอยากรู้ว่ามันทำงานกับข้อมูลโลกจริงที่ความแตกต่างเล็กๆ น้อยๆ สำคัญอย่างไรบ้าง อีกทั้งก็อยากรู้มากว่าเคยทดสอบกับสถานการณ์ที่เกินหน้าต่างคอนเท็กซ์ 128K หรือไม่

  • เจ๋งดีที่ได้เห็นกรณีที่นำ sparse attention ไปใช้ในสภาพแวดล้อมจริง