9 คะแนน โดย GN⁺ 2025-02-22 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีม DeepSeek AI กำลังพยายามก้าวข้ามขีดจำกัดในการสำรวจ AGI
  • เริ่มตั้งแต่สัปดาห์หน้า จะมีการ เปิดซอร์สโอเพนซอร์ส 5 คลัง เพื่อแบ่งปันความก้าวหน้าเล็ก ๆ ในฐานะนักพัฒนาอย่างโปร่งใส
  • สิ่งเหล่านี้คือองค์ประกอบพื้นฐานของบริการออนไลน์ เป็นโค้ดที่มีการจัดทำเอกสาร ดีพลอยแล้ว และผ่านการทดสอบในสภาพแวดล้อมจริง
  • จะมีการเผยแพร่โค้ดใหม่ทุกวัน เพื่อกระตุ้นนวัตกรรมที่ขับเคลื่อนโดยชุมชน

Day 1: FlashMLA

  • เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ Hopper GPU
  • ปรับแต่งให้เหมาะกับการให้บริการซีเควนซ์ความยาวแปรผัน
  • สิ่งที่ปล่อยออกมาในตอนนี้
    • BF16
    • 64 block-size Paged kvcache
  • เบนช์มาร์ก: บน H800 SXM5 โดยใช้ CUDA 12.6 ทำได้สูงสุด 3000GB/s ในคอนฟิกแบบ memory-bound และ 580 TFLOPS ในคอนฟิกแบบ compute-bound

Day 2: DeepEP

  • ไลบรารีสื่อสารประสิทธิภาพสูง สำหรับ Mixture-of-Experts(MoE) และ Expert Parallelism(EP)
  • มี All-to-All kernel บน GPU เพื่อเร่งงาน dispatch และ combine ของ MoE
  • รองรับการคำนวณความแม่นยำต่ำ เช่น FP8
  • ใช้ อัลกอริทึม group-limited gating ที่เสนอในงานวิจัย DeepSeek-V3 เพื่อเพิ่มประสิทธิภาพ asymmetric domain bandwidth forwarding
    • ตัวอย่าง: ปรับแต่งการส่งข้อมูล NVLink → RDMA
    • ให้ throughput สูง เหมาะกับงานเทรนและงาน inference prefilling
  • มี low-latency kernel สำหรับ RDMA โดยเฉพาะ สำหรับงาน inference decoding ที่ไวต่อ latency
  • มี เทคนิค communication-computation overlap (ไม่ยึดทรัพยากร SM)

Day 3: DeepGEMM

  • ไลบรารีสำหรับทำ FP8 matrix multiplication (GEMM) อย่างมีประสิทธิภาพ และรองรับวิธี fine-grained scaling ที่เสนอใน DeepSeek-V3
  • รองรับทั้ง GEMM ทั่วไปและ Mix-of-Experts(MoE) grouped GEMM
  • พัฒนาด้วย CUDA และตอนติดตั้งไม่ต้องคอมไพล์แยก โดยใช้ โมดูล Just-In-Time(JIT) แบบน้ำหนักเบา เพื่อคอมไพล์เคอร์เนลตอนรันไทม์
  • ปัจจุบันรองรับเฉพาะ NVIDIA Hopper Tensor Core
  • ใช้ dual accumulation (promotion) บน CUDA core เพื่อชดเชยปัญหาการสะสมค่าที่ไม่แม่นยำของ FP8 Tensor Core
  • ใช้บางแนวคิดจาก CUTLASS และ CuTe แต่ลดการพึ่งพาเทมเพลตที่ซับซ้อนลง ทำให้เป็นดีไซน์เรียบง่ายที่มี โค้ดเคอร์เนลเพียงราว 300 บรรทัด
  • เหมาะสำหรับเรียนรู้การคำนวณเมทริกซ์ FP8 และเทคนิคการปรับแต่งบน Hopper
  • แม้เป็นดีไซน์น้ำหนักเบา แต่ก็ให้ ประสิทธิภาพใกล้เคียงหรือดีกว่าไลบรารีที่จูนระดับผู้เชี่ยวชาญ ในเมทริกซ์หลายขนาด

Day 4: กลยุทธ์การประมวลผลแบบขนานที่ปรับแต่งแล้ว: DualPipe, EPLB, Profile-Data

  • กลยุทธ์และโค้ดที่ใช้ใน DeepSeek V3/R1
    • DualPipe : อัลกอริทึม pipeline parallelism แบบสองทิศทางสำหรับ overlap ระหว่างการคำนวณกับการสื่อสาร
    • EPLB: ตัวทำโหลดบาลานซ์แบบ Expert-Parallel
    • Profile-Data: การทำ data profiling ของโครงสร้างพื้นฐาน DeepSeek เพื่อวิเคราะห์ computation-communication overlap

Day 5: ระบบไฟล์ 3FS และเฟรมเวิร์กประมวลผลข้อมูล Smallpond

  • Fire-Flyer File System(3FS) คือระบบไฟล์แบบกระจายประสิทธิภาพสูงที่ออกแบบมาเพื่อรองรับเวิร์กโหลด AI training และ inference
  • ใช้ SSD รุ่นใหม่และเครือข่าย RDMA เพื่อให้ชั้น shared storage และลดความซับซ้อนในการพัฒนาแอปพลิเคชันแบบกระจาย
  • คุณสมบัติและข้อดีหลัก
    • ประสิทธิภาพและการใช้งาน
      • สถาปัตยกรรมแบบแยกส่วน: รวมแบนด์วิดท์ของ SSD หลายพันตัวและเครือข่ายของ storage node หลายร้อยโหนด ทำให้เข้าถึงทรัพยากรจัดเก็บข้อมูลได้โดยไม่ขึ้นกับ locality
      • การรับประกันความสอดคล้องที่แข็งแกร่ง: ใช้ Chain Replication with Apportioned Queries(CRAQ) เพื่อคงความสอดคล้องและทำให้โค้ดแอปพลิเคชันง่ายขึ้น
      • รองรับ file interface: ให้บริการ metadata แบบ stateless โดยอาศัย transaction key-value store บน FoundationDB จึงใช้ file interface เดิมได้โดยไม่ต้องเรียนรู้ storage API ใหม่
    • รองรับเวิร์กโหลดหลากหลาย
      • การเตรียมข้อมูล: จัดระเบียบเอาต์พุตของ data analysis pipeline เป็นโครงสร้างไดเรกทอรีแบบลำดับชั้น และจัดการเอาต์พุตชั่วคราวปริมาณมากได้อย่างมีประสิทธิภาพ
      • การปรับแต่ง data loader: เข้าถึงตัวอย่างสำหรับการเทรนแบบสุ่มได้จากหลาย compute node โดยไม่ต้อง preload หรือ shuffle ชุดข้อมูลล่วงหน้า
      • การบันทึก checkpoint: รองรับการบันทึก checkpoint แบบขนานความเร็วสูงสำหรับการเทรนขนาดใหญ่
      • การปรับแต่ง inference บน KVCache: คุ้มค่ากว่าแคชบน DRAM และรองรับทั้ง throughput สูงกับความจุขนาดใหญ่
  • SmallPond - เฟรมเวิร์กประมวลผลข้อมูลแบบน้ำหนักเบาที่สร้างบน DuckDB และ 3FS
    • จุดเด่นคือประมวลผลข้อมูลได้ประสิทธิภาพสูง ขยายขนาดได้มาก และใช้งานง่าย
      • การประมวลผลข้อมูลประสิทธิภาพสูง: ใช้ DuckDB เพื่อประมวลผลข้อมูลได้รวดเร็ว
      • รองรับชุดข้อมูลขนาดใหญ่: ประมวลผลข้อมูลระดับเพตะไบต์(PB) ได้
      • ใช้งานและดูแลง่าย: ใช้งานได้สะดวกโดยไม่ต้องมีบริการที่รันระยะยาว

Day 6: เปิดเผยโครงสร้างระบบ inference ของ V3/R1 และต้นทุน/รายได้จากการดำเนินงาน

  • หลักการออกแบบระบบ: เป้าหมายการปรับแต่งของระบบ inference DeepSeek-V3/R1 คือ throughput สูงขึ้นและ latency ต่ำลง
    • เพื่อสิ่งนี้จึงใช้ cross-node Expert Parallelism(EP) เพื่อเพิ่มประสิทธิภาพ
  • ต้นทุนการดำเนินงานของ DeepSeek
    • ใช้ GPU เฉลี่ย 226 โหนด (โหนดละ H800 GPU 8 ตัว)
    • ต้นทุนการดำเนินงานต่อวัน: $87,072 (127 ล้านวอน) - H800 ละ $2/ชั่วโมง
    • รายได้ต่อวันตามทฤษฎี (อิง R1): $562027 (820 ล้านวอน) → อัตรากำไร 545%
    • อย่างไรก็ตาม รายได้จริงต่ำกว่านี้ (เพราะ V3 ถูกกว่า R1 และมีเพียงบางส่วนของบริการที่สร้างรายได้)

งานวิจัย AI infrastructure ปี 2024 (SC24)

Fire-Flyer AI-HPC: การออกแบบฮาร์ดแวร์-ซอฟต์แวร์ร่วมกันอย่างคุ้มค่าสำหรับดีพเลิร์นนิง

  • จาก ความก้าวหน้าอย่างรวดเร็วของ deep learning(DL) และ large language model(LLM) ความต้องการด้านสมรรถนะการประมวลผลและแบนด์วิดท์จึงเพิ่มขึ้นแบบทวีคูณ
  • ต้นทุนในการสร้าง high-performance computing(HPC) เพิ่มสูงขึ้นอย่างรวดเร็วจากราคาที่แพงของชิปประมวลผลความเร็วสูงและ interconnect ความเร็วสูง
  • เพื่อแก้ปัญหานี้ จึงนำเสนอ สถาปัตยกรรม Fire-Flyer AI-HPC ที่บรรลุการเพิ่มประสิทธิภาพด้านต้นทุนและสมรรถนะผ่านการออกแบบความร่วมมือระหว่างฮาร์ดแวร์กับซอฟต์แวร์
    • สร้างระบบ Fire-Flyer 2 ที่ใช้ PCIe A100 GPU จำนวน 10,000 ตัว สำหรับการเทรน DL
    • ให้ประสิทธิภาพใกล้เคียง DGX-A100 แต่ ลดต้นทุนลงครึ่งหนึ่งและลดการใช้พลังงานลง 40%
  • องค์ประกอบของการปรับแต่งประสิทธิภาพ
    • HFReduce : เร่งการสื่อสาร Allreduce เพื่อเพิ่มความเร็วการซิงก์ข้อมูลระหว่าง GPU
    • Computation-Storage Integrated Network : ใช้เทคนิคจัดการความหนาแน่นของทราฟฟิกหลายรูปแบบเพื่อหลีกเลี่ยงคอขวดของเครือข่าย
    • ซอฟต์แวร์สแตก : ผ่าน HaiScale, 3FS, HAI-Platform เพื่อรันการคำนวณและการสื่อสารแบบซ้อนทับกันและเพิ่ม scalability ให้สูงสุด

2 ความคิดเห็น

 
xguru 2025-02-23

DeepSeek เดินหน้าได้อย่างน่าสนใจจริง ๆ ครับ น่าอยากรู้ว่าจะมีอะไรถูกเปิดเผยออกมาบ้าง

 
GN⁺ 2025-02-22
ความคิดเห็นจาก Hacker News
  • สงสัยว่าตัวเองเป็นคนเดียวหรือเปล่าที่ตั้งตารอการปล่อยของ DeepSeek แต่ไม่ได้วิเคราะห์เกินเหตุ เธรดนี้ให้ความรู้สึกว่าเต็มไปด้วยการตีความส่วนตัว

    • DeepSeek ก็ยังเป็นธุรกิจอยู่ดี เป็นการปล่อยที่ยอดเยี่ยม แต่ความคาดหวังและแรงจูงใจดูเหมือนถูกขยายเกินจริง
    • วลี "พลังงานแบบโรงรถล้วน ๆ" ฟังดูเท่มาก
    • สิ่งที่รอมากที่สุดคือสแต็กสำหรับการอนุมาน คนส่วนใหญ่กำลังรัน R1 บนโหนด H200 เดี่ยว แต่ DeepSeek ใช้ RAM ต่อ GPU น้อยกว่ามากสำหรับการอนุมาน และทำดีพลอยแบบ MoE บนคลัสเตอร์
    • น่าสนใจกว่า 12 Days of Christmas ของ OpenAI อีก
  • ตั้งแต่สัปดาห์หน้า จะโอเพนซอร์ส 5 เรโป โดยจะปล่อยวันละหนึ่งตัว

    • อาจมองได้ว่าเป็นการประกาศของการประกาศ จึงน่าจะดีกว่าถ้ายังไม่ถกกันจนกว่าจะมีการเปิดเรโปจริง เพราะยังไม่มีรายละเอียดว่าอะไรจะถูกโอเพนซอร์สบ้าง
    • สิ่งเหล่านี้คือ building blocks แบบเรียบง่ายของบริการออนไลน์ มีการทำเอกสารไว้ ดีพลอยแล้ว และผ่านการทดสอบในสภาพแวดล้อมจริง
  • ขอแสดงความนับถืออย่างยิ่งต่อความนวัตกรรมและงานวิจัยของ DeepSeek ต่อทุกสิ่งที่พวกเขาเผยแพร่ออกมา

    • วลี "ทุกบรรทัดที่แบ่งปันจะกลายเป็นโมเมนตัมร่วมที่เร่งการเดินทาง การปลดล็อกรายวันกำลังจะเริ่มขึ้น ไม่ใช่หอคอยงาช้าง แต่เป็นพลังงานแบบโรงรถล้วน ๆ และนวัตกรรมที่ขับเคลื่อนโดยชุมชน" ฟังดูเท่มาก
  • ที่จริงแล้วพวกเขากำลังรื้อ OpenAI ออกทั้งหมด น่าจะไม่ว่าตั้งใจหรือไม่ก็ตาม

    • LLM เป็น "บล็อกเชน" ที่ชอบธรรมกว่ามาก เมื่อเทียบกับตอนที่นิตยสารสำหรับ CIO ส่วนใหญ่ลงบทความทำนองว่า "กลยุทธ์บล็อกเชนคืออะไร?"
    • ฟองสบู่ AI จะแตก และน่าจะแตกอย่างเต็มที่ภายในปลายปี 2026
  • น่าสนใจที่จะดูว่าคูเมืองในวงการ AI อยู่ตรงไหน โมเดลฐานที่ดีมักจะถูกกลั่นได้เสมอเมื่อเข้าถึง API ได้ system prompt อาจรั่วไหลได้ และลูกเล่น UI ก็อาจถูกลอกได้ สุดท้ายแล้วคูเมืองอาจอยู่ที่ฮาร์ดแวร์และการบูรณาการแนวดิ่ง

  • DeepSeek กับ OpenAI สลับชื่อกันได้ไหม?

  • การโอเพนซอร์สเครื่องมือโครงสร้างพื้นฐานอาจเร่งนวัตกรรมในวงการ AI ได้จริง การเข้าถึงเรโปที่มีเอกสารดีทำให้ทดลองและต่อยอดจากงานที่มีอยู่ได้ง่ายขึ้นมาก

    • สงสัยว่าเรโปเหล่านี้โฟกัสที่ด้านเฉพาะอย่างการฝึกแบบกระจายหรือการเสิร์ฟโมเดลหรือไม่
  • สงสัยว่าบริษัทโมเดลฐานที่ถูกทำให้เป็นโอเพนซอร์สอย่างชัดเจนโดย Facebook และ DeepSeek จะยังแข่งขันด้านมูลค่าประเมินได้อย่างไร เพราะเมื่อจีนและ Facebook แจกของพวกนี้แทบฟรี การสร้างโมเดลเหล่านี้ก็ดูไม่น่าจะสร้างมูลค่าระดับหลายแสนล้านดอลลาร์ได้