DeepSeek Open Infra: เปิดซอร์สโอเพนซอร์ส 5 คลัง AI ภายใน 5 วัน

(github.com/deepseek-ai)

9 คะแนน โดย GN⁺ 2025-02-22 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ทีม DeepSeek AI กำลังพยายามก้าวข้ามขีดจำกัดในการสำรวจ AGI
เริ่มตั้งแต่สัปดาห์หน้า จะมีการ เปิดซอร์สโอเพนซอร์ส 5 คลัง เพื่อแบ่งปันความก้าวหน้าเล็ก ๆ ในฐานะนักพัฒนาอย่างโปร่งใส
สิ่งเหล่านี้คือองค์ประกอบพื้นฐานของบริการออนไลน์ เป็นโค้ดที่มีการจัดทำเอกสาร ดีพลอยแล้ว และผ่านการทดสอบในสภาพแวดล้อมจริง
จะมีการเผยแพร่โค้ดใหม่ทุกวัน เพื่อกระตุ้นนวัตกรรมที่ขับเคลื่อนโดยชุมชน

Day 1: FlashMLA

เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ Hopper GPU
ปรับแต่งให้เหมาะกับการให้บริการซีเควนซ์ความยาวแปรผัน
สิ่งที่ปล่อยออกมาในตอนนี้
- BF16
- 64 block-size Paged kvcache
เบนช์มาร์ก: บน H800 SXM5 โดยใช้ CUDA 12.6 ทำได้สูงสุด 3000GB/s ในคอนฟิกแบบ memory-bound และ 580 TFLOPS ในคอนฟิกแบบ compute-bound

Day 2: DeepEP

ไลบรารีสื่อสารประสิทธิภาพสูง สำหรับ Mixture-of-Experts(MoE) และ Expert Parallelism(EP)
มี All-to-All kernel บน GPU เพื่อเร่งงาน dispatch และ combine ของ MoE
รองรับการคำนวณความแม่นยำต่ำ เช่น FP8
ใช้ อัลกอริทึม group-limited gating ที่เสนอในงานวิจัย DeepSeek-V3 เพื่อเพิ่มประสิทธิภาพ asymmetric domain bandwidth forwarding
- ตัวอย่าง: ปรับแต่งการส่งข้อมูล NVLink → RDMA
- ให้ throughput สูง เหมาะกับงานเทรนและงาน inference prefilling
มี low-latency kernel สำหรับ RDMA โดยเฉพาะ สำหรับงาน inference decoding ที่ไวต่อ latency
มี เทคนิค communication-computation overlap (ไม่ยึดทรัพยากร SM)

Day 3: DeepGEMM

ไลบรารีสำหรับทำ FP8 matrix multiplication (GEMM) อย่างมีประสิทธิภาพ และรองรับวิธี fine-grained scaling ที่เสนอใน DeepSeek-V3
รองรับทั้ง GEMM ทั่วไปและ Mix-of-Experts(MoE) grouped GEMM
พัฒนาด้วย CUDA และตอนติดตั้งไม่ต้องคอมไพล์แยก โดยใช้ โมดูล Just-In-Time(JIT) แบบน้ำหนักเบา เพื่อคอมไพล์เคอร์เนลตอนรันไทม์
ปัจจุบันรองรับเฉพาะ NVIDIA Hopper Tensor Core
ใช้ dual accumulation (promotion) บน CUDA core เพื่อชดเชยปัญหาการสะสมค่าที่ไม่แม่นยำของ FP8 Tensor Core
ใช้บางแนวคิดจาก CUTLASS และ CuTe แต่ลดการพึ่งพาเทมเพลตที่ซับซ้อนลง ทำให้เป็นดีไซน์เรียบง่ายที่มี โค้ดเคอร์เนลเพียงราว 300 บรรทัด
เหมาะสำหรับเรียนรู้การคำนวณเมทริกซ์ FP8 และเทคนิคการปรับแต่งบน Hopper
แม้เป็นดีไซน์น้ำหนักเบา แต่ก็ให้ ประสิทธิภาพใกล้เคียงหรือดีกว่าไลบรารีที่จูนระดับผู้เชี่ยวชาญ ในเมทริกซ์หลายขนาด

Day 4: กลยุทธ์การประมวลผลแบบขนานที่ปรับแต่งแล้ว: DualPipe, EPLB, Profile-Data

กลยุทธ์และโค้ดที่ใช้ใน DeepSeek V3/R1
- DualPipe : อัลกอริทึม pipeline parallelism แบบสองทิศทางสำหรับ overlap ระหว่างการคำนวณกับการสื่อสาร
- EPLB: ตัวทำโหลดบาลานซ์แบบ Expert-Parallel
- Profile-Data: การทำ data profiling ของโครงสร้างพื้นฐาน DeepSeek เพื่อวิเคราะห์ computation-communication overlap

Day 5: ระบบไฟล์ 3FS และเฟรมเวิร์กประมวลผลข้อมูล Smallpond

Fire-Flyer File System(3FS) คือระบบไฟล์แบบกระจายประสิทธิภาพสูงที่ออกแบบมาเพื่อรองรับเวิร์กโหลด AI training และ inference
ใช้ SSD รุ่นใหม่และเครือข่าย RDMA เพื่อให้ชั้น shared storage และลดความซับซ้อนในการพัฒนาแอปพลิเคชันแบบกระจาย
คุณสมบัติและข้อดีหลัก
- ประสิทธิภาพและการใช้งาน
  - สถาปัตยกรรมแบบแยกส่วน: รวมแบนด์วิดท์ของ SSD หลายพันตัวและเครือข่ายของ storage node หลายร้อยโหนด ทำให้เข้าถึงทรัพยากรจัดเก็บข้อมูลได้โดยไม่ขึ้นกับ locality
  - การรับประกันความสอดคล้องที่แข็งแกร่ง: ใช้ Chain Replication with Apportioned Queries(CRAQ) เพื่อคงความสอดคล้องและทำให้โค้ดแอปพลิเคชันง่ายขึ้น
  - รองรับ file interface: ให้บริการ metadata แบบ stateless โดยอาศัย transaction key-value store บน FoundationDB จึงใช้ file interface เดิมได้โดยไม่ต้องเรียนรู้ storage API ใหม่
- รองรับเวิร์กโหลดหลากหลาย
  - การเตรียมข้อมูล: จัดระเบียบเอาต์พุตของ data analysis pipeline เป็นโครงสร้างไดเรกทอรีแบบลำดับชั้น และจัดการเอาต์พุตชั่วคราวปริมาณมากได้อย่างมีประสิทธิภาพ
  - การปรับแต่ง data loader: เข้าถึงตัวอย่างสำหรับการเทรนแบบสุ่มได้จากหลาย compute node โดยไม่ต้อง preload หรือ shuffle ชุดข้อมูลล่วงหน้า
  - การบันทึก checkpoint: รองรับการบันทึก checkpoint แบบขนานความเร็วสูงสำหรับการเทรนขนาดใหญ่
  - การปรับแต่ง inference บน KVCache: คุ้มค่ากว่าแคชบน DRAM และรองรับทั้ง throughput สูงกับความจุขนาดใหญ่
SmallPond - เฟรมเวิร์กประมวลผลข้อมูลแบบน้ำหนักเบาที่สร้างบน DuckDB และ 3FS
- จุดเด่นคือประมวลผลข้อมูลได้ประสิทธิภาพสูง ขยายขนาดได้มาก และใช้งานง่าย
  - การประมวลผลข้อมูลประสิทธิภาพสูง: ใช้ DuckDB เพื่อประมวลผลข้อมูลได้รวดเร็ว
  - รองรับชุดข้อมูลขนาดใหญ่: ประมวลผลข้อมูลระดับเพตะไบต์(PB) ได้
  - ใช้งานและดูแลง่าย: ใช้งานได้สะดวกโดยไม่ต้องมีบริการที่รันระยะยาว

Day 6: เปิดเผยโครงสร้างระบบ inference ของ V3/R1 และต้นทุน/รายได้จากการดำเนินงาน

หลักการออกแบบระบบ: เป้าหมายการปรับแต่งของระบบ inference DeepSeek-V3/R1 คือ throughput สูงขึ้นและ latency ต่ำลง
- เพื่อสิ่งนี้จึงใช้ cross-node Expert Parallelism(EP) เพื่อเพิ่มประสิทธิภาพ
ต้นทุนการดำเนินงานของ DeepSeek
- ใช้ GPU เฉลี่ย 226 โหนด (โหนดละ H800 GPU 8 ตัว)
- ต้นทุนการดำเนินงานต่อวัน: $87,072 (127 ล้านวอน) - H800 ละ $2/ชั่วโมง
- รายได้ต่อวันตามทฤษฎี (อิง R1): $562027 (820 ล้านวอน) → อัตรากำไร 545%
- อย่างไรก็ตาม รายได้จริงต่ำกว่านี้ (เพราะ V3 ถูกกว่า R1 และมีเพียงบางส่วนของบริการที่สร้างรายได้)

งานวิจัย AI infrastructure ปี 2024 (SC24)

Fire-Flyer AI-HPC: การออกแบบฮาร์ดแวร์-ซอฟต์แวร์ร่วมกันอย่างคุ้มค่าสำหรับดีพเลิร์นนิง

จาก ความก้าวหน้าอย่างรวดเร็วของ deep learning(DL) และ large language model(LLM) ความต้องการด้านสมรรถนะการประมวลผลและแบนด์วิดท์จึงเพิ่มขึ้นแบบทวีคูณ
ต้นทุนในการสร้าง high-performance computing(HPC) เพิ่มสูงขึ้นอย่างรวดเร็วจากราคาที่แพงของชิปประมวลผลความเร็วสูงและ interconnect ความเร็วสูง
เพื่อแก้ปัญหานี้ จึงนำเสนอ สถาปัตยกรรม Fire-Flyer AI-HPC ที่บรรลุการเพิ่มประสิทธิภาพด้านต้นทุนและสมรรถนะผ่านการออกแบบความร่วมมือระหว่างฮาร์ดแวร์กับซอฟต์แวร์
- สร้างระบบ Fire-Flyer 2 ที่ใช้ PCIe A100 GPU จำนวน 10,000 ตัว สำหรับการเทรน DL
- ให้ประสิทธิภาพใกล้เคียง DGX-A100 แต่ ลดต้นทุนลงครึ่งหนึ่งและลดการใช้พลังงานลง 40%
องค์ประกอบของการปรับแต่งประสิทธิภาพ
- HFReduce : เร่งการสื่อสาร Allreduce เพื่อเพิ่มความเร็วการซิงก์ข้อมูลระหว่าง GPU
- Computation-Storage Integrated Network : ใช้เทคนิคจัดการความหนาแน่นของทราฟฟิกหลายรูปแบบเพื่อหลีกเลี่ยงคอขวดของเครือข่าย
- ซอฟต์แวร์สแตก : ผ่าน HaiScale, 3FS, HAI-Platform เพื่อรันการคำนวณและการสื่อสารแบบซ้อนทับกันและเพิ่ม scalability ให้สูงสุด

2 ความคิดเห็น

xguru 2025-02-23

DeepSeek เดินหน้าได้อย่างน่าสนใจจริง ๆ ครับ น่าอยากรู้ว่าจะมีอะไรถูกเปิดเผยออกมาบ้าง

GN⁺ 2025-02-22

ความคิดเห็นจาก Hacker News

สงสัยว่าตัวเองเป็นคนเดียวหรือเปล่าที่ตั้งตารอการปล่อยของ DeepSeek แต่ไม่ได้วิเคราะห์เกินเหตุ เธรดนี้ให้ความรู้สึกว่าเต็มไปด้วยการตีความส่วนตัว
- DeepSeek ก็ยังเป็นธุรกิจอยู่ดี เป็นการปล่อยที่ยอดเยี่ยม แต่ความคาดหวังและแรงจูงใจดูเหมือนถูกขยายเกินจริง
- วลี "พลังงานแบบโรงรถล้วน ๆ" ฟังดูเท่มาก
- สิ่งที่รอมากที่สุดคือสแต็กสำหรับการอนุมาน คนส่วนใหญ่กำลังรัน R1 บนโหนด H200 เดี่ยว แต่ DeepSeek ใช้ RAM ต่อ GPU น้อยกว่ามากสำหรับการอนุมาน และทำดีพลอยแบบ MoE บนคลัสเตอร์
- น่าสนใจกว่า 12 Days of Christmas ของ OpenAI อีก
ตั้งแต่สัปดาห์หน้า จะโอเพนซอร์ส 5 เรโป โดยจะปล่อยวันละหนึ่งตัว
- อาจมองได้ว่าเป็นการประกาศของการประกาศ จึงน่าจะดีกว่าถ้ายังไม่ถกกันจนกว่าจะมีการเปิดเรโปจริง เพราะยังไม่มีรายละเอียดว่าอะไรจะถูกโอเพนซอร์สบ้าง
- สิ่งเหล่านี้คือ building blocks แบบเรียบง่ายของบริการออนไลน์ มีการทำเอกสารไว้ ดีพลอยแล้ว และผ่านการทดสอบในสภาพแวดล้อมจริง
ขอแสดงความนับถืออย่างยิ่งต่อความนวัตกรรมและงานวิจัยของ DeepSeek ต่อทุกสิ่งที่พวกเขาเผยแพร่ออกมา
- วลี "ทุกบรรทัดที่แบ่งปันจะกลายเป็นโมเมนตัมร่วมที่เร่งการเดินทาง การปลดล็อกรายวันกำลังจะเริ่มขึ้น ไม่ใช่หอคอยงาช้าง แต่เป็นพลังงานแบบโรงรถล้วน ๆ และนวัตกรรมที่ขับเคลื่อนโดยชุมชน" ฟังดูเท่มาก
ที่จริงแล้วพวกเขากำลังรื้อ OpenAI ออกทั้งหมด น่าจะไม่ว่าตั้งใจหรือไม่ก็ตาม
- LLM เป็น "บล็อกเชน" ที่ชอบธรรมกว่ามาก เมื่อเทียบกับตอนที่นิตยสารสำหรับ CIO ส่วนใหญ่ลงบทความทำนองว่า "กลยุทธ์บล็อกเชนคืออะไร?"
- ฟองสบู่ AI จะแตก และน่าจะแตกอย่างเต็มที่ภายในปลายปี 2026
น่าสนใจที่จะดูว่าคูเมืองในวงการ AI อยู่ตรงไหน โมเดลฐานที่ดีมักจะถูกกลั่นได้เสมอเมื่อเข้าถึง API ได้ system prompt อาจรั่วไหลได้ และลูกเล่น UI ก็อาจถูกลอกได้ สุดท้ายแล้วคูเมืองอาจอยู่ที่ฮาร์ดแวร์และการบูรณาการแนวดิ่ง
DeepSeek กับ OpenAI สลับชื่อกันได้ไหม?
การโอเพนซอร์สเครื่องมือโครงสร้างพื้นฐานอาจเร่งนวัตกรรมในวงการ AI ได้จริง การเข้าถึงเรโปที่มีเอกสารดีทำให้ทดลองและต่อยอดจากงานที่มีอยู่ได้ง่ายขึ้นมาก
- สงสัยว่าเรโปเหล่านี้โฟกัสที่ด้านเฉพาะอย่างการฝึกแบบกระจายหรือการเสิร์ฟโมเดลหรือไม่
สงสัยว่าบริษัทโมเดลฐานที่ถูกทำให้เป็นโอเพนซอร์สอย่างชัดเจนโดย Facebook และ DeepSeek จะยังแข่งขันด้านมูลค่าประเมินได้อย่างไร เพราะเมื่อจีนและ Facebook แจกของพวกนี้แทบฟรี การสร้างโมเดลเหล่านี้ก็ดูไม่น่าจะสร้างมูลค่าระดับหลายแสนล้านดอลลาร์ได้

DeepSeek Open Infra: เปิดซอร์สโอเพนซอร์ส 5 คลัง AI ภายใน 5 วัน

Day 1: FlashMLA

Day 2: DeepEP

Day 3: DeepGEMM

Day 4: กลยุทธ์การประมวลผลแบบขนานที่ปรับแต่งแล้ว: DualPipe, EPLB, Profile-Data

Day 5: ระบบไฟล์ 3FS และเฟรมเวิร์กประมวลผลข้อมูล Smallpond

Day 6: เปิดเผยโครงสร้างระบบ inference ของ V3/R1 และต้นทุน/รายได้จากการดำเนินงาน

งานวิจัย AI infrastructure ปี 2024 (SC24)

Fire-Flyer AI-HPC: การออกแบบฮาร์ดแวร์-ซอฟต์แวร์ร่วมกันอย่างคุ้มค่าสำหรับดีพเลิร์นนิง

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News