- ทีม DeepSeek AI กำลังพยายามก้าวข้ามขีดจำกัดในการสำรวจ AGI
- เริ่มตั้งแต่สัปดาห์หน้า จะมีการ เปิดซอร์สโอเพนซอร์ส 5 คลัง เพื่อแบ่งปันความก้าวหน้าเล็ก ๆ ในฐานะนักพัฒนาอย่างโปร่งใส
- สิ่งเหล่านี้คือองค์ประกอบพื้นฐานของบริการออนไลน์ เป็นโค้ดที่มีการจัดทำเอกสาร ดีพลอยแล้ว และผ่านการทดสอบในสภาพแวดล้อมจริง
- จะมีการเผยแพร่โค้ดใหม่ทุกวัน เพื่อกระตุ้นนวัตกรรมที่ขับเคลื่อนโดยชุมชน
- เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ Hopper GPU
- ปรับแต่งให้เหมาะกับการให้บริการซีเควนซ์ความยาวแปรผัน
- สิ่งที่ปล่อยออกมาในตอนนี้
- BF16
- 64 block-size Paged kvcache
- เบนช์มาร์ก: บน H800 SXM5 โดยใช้ CUDA 12.6 ทำได้สูงสุด 3000GB/s ในคอนฟิกแบบ memory-bound และ 580 TFLOPS ในคอนฟิกแบบ compute-bound
- ไลบรารีสื่อสารประสิทธิภาพสูง สำหรับ Mixture-of-Experts(MoE) และ Expert Parallelism(EP)
- มี All-to-All kernel บน GPU เพื่อเร่งงาน dispatch และ combine ของ MoE
- รองรับการคำนวณความแม่นยำต่ำ เช่น FP8
- ใช้ อัลกอริทึม group-limited gating ที่เสนอในงานวิจัย DeepSeek-V3 เพื่อเพิ่มประสิทธิภาพ asymmetric domain bandwidth forwarding
- ตัวอย่าง: ปรับแต่งการส่งข้อมูล NVLink → RDMA
- ให้ throughput สูง เหมาะกับงานเทรนและงาน inference prefilling
- มี low-latency kernel สำหรับ RDMA โดยเฉพาะ สำหรับงาน inference decoding ที่ไวต่อ latency
- มี เทคนิค communication-computation overlap (ไม่ยึดทรัพยากร SM)
- ไลบรารีสำหรับทำ FP8 matrix multiplication (GEMM) อย่างมีประสิทธิภาพ และรองรับวิธี fine-grained scaling ที่เสนอใน DeepSeek-V3
- รองรับทั้ง GEMM ทั่วไปและ Mix-of-Experts(MoE) grouped GEMM
- พัฒนาด้วย CUDA และตอนติดตั้งไม่ต้องคอมไพล์แยก โดยใช้ โมดูล Just-In-Time(JIT) แบบน้ำหนักเบา เพื่อคอมไพล์เคอร์เนลตอนรันไทม์
- ปัจจุบันรองรับเฉพาะ NVIDIA Hopper Tensor Core
- ใช้ dual accumulation (promotion) บน CUDA core เพื่อชดเชยปัญหาการสะสมค่าที่ไม่แม่นยำของ FP8 Tensor Core
- ใช้บางแนวคิดจาก CUTLASS และ CuTe แต่ลดการพึ่งพาเทมเพลตที่ซับซ้อนลง ทำให้เป็นดีไซน์เรียบง่ายที่มี โค้ดเคอร์เนลเพียงราว 300 บรรทัด
- เหมาะสำหรับเรียนรู้การคำนวณเมทริกซ์ FP8 และเทคนิคการปรับแต่งบน Hopper
- แม้เป็นดีไซน์น้ำหนักเบา แต่ก็ให้ ประสิทธิภาพใกล้เคียงหรือดีกว่าไลบรารีที่จูนระดับผู้เชี่ยวชาญ ในเมทริกซ์หลายขนาด
- กลยุทธ์และโค้ดที่ใช้ใน DeepSeek V3/R1
- DualPipe : อัลกอริทึม pipeline parallelism แบบสองทิศทางสำหรับ overlap ระหว่างการคำนวณกับการสื่อสาร
- EPLB: ตัวทำโหลดบาลานซ์แบบ Expert-Parallel
- Profile-Data: การทำ data profiling ของโครงสร้างพื้นฐาน DeepSeek เพื่อวิเคราะห์ computation-communication overlap
- Fire-Flyer File System(3FS) คือระบบไฟล์แบบกระจายประสิทธิภาพสูงที่ออกแบบมาเพื่อรองรับเวิร์กโหลด AI training และ inference
- ใช้ SSD รุ่นใหม่และเครือข่าย RDMA เพื่อให้ชั้น shared storage และลดความซับซ้อนในการพัฒนาแอปพลิเคชันแบบกระจาย
- คุณสมบัติและข้อดีหลัก
- ประสิทธิภาพและการใช้งาน
- สถาปัตยกรรมแบบแยกส่วน: รวมแบนด์วิดท์ของ SSD หลายพันตัวและเครือข่ายของ storage node หลายร้อยโหนด ทำให้เข้าถึงทรัพยากรจัดเก็บข้อมูลได้โดยไม่ขึ้นกับ locality
- การรับประกันความสอดคล้องที่แข็งแกร่ง: ใช้ Chain Replication with Apportioned Queries(CRAQ) เพื่อคงความสอดคล้องและทำให้โค้ดแอปพลิเคชันง่ายขึ้น
- รองรับ file interface: ให้บริการ metadata แบบ stateless โดยอาศัย transaction key-value store บน FoundationDB จึงใช้ file interface เดิมได้โดยไม่ต้องเรียนรู้ storage API ใหม่
- รองรับเวิร์กโหลดหลากหลาย
- การเตรียมข้อมูล: จัดระเบียบเอาต์พุตของ data analysis pipeline เป็นโครงสร้างไดเรกทอรีแบบลำดับชั้น และจัดการเอาต์พุตชั่วคราวปริมาณมากได้อย่างมีประสิทธิภาพ
- การปรับแต่ง data loader: เข้าถึงตัวอย่างสำหรับการเทรนแบบสุ่มได้จากหลาย compute node โดยไม่ต้อง preload หรือ shuffle ชุดข้อมูลล่วงหน้า
- การบันทึก checkpoint: รองรับการบันทึก checkpoint แบบขนานความเร็วสูงสำหรับการเทรนขนาดใหญ่
- การปรับแต่ง inference บน KVCache: คุ้มค่ากว่าแคชบน DRAM และรองรับทั้ง throughput สูงกับความจุขนาดใหญ่
- SmallPond - เฟรมเวิร์กประมวลผลข้อมูลแบบน้ำหนักเบาที่สร้างบน DuckDB และ 3FS
- จุดเด่นคือประมวลผลข้อมูลได้ประสิทธิภาพสูง ขยายขนาดได้มาก และใช้งานง่าย
- การประมวลผลข้อมูลประสิทธิภาพสูง: ใช้ DuckDB เพื่อประมวลผลข้อมูลได้รวดเร็ว
- รองรับชุดข้อมูลขนาดใหญ่: ประมวลผลข้อมูลระดับเพตะไบต์(PB) ได้
- ใช้งานและดูแลง่าย: ใช้งานได้สะดวกโดยไม่ต้องมีบริการที่รันระยะยาว
- หลักการออกแบบระบบ: เป้าหมายการปรับแต่งของระบบ inference DeepSeek-V3/R1 คือ throughput สูงขึ้นและ latency ต่ำลง
- เพื่อสิ่งนี้จึงใช้ cross-node Expert Parallelism(EP) เพื่อเพิ่มประสิทธิภาพ
- ต้นทุนการดำเนินงานของ DeepSeek
- ใช้ GPU เฉลี่ย 226 โหนด (โหนดละ H800 GPU 8 ตัว)
- ต้นทุนการดำเนินงานต่อวัน: $87,072 (127 ล้านวอน) - H800 ละ $2/ชั่วโมง
- รายได้ต่อวันตามทฤษฎี (อิง R1): $562027 (820 ล้านวอน) → อัตรากำไร 545%
- อย่างไรก็ตาม รายได้จริงต่ำกว่านี้ (เพราะ V3 ถูกกว่า R1 และมีเพียงบางส่วนของบริการที่สร้างรายได้)
งานวิจัย AI infrastructure ปี 2024 (SC24)
Fire-Flyer AI-HPC: การออกแบบฮาร์ดแวร์-ซอฟต์แวร์ร่วมกันอย่างคุ้มค่าสำหรับดีพเลิร์นนิง
- จาก ความก้าวหน้าอย่างรวดเร็วของ deep learning(DL) และ large language model(LLM) ความต้องการด้านสมรรถนะการประมวลผลและแบนด์วิดท์จึงเพิ่มขึ้นแบบทวีคูณ
- ต้นทุนในการสร้าง high-performance computing(HPC) เพิ่มสูงขึ้นอย่างรวดเร็วจากราคาที่แพงของชิปประมวลผลความเร็วสูงและ interconnect ความเร็วสูง
- เพื่อแก้ปัญหานี้ จึงนำเสนอ สถาปัตยกรรม Fire-Flyer AI-HPC ที่บรรลุการเพิ่มประสิทธิภาพด้านต้นทุนและสมรรถนะผ่านการออกแบบความร่วมมือระหว่างฮาร์ดแวร์กับซอฟต์แวร์
- สร้างระบบ Fire-Flyer 2 ที่ใช้ PCIe A100 GPU จำนวน 10,000 ตัว สำหรับการเทรน DL
- ให้ประสิทธิภาพใกล้เคียง DGX-A100 แต่ ลดต้นทุนลงครึ่งหนึ่งและลดการใช้พลังงานลง 40%
- องค์ประกอบของการปรับแต่งประสิทธิภาพ
- HFReduce : เร่งการสื่อสาร Allreduce เพื่อเพิ่มความเร็วการซิงก์ข้อมูลระหว่าง GPU
- Computation-Storage Integrated Network : ใช้เทคนิคจัดการความหนาแน่นของทราฟฟิกหลายรูปแบบเพื่อหลีกเลี่ยงคอขวดของเครือข่าย
- ซอฟต์แวร์สแตก : ผ่าน HaiScale, 3FS, HAI-Platform เพื่อรันการคำนวณและการสื่อสารแบบซ้อนทับกันและเพิ่ม scalability ให้สูงสุด
2 ความคิดเห็น
DeepSeek เดินหน้าได้อย่างน่าสนใจจริง ๆ ครับ น่าอยากรู้ว่าจะมีอะไรถูกเปิดเผยออกมาบ้าง
ความคิดเห็นจาก Hacker News
สงสัยว่าตัวเองเป็นคนเดียวหรือเปล่าที่ตั้งตารอการปล่อยของ DeepSeek แต่ไม่ได้วิเคราะห์เกินเหตุ เธรดนี้ให้ความรู้สึกว่าเต็มไปด้วยการตีความส่วนตัว
ตั้งแต่สัปดาห์หน้า จะโอเพนซอร์ส 5 เรโป โดยจะปล่อยวันละหนึ่งตัว
ขอแสดงความนับถืออย่างยิ่งต่อความนวัตกรรมและงานวิจัยของ DeepSeek ต่อทุกสิ่งที่พวกเขาเผยแพร่ออกมา
ที่จริงแล้วพวกเขากำลังรื้อ OpenAI ออกทั้งหมด น่าจะไม่ว่าตั้งใจหรือไม่ก็ตาม
น่าสนใจที่จะดูว่าคูเมืองในวงการ AI อยู่ตรงไหน โมเดลฐานที่ดีมักจะถูกกลั่นได้เสมอเมื่อเข้าถึง API ได้ system prompt อาจรั่วไหลได้ และลูกเล่น UI ก็อาจถูกลอกได้ สุดท้ายแล้วคูเมืองอาจอยู่ที่ฮาร์ดแวร์และการบูรณาการแนวดิ่ง
DeepSeek กับ OpenAI สลับชื่อกันได้ไหม?
การโอเพนซอร์สเครื่องมือโครงสร้างพื้นฐานอาจเร่งนวัตกรรมในวงการ AI ได้จริง การเข้าถึงเรโปที่มีเอกสารดีทำให้ทดลองและต่อยอดจากงานที่มีอยู่ได้ง่ายขึ้นมาก
สงสัยว่าบริษัทโมเดลฐานที่ถูกทำให้เป็นโอเพนซอร์สอย่างชัดเจนโดย Facebook และ DeepSeek จะยังแข่งขันด้านมูลค่าประเมินได้อย่างไร เพราะเมื่อจีนและ Facebook แจกของพวกนี้แทบฟรี การสร้างโมเดลเหล่านี้ก็ดูไม่น่าจะสร้างมูลค่าระดับหลายแสนล้านดอลลาร์ได้