- Fire-Flyer File System(3FS) เป็นระบบไฟล์แบบกระจายประสิทธิภาพสูงที่ออกแบบมาเพื่อรองรับเวิร์กโหลดการฝึกและการอนุมานของ AI
- ใช้ประโยชน์จาก SSD รุ่นใหม่และเครือข่าย RDMA เพื่อให้มีชั้นจัดเก็บข้อมูลแบบแชร์ และช่วยทำให้การพัฒนาแอปพลิเคชันแบบกระจายง่ายขึ้น
คุณสมบัติเด่นและข้อดี
- ประสิทธิภาพและความสะดวกในการใช้งาน
- สถาปัตยกรรมแบบแยกส่วน: รวมแบนด์วิดท์เครือข่ายของ SSD หลายพันตัวและสตอเรจโหนดหลายร้อยโหนดเข้าด้วยกัน ทำให้เข้าถึงทรัพยากรสตอเรจได้โดยไม่ขึ้นกับ locality
- การรับประกันความสอดคล้องที่แข็งแกร่ง: ใช้ Chain Replication with Apportioned Queries(CRAQ) เพื่อรักษาความสอดคล้อง ช่วยให้โค้ดแอปพลิเคชันเรียบง่ายขึ้น
- รองรับอินเทอร์เฟซไฟล์: ให้บริการเมทาดาทาแบบ stateless โดยใช้ transactional key-value store บน FoundationDB เนื่องจากใช้อินเทอร์เฟซไฟล์แบบเดิม จึงไม่จำเป็นต้องเรียนรู้ storage API ใหม่
- รองรับเวิร์กโหลดที่หลากหลาย
- การเตรียมข้อมูล: จัดระเบียบผลลัพธ์ของ data analysis pipeline ให้อยู่ในโครงสร้างไดเรกทอรีแบบลำดับชั้น และจัดการผลลัพธ์ระหว่างทางจำนวนมากได้อย่างมีประสิทธิภาพ
- การปรับแต่ง data loader ให้เหมาะสม: เข้าถึงตัวอย่างสำหรับการฝึกแบบสุ่มจากหลาย compute node ได้ โดยไม่จำเป็นต้อง preload หรือ shuffle ชุดข้อมูลล่วงหน้า
- การจัดเก็บ checkpoint: รองรับการบันทึก checkpoint แบบขนานความเร็วสูงสำหรับการฝึกขนาดใหญ่
- การปรับแต่งการอนุมานบน KVCache: คุ้มค่าด้านต้นทุนมากกว่าการแคชบน DRAM และรองรับทั้ง throughput สูงกับความจุในการจัดเก็บขนาดใหญ่
การทดสอบประสิทธิภาพ
- การทดสอบ throughput สูงสุด
- สตอเรจโหนด 180 โหนด (แต่ละโหนดติดตั้ง InfiniBand NIC 2×200Gbps และ NVMe SSD 14TiB จำนวน 16 ตัว)
- ไคลเอนต์โหนดมากกว่า 500 โหนด (แต่ละโหนดติดตั้ง InfiniBand NIC 1×200Gbps)
- ในการทดสอบภาระการอ่านที่รันแบบขนานกับงานฝึก AI บันทึก throughput รวมได้ 6.6TiB/s
- การทดสอบเบนช์มาร์ก GraySort
- สตอเรจโหนด 25 โหนด (แต่ละโหนดมี 2 NUMA domain และ NIC 2×400Gbps)
- compute node 50 โหนด (192 physical core, RAM 2.2TiB, NIC 1×200Gbps)
- จัดเรียงข้อมูล 110.5TiB (8,192 พาร์ทิชัน) ได้ใน 30 นาที 14 วินาที ทำ throughput เฉลี่ยได้ 3.66TiB/min
- การทดสอบประสิทธิภาพ KVCache
- ระหว่างการอนุมานของโมเดลภาษาขนาดใหญ่ (LLM) มีการแคชเวกเตอร์คีย์-ค่าเพื่อลดการคำนวณที่ไม่จำเป็น
- บันทึก peak read throughput ได้ 40GiB/s
- รวมถึงการวิเคราะห์ประสิทธิภาพของงานลบ (IOPS) ระหว่างการทำงานของ Garbage Collection(GC)
- จุดเด่นคือประสิทธิภาพการประมวลผลข้อมูลสูง การขยายสเกลขนาดใหญ่ และการปฏิบัติการที่เรียบง่าย
- การประมวลผลข้อมูลประสิทธิภาพสูง: ใช้ DuckDB เพื่อประมวลผลข้อมูลได้อย่างรวดเร็ว
- รองรับชุดข้อมูลขนาดใหญ่: ประมวลผลข้อมูลระดับเพตะไบต์ (PB) ได้
- ใช้งานและดูแลง่าย: ใช้งานได้สะดวกโดยไม่ต้องมีบริการที่รันระยะยาว
ยังไม่มีความคิดเห็น