- ฟอร์แมตไฟล์แบบ คอลัมน์เน้น แบบโอเพนซอร์สที่ออกแบบโดยตั้งสมมติฐานว่าจะทำงานบนฮาร์ดแวร์สมัยใหม่ (SIMD·GPU)
- มุ่งเป้าการเข้าถึงข้อมูลแบบ ปริมาณงานสูงและความหน่วงต่ำ สำหรับเวิร์กโหลดด้านการวิเคราะห์และ AI
- ทำได้ทั้ง อัตราการบีบอัดสูงกว่า Parquet ราว 40% และ ความเร็วในการถอดรหัสสูงสุดเร็วกว่า 40 เท่า
- นำเสนอ เลย์เอาต์แบบอิง Lane ที่ลดการพึ่งพากันของข้อมูลให้น้อยที่สุด ทำให้ถอดรหัสแต่ละหน่วยได้อย่างอิสระ
- รองรับ ความขนานของข้อมูลระดับสูงมาก บน SIMD·มัลติคอร์ CPU·GPU
- ออกแบบให้ทำงานกับการเวกเตอร์ไรซ์อัตโนมัติได้ดีโดยไม่ต้องเขียนโค้ด SIMD แบบ explicit
- เลือกใช้ แนวทางเข้าถึงข้อมูลเป็นแบตช์ขนาดเล็ก โดยคำนึงถึงคุณลักษณะแคชของ CPU·GPU
- รองรับ partial decompression ซึ่งประมวลผลได้โดยไม่ต้องคลายการบีบอัดทั้งหมด ทำให้เอนจินข้อมูล รันคิวรีได้ในสถานะที่ยังถูกบีบอัดอยู่
- ใช้ การบีบอัดหลายคอลัมน์ (Multi-Column Compression, MCC) เพื่ออาศัยความสัมพันธ์ระหว่างคอลัมน์
- มี กลไกการเข้ารหัสแบบอิงนิพจน์ เพื่อชดเชยข้อจำกัดแบบคอลัมน์เดี่ยวของฟอร์แมตจัดเก็บข้อมูลแบบเดิม
- โครงสร้างแบบ Zero-dependency ที่ไม่พึ่งพาไลบรารีภายนอก ช่วยให้การบิลด์เรียบง่าย
- มี language binding สำหรับภาษาหลักอย่าง C++, Python, Rust เป็นต้น
- มี API สำหรับแปลง CSV ↔ FastLanes ในตัว
- แปลงได้ง่ายด้วย
read_csv() / to_fls()
- รองรับการแปลงกลับด้วย
read_fls() / to_csv()
- กำลังพัฒนาโดยมุ่งสู่ การผสานรวมกับดาต้าสแตกยุคถัดไป เช่น GPU decoding และการเชื่อมต่อกับ Apache Arrow·DuckDB
ยังไม่มีความคิดเห็น