• ฟอร์แมตไฟล์แบบ คอลัมน์เน้น แบบโอเพนซอร์สที่ออกแบบโดยตั้งสมมติฐานว่าจะทำงานบนฮาร์ดแวร์สมัยใหม่ (SIMD·GPU)
  • มุ่งเป้าการเข้าถึงข้อมูลแบบ ปริมาณงานสูงและความหน่วงต่ำ สำหรับเวิร์กโหลดด้านการวิเคราะห์และ AI
  • ทำได้ทั้ง อัตราการบีบอัดสูงกว่า Parquet ราว 40% และ ความเร็วในการถอดรหัสสูงสุดเร็วกว่า 40 เท่า
  • นำเสนอ เลย์เอาต์แบบอิง Lane ที่ลดการพึ่งพากันของข้อมูลให้น้อยที่สุด ทำให้ถอดรหัสแต่ละหน่วยได้อย่างอิสระ
    • รองรับ ความขนานของข้อมูลระดับสูงมาก บน SIMD·มัลติคอร์ CPU·GPU
  • ออกแบบให้ทำงานกับการเวกเตอร์ไรซ์อัตโนมัติได้ดีโดยไม่ต้องเขียนโค้ด SIMD แบบ explicit
    • เลือกใช้ แนวทางเข้าถึงข้อมูลเป็นแบตช์ขนาดเล็ก โดยคำนึงถึงคุณลักษณะแคชของ CPU·GPU
  • รองรับ partial decompression ซึ่งประมวลผลได้โดยไม่ต้องคลายการบีบอัดทั้งหมด ทำให้เอนจินข้อมูล รันคิวรีได้ในสถานะที่ยังถูกบีบอัดอยู่
  • ใช้ การบีบอัดหลายคอลัมน์ (Multi-Column Compression, MCC) เพื่ออาศัยความสัมพันธ์ระหว่างคอลัมน์
    • มี กลไกการเข้ารหัสแบบอิงนิพจน์ เพื่อชดเชยข้อจำกัดแบบคอลัมน์เดี่ยวของฟอร์แมตจัดเก็บข้อมูลแบบเดิม
  • โครงสร้างแบบ Zero-dependency ที่ไม่พึ่งพาไลบรารีภายนอก ช่วยให้การบิลด์เรียบง่าย
    • มี language binding สำหรับภาษาหลักอย่าง C++, Python, Rust เป็นต้น
  • มี API สำหรับแปลง CSV ↔ FastLanes ในตัว
    • แปลงได้ง่ายด้วย read_csv() / to_fls()
    • รองรับการแปลงกลับด้วย read_fls() / to_csv()
  • กำลังพัฒนาโดยมุ่งสู่ การผสานรวมกับดาต้าสแตกยุคถัดไป เช่น GPU decoding และการเชื่อมต่อกับ Apache Arrow·DuckDB

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น