เปิดตัวบน HN: Regatta Storage (YC F24) – เทคโนโลยีที่แปลง S3 ให้เป็นระบบไฟล์คลาวด์แบบ POSIX คล้ายโลคัล
(news.ycombinator.com)-
แนะนำ Regatta Storage
- Regatta Storage คือระบบไฟล์คลาวด์แบบใหม่ที่ให้ความจุไม่จำกัด รองรับประสิทธิภาพระดับเดียวกับโลคัล และซิงก์อัตโนมัติไปยังสตอเรจที่เข้ากันได้กับ S3
- ทำให้เข้าถึงชุดข้อมูลขนาดใหญ่บน S3 ได้ทันทีด้วยเครื่องมืออย่าง Spark, Pytorch และ pandas
- สามารถสมัครบัญชีเพื่อทดลองใช้บริการได้ฟรี
-
ที่มาของการพัฒนา
- ผู้ก่อตั้งพัฒนา Regatta จากประสบการณ์ในการสร้างและดูแลคลาวด์สตอเรจที่ Amazon EFS และ Netflix
- แม้จะชื่นชอบความเรียบง่ายและการขยายตัวของ EFS แต่ที่ Netflix กลับมีการใช้งาน EFS ไม่มากนัก
- เมื่อย้ายเวิร์กโหลดจากดิสก์โลคัลไปยัง NFS ก็พบปัญหาด้านประสิทธิภาพ
- Regatta จึงถูกสร้างขึ้นเพื่อแก้ปัญหาในตลาดคลาวด์สตอเรจที่บล็อกสตอเรจหรือไฟล์สตอเรจเดิมยังแก้ไม่ได้
-
จุดเด่นของ Regatta
- เป็นระบบไฟล์คลาวด์แบบคิดค่าบริการตามการใช้งานที่ขยายตัวอัตโนมัติไปพร้อมกับแอปพลิเคชัน
- ซิงก์กับ S3 ในรูปแบบไฟล์เนทีฟโดยอัตโนมัติ จึงเชื่อมต่อกับชุดข้อมูลเดิมได้ และใช้ข้อมูลไฟล์จาก S3 ได้โดยตรง
- ข้อมูลที่ไม่ได้ใช้งานจะถูกลบออกจากแคชของ Regatta ทำให้จ่ายเฉพาะค่าใช้จ่ายของ S3 storage
- กำลังพัฒนาโปรโตคอลไฟล์แบบคัสตอมที่ให้ประสิทธิภาพระดับโลคัลสำหรับเวิร์กโหลดไฟล์ขนาดเล็ก และให้ความสามารถในการขยายระบบแบบเดียวกับ Lustre สำหรับงานข้อมูลแบบกระจาย
-
การทำงานทางเทคนิค
- ลูกค้าสามารถเมานต์ระบบไฟล์ Regatta ผ่าน NFSv3 และอินสแตนซ์แคชจะเชื่อมต่อกับ S3 bucket ของลูกค้า
- ให้ประสิทธิภาพการอ่านและเขียนจากแคชระดับต่ำกว่ามิลลิวินาที พร้อมรักษาความสอดคล้องอย่างเข้มงวด
- สามารถจัดการงานซับซ้อนอย่างการเปลี่ยนชื่อไดเรกทอรีได้อย่างรวดเร็วและเชื่อถือได้ และค่อยเผยแพร่ไปยัง S3 bucket แบบอะซิงโครนัส
-
กรณีใช้งานและความคาดหวัง
- ถูกนำไปใช้สร้างเซิร์ฟเวอร์ Jupyter Notebook แบบ serverless สำหรับนักวิจัย AI
- ใช้เป็นชั้น distributed caching บน S3 เพื่อเข้าถึงไฟล์ที่ใช้ร่วมกันด้วยค่าหน่วงต่ำ
- ใช้แทน Ceph boot volume และช่วยลดต้นทุนได้
- ยินดีรับฟังฟีดแบ็กจากผู้ใช้และไอเดียเกี่ยวกับทิศทางในอนาคต พร้อมรอความคิดเห็นจากชุมชน
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
ความแตกต่างระหว่าง Rclone กับ Regatta Storage คือ Regatta ใช้เลเยอร์แคชความเร็วสูงระหว่างการแก้ไขเปลี่ยนแปลงไฟล์ระบบ เพื่อให้มีความสอดคล้องกันอย่างเข้มงวด ส่วน Rclone ไม่มีเลเยอร์ที่รับประกันความสอดคล้องระหว่างไคลเอนต์แบบขนาน
เป็นหนึ่งในผลิตภัณฑ์ที่เจ๋งที่สุดจาก YC และมีคำถามหลายข้อเกี่ยวกับวิธีการทำงาน
กำลังโฮสต์ DuckDB โดยใช้ GCP Filestore และขอข้อมูลเกี่ยวกับราคาและประสิทธิภาพของ Regatta
สนใจใช้เป็นดิสก์สำรองสำหรับ SQLite/DuckDB/parquet และต้องการการอ่านแบบแคชจากสตอเรจ NVMe ภายในเครื่องของอินสแตนซ์
คิดว่าการใช้ NFS เป็นโปรโตคอลเป็นไอเดียที่ดี
มีความกังวลว่า AWS อาจคัดลอกผลิตภัณฑ์นี้และขายในราคาที่ถูกกว่า
เคยมีประสบการณ์เดโมต่อหน้า CEO ของ Adobe ในปี 2008 โดยถ่ายรูปด้วย iPhone แล้วรูปนั้นปรากฏเป็นไฟล์บน Mac โดยอัตโนมัติได้สำเร็จ
สงสัยว่าสามารถใช้ Lambda + SQLite + Regatta เพื่อสร้าง real-time ACID SQL storage ได้หรือไม่
ยังไม่ชัดเจนว่าจัดการกับการชนกันของการอัปเดตไฟล์อย่างไร
มีทางเลือกที่น่าสนใจอื่น ๆ เช่น s3fs, rclone, goofys เป็นต้น