5 คะแนน โดย GN⁺ 2024-11-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แนะนำ Regatta Storage

    • Regatta Storage คือระบบไฟล์คลาวด์แบบใหม่ที่ให้ความจุไม่จำกัด รองรับประสิทธิภาพระดับเดียวกับโลคัล และซิงก์อัตโนมัติไปยังสตอเรจที่เข้ากันได้กับ S3
    • ทำให้เข้าถึงชุดข้อมูลขนาดใหญ่บน S3 ได้ทันทีด้วยเครื่องมืออย่าง Spark, Pytorch และ pandas
    • สามารถสมัครบัญชีเพื่อทดลองใช้บริการได้ฟรี
  • ที่มาของการพัฒนา

    • ผู้ก่อตั้งพัฒนา Regatta จากประสบการณ์ในการสร้างและดูแลคลาวด์สตอเรจที่ Amazon EFS และ Netflix
    • แม้จะชื่นชอบความเรียบง่ายและการขยายตัวของ EFS แต่ที่ Netflix กลับมีการใช้งาน EFS ไม่มากนัก
    • เมื่อย้ายเวิร์กโหลดจากดิสก์โลคัลไปยัง NFS ก็พบปัญหาด้านประสิทธิภาพ
    • Regatta จึงถูกสร้างขึ้นเพื่อแก้ปัญหาในตลาดคลาวด์สตอเรจที่บล็อกสตอเรจหรือไฟล์สตอเรจเดิมยังแก้ไม่ได้
  • จุดเด่นของ Regatta

    • เป็นระบบไฟล์คลาวด์แบบคิดค่าบริการตามการใช้งานที่ขยายตัวอัตโนมัติไปพร้อมกับแอปพลิเคชัน
    • ซิงก์กับ S3 ในรูปแบบไฟล์เนทีฟโดยอัตโนมัติ จึงเชื่อมต่อกับชุดข้อมูลเดิมได้ และใช้ข้อมูลไฟล์จาก S3 ได้โดยตรง
    • ข้อมูลที่ไม่ได้ใช้งานจะถูกลบออกจากแคชของ Regatta ทำให้จ่ายเฉพาะค่าใช้จ่ายของ S3 storage
    • กำลังพัฒนาโปรโตคอลไฟล์แบบคัสตอมที่ให้ประสิทธิภาพระดับโลคัลสำหรับเวิร์กโหลดไฟล์ขนาดเล็ก และให้ความสามารถในการขยายระบบแบบเดียวกับ Lustre สำหรับงานข้อมูลแบบกระจาย
  • การทำงานทางเทคนิค

    • ลูกค้าสามารถเมานต์ระบบไฟล์ Regatta ผ่าน NFSv3 และอินสแตนซ์แคชจะเชื่อมต่อกับ S3 bucket ของลูกค้า
    • ให้ประสิทธิภาพการอ่านและเขียนจากแคชระดับต่ำกว่ามิลลิวินาที พร้อมรักษาความสอดคล้องอย่างเข้มงวด
    • สามารถจัดการงานซับซ้อนอย่างการเปลี่ยนชื่อไดเรกทอรีได้อย่างรวดเร็วและเชื่อถือได้ และค่อยเผยแพร่ไปยัง S3 bucket แบบอะซิงโครนัส
  • กรณีใช้งานและความคาดหวัง

    • ถูกนำไปใช้สร้างเซิร์ฟเวอร์ Jupyter Notebook แบบ serverless สำหรับนักวิจัย AI
    • ใช้เป็นชั้น distributed caching บน S3 เพื่อเข้าถึงไฟล์ที่ใช้ร่วมกันด้วยค่าหน่วงต่ำ
    • ใช้แทน Ceph boot volume และช่วยลดต้นทุนได้
    • ยินดีรับฟังฟีดแบ็กจากผู้ใช้และไอเดียเกี่ยวกับทิศทางในอนาคต พร้อมรอความคิดเห็นจากชุมชน

1 ความคิดเห็น

 
GN⁺ 2024-11-19
ความคิดเห็นใน Hacker News
  • ความแตกต่างระหว่าง Rclone กับ Regatta Storage คือ Regatta ใช้เลเยอร์แคชความเร็วสูงระหว่างการแก้ไขเปลี่ยนแปลงไฟล์ระบบ เพื่อให้มีความสอดคล้องกันอย่างเข้มงวด ส่วน Rclone ไม่มีเลเยอร์ที่รับประกันความสอดคล้องระหว่างไคลเอนต์แบบขนาน

    • Regatta Storage ใช้เลเยอร์แคชความเร็วสูงระหว่างการแก้ไขเปลี่ยนแปลงไฟล์ระบบ เพื่อให้มีความสอดคล้องกันอย่างเข้มงวด
    • Rclone ไม่มีเลเยอร์ที่รับประกันความสอดคล้องระหว่างไคลเอนต์แบบขนาน
  • เป็นหนึ่งในผลิตภัณฑ์ที่เจ๋งที่สุดจาก YC และมีคำถามหลายข้อเกี่ยวกับวิธีการทำงาน

    • สงสัยว่าจะมีประสิทธิภาพลดลงหรือไม่เมื่อจัดการข้อมูลขนาดราว 50GB บนดิสก์ภายในเครื่องขนาด 10GB
    • สงสัยว่าสามารถได้ความเร็วสูงบนคลาวด์เจ้าอื่นนอกเหนือจาก AWS หรือไม่
    • มีข้อสงสัยเกี่ยวกับวิธีการใช้การเมานต์ FUSE และ NFS
    • สงสัยว่าสามารถรัน Clickhouse หรือ Postgres บน Regatta volume ได้หรือไม่
    • สงสัยว่าบริษัทมีแนวคิดอย่างไรเกี่ยวกับโอเพนซอร์ส
    • สงสัยว่าสามารถเมานต์บนหลายเซิร์ฟเวอร์ได้หรือไม่ และมีข้อจำกัดอะไรบ้าง
  • กำลังโฮสต์ DuckDB โดยใช้ GCP Filestore และขอข้อมูลเกี่ยวกับราคาและประสิทธิภาพของ Regatta

    • ขอข้อมูลราคาและประสิทธิภาพของอินสแตนซ์ขนาด 10 TiB
  • สนใจใช้เป็นดิสก์สำรองสำหรับ SQLite/DuckDB/parquet และต้องการการอ่านแบบแคชจากสตอเรจ NVMe ภายในเครื่องของอินสแตนซ์

    • ต้องการความสามารถด้านการล็อกและ shared memory ที่ NFS ให้ไม่ได้
    • สามารถทำเองได้โดยตรงใน user space แต่ถ้าจะทำแบบนั้นก็จะใช้ S3 ไปเลย
  • คิดว่าการใช้ NFS เป็นโปรโตคอลเป็นไอเดียที่ดี

    • เคยมีประสบการณ์เขียนระบบไฟล์แบบเข้ารหัสที่มีแนวคิดคล้ายกันที่ IBM
    • เวลาที่เมานต์ไฟล์ระบบแล้วข้อมูลทั้งหมด "อยู่ตรงนั้นเลย" ให้ความรู้สึกเหมือนเวทมนตร์
  • มีความกังวลว่า AWS อาจคัดลอกผลิตภัณฑ์นี้และขายในราคาที่ถูกกว่า

  • เคยมีประสบการณ์เดโมต่อหน้า CEO ของ Adobe ในปี 2008 โดยถ่ายรูปด้วย iPhone แล้วรูปนั้นปรากฏเป็นไฟล์บน Mac โดยอัตโนมัติได้สำเร็จ

    • ใช้ FUSE เพื่อทำ local FUSE ที่สื่อสารกับระบบ distributed object storage ของ Adobe
    • เริ่มทำวิจัยและพัฒนาระบบ distributed system พร้อมกับการเปิดตัวของ Dropbox
  • สงสัยว่าสามารถใช้ Lambda + SQLite + Regatta เพื่อสร้าง real-time ACID SQL storage ได้หรือไม่

  • ยังไม่ชัดเจนว่าจัดการกับการชนกันของการอัปเดตไฟล์อย่างไร

    • ตัวอย่างเช่น หากผู้ใช้สองคนอัปเดตไฟล์เดียวกันจากคนละเครื่อง ไฟล์สุดท้ายจะออกมาเป็นอย่างไร
  • มีทางเลือกที่น่าสนใจอื่น ๆ เช่น s3fs, rclone, goofys เป็นต้น