9 คะแนน โดย GN⁺ 2023-12-07 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • สตอเรจคลาส Low Latency ใหม่ของ AWS อย่าง "S3 Express One Zone" กำลังได้รับความสนใจในชุมชนโครงสร้างพื้นฐานข้อมูล
    • ความเร็วในการเข้าถึงข้อมูลเร็วขึ้น 10 เท่า และค่าใช้จ่ายของ API request ถูกลง 50% รองรับการประมวลผลได้หลายล้าน request ต่อนาที
  • สตอเรจคลาส S3 Express มีราคาสูงกว่า S3 Standard เดิม 8 เท่าต่อ GiB จึงไม่เหมาะจะใช้เป็นพื้นที่จัดเก็บ "หลัก" ของระบบข้อมูลขนาดใหญ่
  • แม้ต้นทุนของงาน API จะถูกลง 50% แต่ก็ไม่ได้ถูกมากจนทำให้เวิร์กโหลดที่ก่อนหน้านี้ไม่คุ้มเพราะค่าใช้จ่ายของ S3 API กลายเป็นเหมาะสมขึ้นมา
  • S3 Express คิดค่าบริการต่อ GiB สำหรับทุกงาน API (เขียน + อ่าน) ที่เกิน 512 KiB
    • มองอีกแบบคือทุกงาน API จะได้แบนด์วิดท์ "ฟรี" 512 KiB และจะจ่ายเงินเฉพาะส่วนที่เกินเท่านั้น
  • อย่างไรก็ตาม เนื่องจากเป็นสตอเรจคลาส One Zone ระบบข้อมูลจึงต้องทำ replication ข้อมูลไปยังสอง AZ ด้วยตนเองเพื่อรับมือกับความล้มเหลวของ AZ เดียว
    • ค่าใช้จ่ายของการเขียนข้อมูลซ้ำสองครั้งข้ามสอง AZ นั้นใกล้เคียงกับต้นทุนของการทำ replication ข้อมูลด้วยตนเองในชั้นแอปพลิเคชัน

โอกาสใหม่สำหรับโครงสร้างพื้นฐานข้อมูลสมัยใหม่

  • สตอเรจคลาสใหม่นี้เปิดโอกาสใหม่ให้สามารถปรับสมดุลระหว่าง latency ต่ำแต่ต้นทุนสูง กับ latency สูงแต่ต้นทุนต่ำได้ โดยใช้สถาปัตยกรรมและโค้ดชุดเดียวกัน
  • ตอนนี้ระบบข้อมูลสมัยใหม่ทั้งหมดไม่จำเป็นต้องออกแบบโดยอิงกับความพร้อมใช้งานของ local disk หรือ block storage (EBS) อีกต่อไป และสามารถสร้างทั้งหมดบนพื้นฐานของ object storage ได้
  • ข้อมูลสามารถถูกเก็บไว้ในบักเก็ต S3 Express แบบ latency ต่ำได้ง่าย ๆ แล้วจึงย้ายไปยังบักเก็ต S3 Standard แบบ asynchronous ภายหลัง และระบบข้อมูลสมัยใหม่ส่วนใหญ่ก็มีความสามารถในการบีบอัดอยู่แล้ว ทำให้ "storage tiering" แทบไม่มีต้นทุนเพิ่ม

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือมุมมองต่อการเปลี่ยนแปลงที่สตอเรจคลาสใหม่ S3 Express One Zone ของ AWS อาจนำมาสู่โครงสร้างพื้นฐานข้อมูล สตอเรจคลาสนี้มอบโอกาสใหม่ในการยกระดับทั้งต้นทุนและประสิทธิภาพของระบบข้อมูลอย่างมีนัยสำคัญ ซึ่งอาจนำไปสู่นวัตกรรมในวิธีจัดการและจัดเก็บข้อมูล โดยเฉพาะความสามารถในการสร้างระบบข้อมูลทั้งหมดโดยยึด object storage เป็นศูนย์กลาง น่าจะเป็นทางเลือกที่น่าสนใจสำหรับหลายบริษัทและนักพัฒนา การเปลี่ยนแปลงนี้คาดว่าจะทำให้อินฟราสตรักเจอร์ข้อมูลในอนาคตมีความยืดหยุ่นและคุ้มค่ามากยิ่งขึ้น

3 ความคิดเห็น

 
kuroneko 2023-12-07

สงสัยว่าจะถูกนำไปใช้อย่างไรนะ

 
heycalmdown 2023-12-07

พอดีเมื่อวานเพิ่งลองค้นหา WarpStream อีกครั้ง เลยแนบลิงก์ไว้ให้
https://th.news.hada.io/topic?id=10234

 
GN⁺ 2023-12-07
ความคิดเห็นจาก Hacker News
  • ระบบสตอเรจ/ฐานข้อมูลระดับโปรดักชันส่วนใหญ่ที่อิงกับ S3 ทุ่มเทความพยายามอย่างมากในการสร้างชั้นแคช SSD/หน่วยความจำเพื่อให้ได้ประสิทธิภาพที่ใช้งานจริง

    • S3 Express มีความเร็วในการอ่านแบบสุ่มใกล้เคียงกับ HDD ดังนั้นจึงสามารถสร้างระบบโปรดักชันได้โดยไม่ต้องมีแคช SSD
    • หลายระบบอาจยังคงใช้แคช SSD ต่อไป แต่ตอนนี้สามารถสร้าง MVP ได้โดยไม่ต้องมีแคช SSD และเวลาแฝงของ cold query ก็ลดลงอย่างมาก
    • ตอนนี้กำลังสร้าง vector database บน object storage อยู่พอดี ดังนั้นเทคโนโลยีนี้จึงมาได้ถูกจังหวะมาก
  • ค่าใช้จ่ายของ AWS S3 Express สูงกว่า S3 Standard 8 เท่า แต่สำหรับระบบจัดเก็บข้อมูลสมัยใหม่แล้วไม่ใช่ปัญหา

    • ข้อมูลสามารถจัดเก็บไว้ในบักเก็ต S3 Express แบบ low-latency ได้อย่างง่ายดาย แล้วบีบอัดและย้ายไปยังบักเก็ต S3 Standard แบบ asynchronous
    • ระบบข้อมูลสมัยใหม่ส่วนใหญ่มีความสามารถในการบีบอัดอยู่แล้ว ดังนั้น "storage tiering" จึงแทบจะฟรี
    • คาดว่าในอนาคต แอปที่ใช้ข้อมูลเข้มข้นส่วนใหญ่จะใช้ S3 เป็นชั้นสตอเรจหลัก
  • เมื่อไม่กี่สัปดาห์ก่อน มีการทดสอบ S3 Express กับเสิร์ชเอนจิน Quickwit

    • ในแง่ประสิทธิภาพถือว่าน่าพอใจ แต่ผิดหวังเรื่องราคา
    • สำหรับบาง use case ราคาอาจสมเหตุสมผล แต่คาดว่าผู้ใช้ส่วนใหญ่จะเพิ่ม local SSD caching ให้กับ S3 แบบเดิมแทน
  • เพิ่มบริบทอีกนิดว่า warpstream กำลังสร้างระบบสตรีมมิงที่เข้ากันได้กับ Kafka โดยใช้ S3 เป็น object store

    • วิธีนี้ช่วยลดต้นทุนการดำเนินงานและการบำรุงรักษาระบบ โดยอาศัยค่าใช้จ่ายในการโอนย้ายข้ามโซนที่ต่ำและ storage tiering อัตโนมัติ
    • เดิมที latency จากความเร็วอ่าน/เขียนของ S3 เป็นปัญหา แต่ด้วย S3 Express จึงสามารถแข่งขันกับผลิตภัณฑ์ managed ของ Confluent Kafka ได้ในแอปพลิเคชันที่ไวต่อ latency แบบนี้
  • แก้ปัญหาด้วยการแคชไฟล์ไว้ใน Redis ก่อนอัปโหลดไฟล์จากเครื่อง local ไปยัง S3

    • เมื่อโค้ดเบสต้องใช้ไฟล์ ก็จะตรวจสอบ Redis ก่อน ถ้าไม่มีจึงค่อยดึงมาแล้วแคชใหม่
  • ไม่เข้าใจว่าทำไม EFS ซึ่งดีกว่า S3 มากจึงไม่ได้รับความสนใจ

    • ระบบสามารถเมานต์เป็นไดรฟ์ได้ แชร์ระหว่างหลายระบบได้ และมี latency ต่ำมากอยู่แล้ว
    • เมื่อมี EFS อยู่แล้ว ก็ไม่แน่ใจว่า S3 Express จะมีประโยชน์จริงมากแค่ไหน
  • สงสัยว่าวลี "X is all you Need" ถูกใช้ครั้งแรกในงานวิจัย "Attention is all you need" หรือไม่

    • งานวิจัยนั้นเป็นผู้แนะนำ Transformer ให้โลกได้รู้จัก
  • ถ้านี่คือ S3 แบบ low-latency ที่เขียนด้วย Rust ก็แปลว่าในที่สุดก็เปิดตัวหลังจากพัฒนามาหลายปี

  • สงสัยว่ามี use case อะไรบ้างที่จะได้ประโยชน์จากชั้น S3 Express ใหม่ในแง่ประสิทธิภาพ และต้นทุนที่เพิ่มขึ้น 8 เท่าจะคุ้มค่าหรือไม่

  • หลาย implementation ของ S3 ดูเหมือนเป็นเพียงการดาวน์โหลดลงดิสก์แบบโปร่งใส แต่ในความเป็นจริงมันไม่ใช่การ "ใช้เครือข่ายแทนดิสก์"