6 คะแนน โดย GN⁺ 2024-02-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในช่วงไม่กี่ปีที่ผ่านมา SSD ที่ใช้หน่วยความจำแฟลชแทนที่ดิสก์ได้ในงานเก็บข้อมูลส่วนใหญ่
  • SSD ประกอบด้วยชิปแฟลชอิสระหลายตัว ซึ่งสามารถเข้าถึงได้แบบขนาน
  • ความเร็วในการประมวลผลของ SSD พึ่งพาความเร็วอินเทอร์เฟซกับโฮสต์เป็นหลัก
  • ในช่วง 6 ปีที่ผ่านมามีการเปลี่ยนผ่านอย่างรวดเร็วจาก SATA สู่ PCIe 3.0, PCIe 4.0 และ PCIe 5.0 ซึ่งทำให้ throughput ของ SSD พุ่งสูงอย่างมาก
  • ยิ่งไปกว่านั้น ความจุต่อดอลลาร์ก็เพิ่มขึ้นนอกจากประสิทธิภาพที่ดีขึ้น
  • การเปลี่ยนแปลงเหล่านี้เกิดขึ้นได้เพราะมาตรฐานเปิดอย่าง NVMe และ PCIe, ความต้องการที่สูงมาก และการแข่งขันระหว่างผู้จัดจำหน่ายที่รุนแรง
  • ในปัจจุบัน SSD data center PCIe 5.0 ทำ throughput การอ่านสูงสุดได้ถึง 13 GB/s และ IOPS การอ่านแบบสุ่มมากกว่า 2.7 ล้าน
  • เซิร์ฟเวอร์สมัยใหม่มีเลน PCIe อยู่ประมาณ 100 เส้น ทำให้สามารถใช้ SSD หลายตัวในหนึ่งเซิร์ฟเวอร์ที่แบนด์วิธสูงสุดได้

ความชะงักงันของประสิทธิภาพ SSD ในคลาวด์

  • AWS EC2 เปิดตัวอินสแตนซ์ i3 ที่มี NVMe SSD ในระยะแรกตั้งแต่ต้นปี 2017
  • ขณะนั้น NVMe SSD ค่อนข้างมีราคาแพง และการมีถึง 8 ตัวต่อเครื่องถือเป็นเรื่องน่าทึ่ง
  • อย่างไรก็ตาม หลังจากผ่านไป 7 ปี ความเร็วต่อ SSD ก็ยังคงอยู่ที่ 2 GB/s
  • อินสแตนซ์ i3 และ i3en ยังคงเป็นตัวเลือกที่ดีที่สุดของ EC2 ในเรื่อง IO/$ และ SSD/GB
  • ช่องว่างระหว่าง SSD ที่ผู้ให้บริการคลาวด์เสนอกับ SSD รุ่นใหม่ล่าสุดใกล้เคียง 10 เท่าในทั้งการอ่าน การเขียน และ IOPS
  • ความชะงักงันดังกล่าวในคลาวด์ขัดแย้งกับความก้าวหน้าอย่างมากในพื้นที่อื่นๆ
  • ตัวอย่างเช่น แบนด์วิดธ์เครือข่ายของ EC2 เพิ่มจาก 10 Gbit/s สู่ 200 Gbit/s อย่างมากตั้งแต่ปี 2017 ถึง 2023
  • มีข้อสันนิษฐานหลายประการว่าทำไมผู้ให้บริการคลาวด์ถึงยังไม่พัฒนาด้านการจัดเก็บข้อมูล
    • มีสมมติฐานว่าการจำกัดความเร็วการเขียนของ EC2 ที่ 1 GB/s อย่างเจตนาอาจช่วยหลีกเลี่ยงการเสียหายของอุปกรณ์
    • มีความเป็นไปได้ว่าเนื่องจากความต้องการระบบเก็บข้อมูลที่เร็วไม่มากนัก จึงมีแรงจูงใจในการปรับแต่งระบบน้อย
    • มีสมมติฐานว่าหาก EC2 เปิดตัวอินสแตนซ์ NVMe ที่เร็วและมีราคาถูก อาจรบกวนโครงสร้างต้นทุนของบริการจัดเก็บข้อมูลบริการอื่นๆ (เช่น EBS)
  • ผู้เขียนหวังว่าจะได้เห็นอินสแตนซ์คลาวด์ที่ติดตั้ง SSD ความเร็ว 10 GB/s ในเร็วๆนี้

ความคิดเห็นของ GN⁺

  • แม้ว่าเทคโนโลยี SSD จะพัฒนาอย่างรวดเร็ว ผู้ให้บริการคลาวด์ที่ไม่ตามทันการเปลี่ยนแปลงนี้สะท้อนถึงความต้องการที่หลากหลายของตลาดและข้อจำกัดทางเทคนิค
  • ความชะงักงันด้านประสิทธิภาพของคลาวด์สตอเรจอาจขัดแย้งกับความคาดหวังของผู้ใช้เรื่องความคุ้มค่าและคุณภาพการให้บริการ และอาจส่งผลต่อความสามารถในการแข่งขันในอุตสาหกรรมคลาวด์
  • บทความนี้มอบข้อมูลเชิงลึกที่สำคัญให้กับทั้งผู้ใช้และผู้ให้บริการคอมพิวเตอร์แบบคลาวด์ และเน้นย้ำความจำเป็นทั้งในด้านความต้องการโซลูชันจัดเก็บข้อมูลที่เร็วขึ้นและความก้าวหน้าทางเทคโนโลยี

1 ความคิดเห็น

 
GN⁺ 2024-02-21
ความคิดเห็นบน Hacker News
  • การอภิปรายเกี่ยวกับปัญหาทางเทคนิคของคลาวด์

    • Google เคยทำงานกับปัญหาพื้นฐานของคลาวด์ ซึ่งเป็นปัจจัยสำคัญที่กำหนดทิศทางเทคโนโลยีของผู้คน
    • SSD ของคลาวด์ถูกเชื่อมต่อผ่านเครือข่าย ซึ่งเป็นข้อกำหนดที่หลีกเลี่ยงไม่ได้ แต่เครือข่ายนั้นใหญ่มากและช้าจนไม่สามารถให้ประสิทธิภาพแบบ SSD แบบ local ได้
    • มันไม่เป็นปัญหากับ hard drive แต่กับ SSD แล้ว กลับกลายเป็นปัญหาเพราะ SSD เร็วกว่าระบบเครือข่ายอย่างมาก
  • คำอธิบายสถาปัตยกรรม AWS Nitro SSD

    • เอกสารและบล็อกของ AWS อธิบายสถาปัตยกรรม Nitro SSD ว่าเป็น SSD ที่เชื่อมต่อทางกายภาพเข้ากับเมนบอร์ดระบบผ่าน PCIe แต่ถูกแยกเชิงตรรกะจากเมนบอร์ดของระบบที่รัน customer workload
    • เพื่อยืดอายุของอุปกรณ์ SSD ให้นานที่สุด เฟิร์มแวร์จะดูแลกระบวนการ 'wear leveling' ซึ่งรวมการเก็บกวาดขยะไว้ด้วย SSD ทั่วไปอาจช้าลงได้อย่างไม่คาดคิดในเวลาที่คาดเดายากเมื่อมีการเขียนจำนวนมาก AWS ใช้ความเชี่ยวชาญด้านฐานข้อมูลมาสร้างฐานข้อมูลเชิงจดบันทึกที่ซับซ้อนและปลอดภัยต่อการดับไฟในเฟิร์มแวร์ของ SSD
  • ประสบการณ์กับ IOPS ของอินสแตนซ์คลาวด์

    • ตัวเลข 'provisioned IOPS' ของอินสแตนซ์คลาวด์ค่อนข้างต่ำมากจนรู้สึกประหลาดใจ ซึ่งชี้ว่าคนจำนวนมาก โดยเฉพาะคนรุ่นใหม่ที่มีประสบการณ์เฉพาะกับอินสแตนซ์คลาวด์ อาจไม่รู้จริงๆ ว่าหนึ่งหรือสอง RU ทำประสิทธิภาพได้มากแค่ไหน
    • ความเร็วอันรวดเร็วของการจัดเก็บข้อมูลด้วย NVMe เป็นส่วนหนึ่งของเทคโนโลยีที่น่าทึ่งในปัจจุบัน
  • ความเห็นของคนที่ทำงานที่ OCI

    • OCI มอบไดรฟ์ NVMe ที่เร็วขึ้นในอินสแตนซ์ โดยโมเดล E4 Dense ใช้ Samsung MZWLJ7T6HALA-00AU3 ซึ่งรองรับการอ่านเชิงลำดับ 7000 MB/s และการเขียนเชิงลำดับ 3800 MB/s
    • มีแนวโน้มสูงที่สาเหตุที่ AWS ยังไม่เสนอตัวเลือก NVMe ที่เร็วขึ้นตอนนี้คือขาดความต้องการแบบเฉพาะเจาะจง นี่เป็นการคาดเดา แต่โดยทั่วไปแล้ว หากความต้องการไม่มากพอ การอัปเกรดมักถูกเลื่อนไว้ไกล
  • ข้อโต้แย้งเรื่องการหลุดพ้นจากคลาวด์

    • NVMe และจำนวนคอร์ในปัจจุบันเป็นเหตุผลที่แข็งแกร่งในการออกจากคลาวด์ ความเร็วระดับนี้ใกล้เคียงหน่วยความจำ ทำให้การซับซ้อนลดลง เพราะข้อมูลน่าจะเก็บในดิสก์ได้แน่นอน
    • เซิร์ฟเวอร์ตัวเดียวที่ทรงพลังยังเพียงพอสำหรับ caching/การคำนวณ/serving และช่วยลดความซับซ้อนของ workload จำนวนมาก
  • การวิจารณ์การปรับให้เหมาะกับคลาวด์

    • ปัญหาคือ IOPS ไม่ใช่ bandwidth เวลาไป run benchmark ของ IO แบบสุ่ม พฤติกรรม random IOPs กลับเหมือนกับ RAID array สปินนิ่งขนาดใหญ่ มากกว่าพฤติกรรมของ SSD
    • หนึ่งในเหตุผลที่ทำให้การรับแนวคิด cloud optimization อย่างจริงจังยาก คือ workloads อย่างฐานข้อมูล เป็นต้นไม่ได้รับการปรับแต่งอย่างเหมาะสม ซึ่งอาจทำให้ค่าใช้จ่ายสูงขึ้น
  • การพูดถึง instance type NVMe ของ AWS

    • แม้มี instance type แบบ NVMe หลายตัวที่ออกมาแล้ว เช่น i4i และ im4gn แต่สมรรถนะก็ยังไม่เพิ่มขึ้น หลัง i3 ออกมาได้ 7 ปี ยังคงอยู่ที่ประมาณ 2 GB/s ต่อ SSD
    • การตลาดของ AWS ระบุว่า
      • ขีดจำกัดสูงสุด random write IOPS 800K
      • ขีดจำกัดสูงสุด random read IOPS 1,000,000
      • ขีดจำกัดสูงสุดการเขียนเชิงลำดับ 5600 MB/วินาที
      • ขีดจำกัดสูงสุดการอ่านเชิงลำดับ 8000 MB/วินาที
  • ตัวเลือกส่วนตัวสำหรับโครงสร้าง SSD แบบ hybrid

    • โดยการผสม X-25E 64GB รุ่นปี 2011 และ PM897 3.7TB รุ่นปี 2021 จะได้โซลูชันที่ทนทานที่สุดและฐานข้อมูลที่ใหญ่ที่สุดด้วยพลังงานต่ำสุด
  • การคาดเดาเรื่องการจำกัดประสิทธิภาพของบริการคลาวด์

    • สาเหตุที่บริการคลาวด์อาจยังคงทำงานที่ประสิทธิภาพไม่สูงมาก อาจเพราะไม่ค่อยมี demand และมันเปิดโอกาสให้ชั้น virtualized ใช้ 'เทคนิคหลอก' ได้
  • การพิจารณาเรื่องต้นทุน SSD

    • SSD ที่เร็วที่สุดมักใช้เทคโนโลยี MLC ที่มีอายุการเขียนสั้นกว่าชนิดอื่นมาก
    • การเพิ่มความหนาแน่นข้อมูลช่วยให้ยกระดับประสิทธิภาพได้ง่ายขึ้น แต่เนื่องจากการเขียนที่ระดับบล็อก/เซลล์ของหน่วยความจำ หากเซลล์หนึ่งเสื่อมลงได้ทั้งเซลล์ล้มเหลว
    • การนำเทคโนโลยีใหม่เข้ามาใช้ในสแตกและอัปเกรด fleet ให้คุ้มค่าเชิงต้นทุนอาจเป็นเรื่องท้าทาย