9 คะแนน โดย xguru 2023-03-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แพลตฟอร์มบิ๊กดาต้าโอเพนซอร์สสำหรับสตอเรจแบบกระจายและการประมวลผล ที่ Yandex เผยแพร่
    • กรณีการใช้งาน: การประมวลผลแบบแบตช์, การวิเคราะห์แบบ ad hoc, OLTP, แมชชีนเลิร์นนิง, เมทาดาทาสโตเรจ, ETL pipeline
  • ระบบนิเวศแบบมัลติเทนแนนต์
  • ความน่าเชื่อถือและความปลอดภัย: ไม่มี SPOF มีการทำ replication ระหว่างเซิร์ฟเวอร์แบบอัตโนมัติ อัปเดตได้โดยไม่สูญเสียความคืบหน้าที่ทำอยู่
  • ความสามารถในการขยายระบบ
    • ขยายได้ถึง 1 ล้าน CPU core และ GPU หลายพันตัว
    • รองรับโหนดมากกว่า 10,000 โหนด พร้อมสเกลเซิร์ฟเวอร์ขึ้นและลงอัตโนมัติ
    • รองรับสื่อจัดเก็บข้อมูลหลากหลายประเภทจนถึงระดับ Exabyte
  • ความสามารถที่หลากหลาย
    • โมเดล MapReduce ที่ครอบคลุมกว้างขวาง
    • distributed ACID transaction
    • มี SDK (C++, Python, Java, Go) และ API ที่หลากหลาย
    • การแยกทรัพยากรคอมพิวต์และสตอเรจอย่างปลอดภัย
    • UI ที่ใช้งานง่าย
  • CHYT powered by ClickHouse
    • SQL dialect ที่คุ้นเคยและความสามารถใกล้เคียงกัน
    • คิวรีเชิงวิเคราะห์ที่รวดเร็ว
    • เชื่อมต่อกับโซลูชัน BI ยอดนิยมได้ (JDBC/ODBC)
  • SPYT powered by Apache Spark
    • เครื่องมือสำหรับสร้างกระบวนการ ETL
    • รองรับหลายคลัสเตอร์อิสระหลายขนาด
    • ย้ายจากโซลูชันเดิมได้ง่าย

1 ความคิดเห็น

 
xguru 2023-03-25

บทความแนะนำประวัติของโอเพนซอร์สนี้เองและเทคโนโลยีที่ใช้ภายใน: YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

  • ระบุว่าใช้เวลาพัฒนามาเกือบ 10 ปี
  • ใช้ MapReduce มาตั้งแต่ปี 2006 แต่พบข้อจำกัดในปี 2009 จึงเริ่มโครงการ YT ตั้งแต่ปี 2010
  • Cypress (Storage) + MapReduce + ตาราง K-V แบบไดนามิก + YQL + CHYT + SPYT
  • โค้ดเซิร์ฟเวอร์หลักเป็น C++