- บทความนี้แนะนำ WarpStream ซึ่งเป็นแพลตฟอร์มสตรีมมิงข้อมูลที่เข้ากันได้กับโปรโตคอล Kafka และสร้างขึ้นโดยตรงบน S3
- WarpStream มาในรูปแบบ Go binary เดียวแบบ stateless ทำให้ไม่จำเป็นต้องจัดการ local disk, การ rebalance broker และการดูแล ZooKeeper
- แพลตฟอร์มนี้ลดต้นทุนโครงสร้างพื้นฐานลงอย่างมากด้วยการสตรีมข้อมูลไปยัง S3 โดยตรง และมีค่าใช้จ่ายถูกกว่า Kafka บนคลาวด์ 5-10 เท่า
- บทความนี้วิจารณ์ความเหมาะสมของ Kafka ต่อ workload สมัยใหม่ โดยเน้นถึงค่าใช้จ่ายด้าน inter-AZ bandwidth ที่สูงและภาระด้านการดำเนินงาน
- สถาปัตยกรรมของ WarpStream แตกต่างจาก Kafka แทนที่จะใช้ broker ระบบจะมี "agent" แบบ stateless ที่สามารถทำหน้าที่เป็น "leader" ของ topic ใดก็ได้, commit offset ให้ consumer group ใดก็ได้ หรือทำหน้าที่เป็น coordinator ของคลัสเตอร์
- ใน WarpStream พื้นที่จัดเก็บทั้งหมดถูก offload ไปยัง object storage อย่าง S3 ทำให้ขยายระบบได้ง่ายและกู้คืนจากความล้มเหลวได้รวดเร็ว
- WarpStream แยกข้อมูลออกจาก metadata และจัดเก็บ metadata ของ "virtual cluster" ทั้งหมดไว้ในฐานข้อมูล metadata แบบกำหนดเอง
- แพลตฟอร์มนี้ช่วยลด total cost ของ workload Kafka ส่วนใหญ่ได้ 5-10 เท่าอย่างมาก แต่มี latency สูงกว่า โดย P99 ของคำขอจาก producer อยู่ที่ประมาณ 400ms และ latency จาก producer ถึง consumer อยู่ที่ประมาณ 1 วินาที
- ขณะนี้ WarpStream อยู่ในขั้น developer preview และยังไม่พร้อมสำหรับการใช้งานจริงใน production
- ผู้สร้าง WarpStream มองว่า developer UX ของ Kafka เป็นปัญหา โดยเฉพาะ abstraction ระดับต่ำของ partition และพวกเขาวางแผนจะแก้ไขเรื่องนี้ในการอัปเดตของ WarpStream ในอนาคต
- บทความนี้ปิดท้ายด้วยการเชิญชวนให้ผู้อ่านลองใช้ WarpStream และส่ง feedback กลับมา
1 ความคิดเห็น
ความเห็นจาก Hacker News