บทเรียนที่ได้จากการใช้งาน Airflow ในระดับขนาดใหญ่
(shopify.engineering)Shopify ใช้งานสิ่งนี้สำหรับการดึงข้อมูล, การฝึกโมเดลแมชชีนเลิร์นนิง, การดูแลรักษาตาราง Apache Iceberg และการทำ data modeling บนพื้นฐานของ DBT เป็นต้น
- เมื่อใช้คลาวด์สตอเรจ การเข้าถึงไฟล์อาจช้าได้
→ ปรับปรุงประสิทธิภาพด้วย GCS + NFS - เมื่อปริมาณเมทาดาต้าเพิ่มขึ้น การดำเนินงานของ Airflow อาจช้าลง
→ ใช้นโยบาย retention และกำหนดไว้ที่ 28 วัน - DAG อาจเชื่อมโยงกับผู้ใช้และทีมได้ยาก
→ ใช้ที่เก็บเมทาดาต้าแบบรวมศูนย์ - ผู้เขียน DAG มีสิทธิ์อำนาจจำนวนมาก
→ ใช้ DAG policy - การรับประกันการกระจายโหลดอย่างสม่ำเสมอเป็นเรื่องยาก
→ สร้างตารางเวลาที่เป็นมาตรฐานเพื่อลด traffic burst - มีหลายจุดที่เกิดการแย่งใช้ทรัพยากร
→ ใช้ Pools, Priority Weight, Celerey Queue และ Isolated Workers
ยังไม่มีความคิดเห็น