Shopify ใช้งานสิ่งนี้สำหรับการดึงข้อมูล, การฝึกโมเดลแมชชีนเลิร์นนิง, การดูแลรักษาตาราง Apache Iceberg และการทำ data modeling บนพื้นฐานของ DBT เป็นต้น

  1. เมื่อใช้คลาวด์สตอเรจ การเข้าถึงไฟล์อาจช้าได้
    → ปรับปรุงประสิทธิภาพด้วย GCS + NFS
  2. เมื่อปริมาณเมทาดาต้าเพิ่มขึ้น การดำเนินงานของ Airflow อาจช้าลง
    → ใช้นโยบาย retention และกำหนดไว้ที่ 28 วัน
  3. DAG อาจเชื่อมโยงกับผู้ใช้และทีมได้ยาก
    → ใช้ที่เก็บเมทาดาต้าแบบรวมศูนย์
  4. ผู้เขียน DAG มีสิทธิ์อำนาจจำนวนมาก
    → ใช้ DAG policy
  5. การรับประกันการกระจายโหลดอย่างสม่ำเสมอเป็นเรื่องยาก
    → สร้างตารางเวลาที่เป็นมาตรฐานเพื่อลด traffic burst
  6. มีหลายจุดที่เกิดการแย่งใช้ทรัพยากร
    → ใช้ Pools, Priority Weight, Celerey Queue และ Isolated Workers

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น