5 เทรนด์ข้อมูลในปี 2021
(towardsdatascience.com)-
การผสานรวมระหว่าง Data Lake และ Data Warehouse, Data Lakehouse
-
"Modern Data Stack" กำลังก้าวขึ้นมาเป็นกระแสหลัก: การเชื่อมต่อกันของเครื่องมือสำคัญบนคลาวด์
→ Data Ingestion : Fivetran, Stitch, Hevodata
→ Data Warehouse : Snowflake, BigQuery
→ Data Lake : Amazon S3
→ Data Lake Processing : Presto, Dremio, Databricks, Starburst
→ Data Transformation : dbt, Matillion
→ Metadata Management : Atlan
→ BI Tools : Looker
- Metadata 3.0 : การถือกำเนิดใหม่ของการจัดการเมทาดาทา
→ เครื่องมือสำหรับจัดการ Data Discovery, Data Catalog, Data Lineage, Observability ฯลฯ จะเริ่มโดดเด่นขึ้น
- การเกิดขึ้นของตำแหน่งงานใหม่
→ Data Platform Leader : ผู้นำที่ช่วยให้องค์กรนำแพลตฟอร์มข้อมูลไปปรับใช้กับงาน
→ Analytics Engineer : การเกิดขึ้นของเครื่องมืออย่าง dbt ทำให้เกิดบทบาทวิศวกรวิเคราะห์ที่ไม่เพียงวิเคราะห์ข้อมูล แต่ยังสามารถจัดการ data stack ได้ด้วย
- การเติบโตของเฟรมเวิร์กด้านคุณภาพข้อมูล
→ Data Profiling : ตรวจสอบข้อมูล ยืนยันคุณภาพ และระบุแนวทางการใช้งานในอนาคต
→ การกำหนดกฎคุณภาพข้อมูลที่ยึดธุรกิจเป็นศูนย์กลาง
→ การนำการทดสอบคุณภาพมาใช้บน data pipeline : Amazon Deequ, Great Expectations
2 ความคิดเห็น
ข้อ 2 เรื่อง "สแต็กข้อมูลสมัยใหม่" ดูซีรีส์ "ทำความเข้าใจโครงสร้างพื้นฐานข้อมูลสมัยใหม่" ได้ใน YouTube ของ GeekNews ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
ข้อ 3 และ 5 ก็น่าจะได้พูดถึงกันในช่วงท้ายของซีรีส์ด้วยครับ
ผมติดตามซีรีส์ "ทำความเข้าใจโครงสร้างพื้นฐานข้อมูลสมัยใหม่" ทุกครั้งที่ลงเสมอครับ
เพราะปกติใช้แต่สิ่งที่ใช้ทุกวัน เลยเข้าถึงแนวโน้มใหม่ ๆ ได้ยาก ขอบคุณที่อธิบายได้ดีครับ