Zingg - โอเพนซอร์สการจับคู่แบบฟัซซีที่ขยายขนาดได้สำหรับการรวมข้อมูล

(github.com)

8 คะแนน โดย xguru 2021-09-16 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ทำให้วิศวกรวิเคราะห์สามารถเชื่อมต่อ data silo ที่หลากหลายและสร้างมุมมองแบบรวมศูนย์ได้

→ เครื่องมือ No Code ML สำหรับ Data Unification

→ ในข้อมูลจริงจะมีหลายเรกคอร์ดต่อหนึ่งลูกค้า

→ แต่ละเรกคอร์ดกระจายอยู่ในระบบเดียวหรือหลายระบบ ทำให้เมื่อข้อมูลมีขนาดใหญ่ขึ้น การวิเคราะห์ลูกค้าทำได้ยาก

→ ใน ELT ส่วน T ต้องใช้ความพยายามมาก และเครื่องมืออย่าง dbt ก็จัดการเรื่องนี้ได้สำเร็จ

→ จึงจำเป็นต้อง “สร้าง Single Source of Truth” สำหรับอ็อบเจ็กต์ทางธุรกิจหลัก ก่อนการดึงข้อมูลหรือโหลดข้อมูล ด้วยวิธีที่รวดเร็วและขยายขนาดได้

→ สร้างมุมมองลูกค้าแบบรวมและเชื่อถือได้จากหลายระบบ

→ การยืนยันเอนทิตีขนาดใหญ่ เช่น AML/KYC

→ การลบข้อมูลซ้ำและคุณภาพข้อมูล

→ การรวม data silo

→ การเพิ่มคุณค่าข้อมูลจากแหล่งภายนอก

→ รองรับ Snowflake, Cassandra, S3, Azure, Elastic, RDMBS หลัก ๆ และแหล่งข้อมูลที่ Spark รองรับ

→ รองรับไฟล์อย่าง Parquet, Avro, JSON, XLSX, CSV และ TSV

บทความที่เกี่ยวข้อง