9 คะแนน โดย xguru 2024-06-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เฟรมเวิร์ก Python สำหรับสร้างดาต้าพายป์ไลน์อย่างมีประสิทธิภาพ
  • ส่งเสริมการทำงานแบบโมดูลาร์และการทำงานร่วมกัน ทำให้สามารถสร้างพายป์ไลน์ที่ซับซ้อนจากองค์ประกอบที่เรียบง่ายและนำกลับมาใช้ซ้ำได้
  • ออกแบบมาให้ทำงานร่วมกับไลบรารีหรือเฟรมเวิร์กสำหรับประมวลผลข้อมูลหลายแบบได้อย่างราบรื่น
  • ใช้ Pydantic เพื่อมอบการตรวจสอบชนิดข้อมูลที่แข็งแกร่ง การตรวจสอบความถูกต้องของข้อมูล และการจัดการคอนฟิก
  • รับประกันการรันพายป์ไลน์ที่คาดการณ์ได้ด้วยโค้ดที่ผ่านการทดสอบมาอย่างดีและชุดความสามารถที่หลากหลาย

จุดที่ Koheesio แตกต่างจากไลบรารีอื่น

  • ออกแบบมาโดยเฉพาะสำหรับดาต้าพายป์ไลน์, การผสานรวมกับ PySpark, การแปลงข้อมูล, งาน ETL, การตรวจสอบความถูกต้องของข้อมูล และการประมวลผลข้อมูลขนาดใหญ่
  • มีความสามารถด้าน Reader, Writer และ Transformation สำหรับงานประมวลผลข้อมูลทุกประเภท
  • สนับสนุนการทำงานร่วมกันและนวัตกรรมภายในชุมชนวิศวกรรมข้อมูล

องค์ประกอบหลักของ Koheesio

  • Step: หน่วยงานพื้นฐานของ Koheesio ที่แสดงถึงงานเดี่ยวในดาต้าพายป์ไลน์ รับอินพุตและสร้างเอาต์พุต
  • Context: คลาสคอนฟิกที่กำหนดสภาพแวดล้อมของงาน สามารถแชร์ตัวแปรระหว่างงานและปรับพฤติกรรมของงานตามสภาพแวดล้อมได้
  • Logger: คลาสสำหรับบันทึกข้อความในหลายระดับ

1 ความคิดเห็น

 
xguru 2024-06-06
ความคิดเห็นจาก Hacker News
  • อยากรู้ว่างานวิศวกรรมข้อมูลของ Nike เป็นอย่างไรในความเป็นจริง เพราะมักได้รับข้อเสนองานสัญญาจ้างค่าแรงต่ำบ่อย ๆ จากโปรไฟล์ LinkedIn บทบาทเหล่านี้มุ่งหาคนที่มีประสบการณ์ในสหรัฐฯ แต่ค่าตอบแทนต่ำ และก็อาจเป็นไปได้ว่าบทบาทเหล่านี้เป็นการหลอกลวง
  • เครื่องมือนี้อาจมีประโยชน์ในสภาพแวดล้อมที่มีนักพัฒนาประสบการณ์น้อยจำนวนมาก นักพัฒนา 2-3 คนสร้างเครื่องมือขึ้นมา และทีมที่ใหญ่กว่าจะทำงาน ETL แบบง่าย ๆ ภาระจะตกอยู่ที่ทีมเครื่องมือในการรองรับความต้องการใหม่ ๆ
  • การมี type ที่เข้มงวดเป็นอุปสรรคต่อปัญหาด้านวิศวกรรมข้อมูล ภาษาที่มีความเป็น dynamic ช่วยลดความซับซ้อนของโค้ดและการบำรุงรักษาได้ การยึดติดกับเฟรมเวิร์กด้าน type นั้นตั้งอยู่บนประสบการณ์เชิงวิชาการมากกว่าประสบการณ์ในอุตสาหกรรม
  • เคยทำงานกับ ETL, Spark, Storm และอื่น ๆ แต่ไม่เข้าใจคุณค่าที่ไลบรารีนี้นำเสนอ ไม่ใช่ผู้เชี่ยวชาญด้านวิศวกรรมข้อมูล แต่ก็หวังว่าจะเห็นประโยชน์ของเครื่องมือนี้
  • ควรมีคำอธิบายที่ดีกว่านี้ว่าเครื่องมือนี้คืออะไร และทำไมจึงควรใช้งาน ดู ลิงก์
  • เมื่อไม่กี่สัปดาห์ก่อนเพิ่งเขียน data pipeline โดยใช้ Apache Beam Koheesio มีฟังก์ชันบางส่วนที่คล้ายกัน แต่ Apache Beam เหนือกว่ามาก
  • คล้ายกับ Luigi ดีเลย!
  • แนะนำให้ลองดู CloudQuery เป็นเฟรมเวิร์ก ELT ที่ใช้ Arrow เป็นฐาน (ผู้เขียนเอง)
  • แม้ Koheesio จะบอกว่าไม่ได้แข่งขันกับไลบรารีอื่น แต่ในความเป็นจริงก็แข่งขันอยู่ การ orchestration เวิร์กโฟลว์เป็นหมวดหมู่ที่พัฒนาค่อนข้างสมบูรณ์แล้ว การใช้ Python ไม่ใช่ข้อได้เปรียบที่ใหญ่ขนาดนั้น
  • สงสัยว่าได้ดูไลบรารี dlt หรือยัง มันให้ EL ที่ใช้งานง่ายใน Python อยากรู้ถึงความแตกต่างระหว่าง Koheesio กับ dlt และว่าทั้งสองจะเสริมกันได้หรือไม่