8 คะแนน โดย GN⁺ 2025-04-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • โครงสร้างพื้นฐานข้อมูล ขององค์กรมีการพัฒนาไปพร้อมกับความก้าวหน้าทางเทคโนโลยี และทำให้เกิดผลิตภัณฑ์และบริการใหม่ๆ ได้
  • โครงสร้างพื้นฐานข้อมูลได้พัฒนาจาก data warehouse แบบ on-premise เดิม ไปสู่ data warehouse และ data lake บนคลาวด์
  • ช่วงหลังมานี้พร้อมกับการเติบโตอย่างรวดเร็วของ AI สถาปัตยกรรมใหม่ที่เรียกว่า data lakehouse กำลังได้รับความสนใจ และกำลัง ก้าวเข้าสู่ยุค Data 3.0
  • Lakehouse คือ แพลตฟอร์มแบบบูรณาการที่มีประสิทธิภาพสูงและทำงานร่วมกันได้ ซึ่งรองรับการใช้งานหลากหลาย เช่น งานวิเคราะห์และ AI workload พร้อมนิยามแกนกลางของโครงสร้างพื้นฐานข้อมูลองค์กรขึ้นใหม่
  • ด้วยเหตุนี้จึงมีความเป็นไปได้สูงที่จะเกิดบริษัทโครงสร้างพื้นฐานข้อมูลรายใหม่ที่มีมูลค่าระดับหลายพันล้านดอลลาร์

เบื้องหลังนวัตกรรมของ Lakehouse

  • ระหว่างปี 2019 ถึง 2024 การลงทุนด้านโครงสร้างพื้นฐานข้อมูลขององค์กรเพิ่มขึ้นเกือบเท่าตัว จากราว 180 พันล้านดอลลาร์เป็น 350 พันล้านดอลลาร์
  • data warehouse และ data lake แบบเดิมไม่สามารถตอบโจทย์ความต้องการของ AI ได้อย่างสมบูรณ์
  • workload ที่เน้น AI มีข้อกำหนดดังต่อไปนี้:
    • ต้องรองรับทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง
    • ต้องรองรับการประมวลผลข้อมูลแบบเรียลไทม์ แบบมัลติโหมด และแบบประกอบเข้าด้วยกันได้
    • ต้องการความสามารถในการทำงานร่วมกันระหว่างฐานข้อมูลเดิมกับ vector database
  • การเปลี่ยนแปลงของความต้องการจากลูกค้าองค์กร:
    • ต้องการลดความซ้ำซ้อนของข้อมูล
    • ความซับซ้อนของ data governance เพิ่มขึ้น
    • ต้องการลดการผูกติดกับผู้ให้บริการและเพิ่มความยืดหยุ่น
    • มีความยากลำบากในการค้นหาโซลูชันที่เหมาะกับ AI

Open table format ทำให้ Lakehouse เป็นไปได้

  • Open table format (OTF) เช่น Delta Lake, Iceberg, Hudi เป็นรากฐานของ Lakehouse
  • ความสามารถหลัก:
    • รองรับ ACID transaction: รับประกันความถูกต้องสอดคล้องและความเสถียรของข้อมูล
    • รองรับการประมวลผลแบบ batch และ streaming
    • ให้ความยืดหยุ่นด้าน schema และ partition
    • สามารถกู้คืนกลับไปยังสถานะก่อนหน้าได้ด้วย time travel
    • การจัดการ metadata ที่ขยายขนาดได้

การมาถึงของแนวคิด Lakehouse

  • Data lakehouse คือ สถาปัตยกรรมใหม่ ที่ผสานประสิทธิภาพของ data warehouse เข้ากับความยืดหยุ่นของ data lake
  • กำลังก้าวขึ้นเป็น โครงสร้างพื้นฐานยุคถัดไป สำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย AI การวิเคราะห์แบบเรียลไทม์ และ business intelligence
  • ทั้งบริษัทใหญ่และสตาร์ตอัปต่างเร่งเปลี่ยนผ่านสู่ Lakehouse และกำลังก่อให้เกิดตลาดใหม่ที่เกี่ยวข้อง

Thesis 1: สร้าง intelligent real-time pipeline ด้วยการ ingest และแปลงข้อมูลที่ขับเคลื่อนด้วย AI

  • เครื่องมือ ETL แบบเดิมไม่มีประสิทธิภาพเพียงพอสำหรับสเกลของ AI
  • Prefect, Windmill, dltHub รองรับ data pipeline และ orchestration แบบเขียนโค้ด
  • เครื่องมืออย่าง Tobiko มีความสามารถด้าน SQL automation, data lineage, dependency tracking เป็นต้น
  • Model Context Protocol(MCP) ของ Anthropic ให้ อินเทอร์เฟซมาตรฐานสำหรับการรักษาบริบทของ AI workflow
  • Apache Kafka และ Flink มอบความสามารถด้าน messaging และ stream processing ที่จำเป็นต่อการฝึกโมเดลและการอนุมานแบบเรียลไทม์
  • Chalk AI มอบแพลตฟอร์มการอนุมานแบบเรียลไทม์ ช่วยให้ตัดสินใจได้รวดเร็วขึ้น
  • ชั้น metadata กำลังก้าวขึ้นเป็น แหล่งความจริงหลัก (source of truth) ที่สำคัญในยุค AI

Thesis 2: ความสำคัญเชิงกลยุทธ์ของชั้น metadata เด่นชัดขึ้น

  • ตอนนี้ metadata ไม่ได้เป็นเพียงข้อมูลประกอบอีกต่อไป แต่เป็น ชั้นศูนย์กลางที่ขับเคลื่อนการกระทำ
  • Open table format อย่าง Iceberg, Delta Lake, Hudi กำลังผลักดันนวัตกรรมด้าน metadata
  • catalog แบบ lakehouse-native อย่าง Datastrato, Vakamo กำลังเกิดขึ้น
  • DataHub ของ Acryl Data รองรับการเข้าถึงข้อมูลและ data governance สำหรับทั้งมนุษย์และ AI agent
  • OpenHouse, Apache Amoro, Ryft มอบ control plane ที่มี metadata เป็นศูนย์กลาง
  • Flarion.io, Greybeam กำลังพัฒนา เครื่องมือเพิ่มประสิทธิภาพ ในชั้นอื่นนอกเหนือจาก storage

Thesis 3: การเปลี่ยนแปลงของ compute และ query engine

  • การแพร่หลายของ Lakehouse กำลังผลักดันให้เปลี่ยนจากโครงสร้างเดิมที่ยึดแพลตฟอร์มเดี่ยว ไปสู่ สถาปัตยกรรมแบบโมดูลาร์
  • นอกจาก Snowflake และ Databricks แล้ว โซลูชันเฉพาะทางอย่าง DuckDB, ClickHouse, Druid ก็เติบโตขึ้นเช่นกัน
  • Daft, typedef, Mooncake, Bauplan กำลังพัฒนา compute framework ใหม่เพื่อการเพิ่มประสิทธิภาพที่เน้น AI
  • การเกิดขึ้นของ query engine ที่ปรับให้เหมาะกับ AI และแพลตฟอร์ม federated compute กำลังกำหนด มาตรฐานใหม่ของการประมวลผลข้อมูล

Thesis 4: เส้นแบ่งระหว่าง data engineering กับ software engineering เลือนรางลง

  • แอปพลิเคชันที่เน้น AI กำลังผลักดันให้ นักพัฒนาทั้งหมดมีความสามารถด้านข้อมูลมากขึ้น
  • dbt Labs นำแนวปฏิบัติของ software engineering เช่น version control, testing, CI/CD เข้ามาใช้กับการพัฒนาข้อมูล
  • Gable รองรับการสร้าง data pipeline ผ่านอินเทอร์เฟซที่ใช้งานง่าย
  • Temporal, Inngest ช่วยสร้างความน่าเชื่อถือและการมองเห็นได้ของ distributed workflow ที่ซับซ้อน
  • การมีส่วนร่วมในโอเพนซอร์สเพิ่มขึ้นอย่างรวดเร็ว และอัตราการเติบโตของโปรเจกต์ด้านข้อมูลบน GitHub สูงกว่าซอฟต์แวร์ทั่วไป
  • มีการนำโอเพนซอร์สมาใช้เพิ่มขึ้นเพื่อให้ได้รับการสนับสนุนจาก LLM ได้ดียิ่งขึ้น
  • เมื่อ AI และวิศวกรรมที่ขับเคลื่อนด้วยข้อมูลหลอมรวมกัน โครงสร้างทีมและวิธีพัฒนาจึงเปลี่ยนไปอย่างรากฐาน

2 ความคิดเห็น

 
halfenif 2025-04-01

อะไรคือสิ่งถัดไปจาก Lakehouse?

หรือจะเป็น Dataland?

 
yangeok 2025-04-01

หวังว่าต้นทุนจะลดลงจนแม้แต่สตาร์ตอัปก็สามารถลองทำได้เหมือนกัน 555