- โครงสร้างพื้นฐานข้อมูล ขององค์กรมีการพัฒนาไปพร้อมกับความก้าวหน้าทางเทคโนโลยี และทำให้เกิดผลิตภัณฑ์และบริการใหม่ๆ ได้
- โครงสร้างพื้นฐานข้อมูลได้พัฒนาจาก data warehouse แบบ on-premise เดิม ไปสู่ data warehouse และ data lake บนคลาวด์
- ช่วงหลังมานี้พร้อมกับการเติบโตอย่างรวดเร็วของ AI สถาปัตยกรรมใหม่ที่เรียกว่า data lakehouse กำลังได้รับความสนใจ และกำลัง ก้าวเข้าสู่ยุค Data 3.0
- Lakehouse คือ แพลตฟอร์มแบบบูรณาการที่มีประสิทธิภาพสูงและทำงานร่วมกันได้ ซึ่งรองรับการใช้งานหลากหลาย เช่น งานวิเคราะห์และ AI workload พร้อมนิยามแกนกลางของโครงสร้างพื้นฐานข้อมูลองค์กรขึ้นใหม่
- ด้วยเหตุนี้จึงมีความเป็นไปได้สูงที่จะเกิดบริษัทโครงสร้างพื้นฐานข้อมูลรายใหม่ที่มีมูลค่าระดับหลายพันล้านดอลลาร์
เบื้องหลังนวัตกรรมของ Lakehouse
- ระหว่างปี 2019 ถึง 2024 การลงทุนด้านโครงสร้างพื้นฐานข้อมูลขององค์กรเพิ่มขึ้นเกือบเท่าตัว จากราว 180 พันล้านดอลลาร์เป็น 350 พันล้านดอลลาร์
- data warehouse และ data lake แบบเดิมไม่สามารถตอบโจทย์ความต้องการของ AI ได้อย่างสมบูรณ์
- workload ที่เน้น AI มีข้อกำหนดดังต่อไปนี้:
- ต้องรองรับทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง
- ต้องรองรับการประมวลผลข้อมูลแบบเรียลไทม์ แบบมัลติโหมด และแบบประกอบเข้าด้วยกันได้
- ต้องการความสามารถในการทำงานร่วมกันระหว่างฐานข้อมูลเดิมกับ vector database
- การเปลี่ยนแปลงของความต้องการจากลูกค้าองค์กร:
- ต้องการลดความซ้ำซ้อนของข้อมูล
- ความซับซ้อนของ data governance เพิ่มขึ้น
- ต้องการลดการผูกติดกับผู้ให้บริการและเพิ่มความยืดหยุ่น
- มีความยากลำบากในการค้นหาโซลูชันที่เหมาะกับ AI
Open table format ทำให้ Lakehouse เป็นไปได้
- Open table format (OTF) เช่น Delta Lake, Iceberg, Hudi เป็นรากฐานของ Lakehouse
- ความสามารถหลัก:
- รองรับ ACID transaction: รับประกันความถูกต้องสอดคล้องและความเสถียรของข้อมูล
- รองรับการประมวลผลแบบ batch และ streaming
- ให้ความยืดหยุ่นด้าน schema และ partition
- สามารถกู้คืนกลับไปยังสถานะก่อนหน้าได้ด้วย time travel
- การจัดการ metadata ที่ขยายขนาดได้
การมาถึงของแนวคิด Lakehouse
- Data lakehouse คือ สถาปัตยกรรมใหม่ ที่ผสานประสิทธิภาพของ data warehouse เข้ากับความยืดหยุ่นของ data lake
- กำลังก้าวขึ้นเป็น โครงสร้างพื้นฐานยุคถัดไป สำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย AI การวิเคราะห์แบบเรียลไทม์ และ business intelligence
- ทั้งบริษัทใหญ่และสตาร์ตอัปต่างเร่งเปลี่ยนผ่านสู่ Lakehouse และกำลังก่อให้เกิดตลาดใหม่ที่เกี่ยวข้อง
Thesis 1: สร้าง intelligent real-time pipeline ด้วยการ ingest และแปลงข้อมูลที่ขับเคลื่อนด้วย AI
- เครื่องมือ ETL แบบเดิมไม่มีประสิทธิภาพเพียงพอสำหรับสเกลของ AI
- Prefect, Windmill, dltHub รองรับ data pipeline และ orchestration แบบเขียนโค้ด
- เครื่องมืออย่าง Tobiko มีความสามารถด้าน SQL automation, data lineage, dependency tracking เป็นต้น
- Model Context Protocol(MCP) ของ Anthropic ให้ อินเทอร์เฟซมาตรฐานสำหรับการรักษาบริบทของ AI workflow
- Apache Kafka และ Flink มอบความสามารถด้าน messaging และ stream processing ที่จำเป็นต่อการฝึกโมเดลและการอนุมานแบบเรียลไทม์
- Chalk AI มอบแพลตฟอร์มการอนุมานแบบเรียลไทม์ ช่วยให้ตัดสินใจได้รวดเร็วขึ้น
- ชั้น metadata กำลังก้าวขึ้นเป็น แหล่งความจริงหลัก (source of truth) ที่สำคัญในยุค AI
Thesis 2: ความสำคัญเชิงกลยุทธ์ของชั้น metadata เด่นชัดขึ้น
- ตอนนี้ metadata ไม่ได้เป็นเพียงข้อมูลประกอบอีกต่อไป แต่เป็น ชั้นศูนย์กลางที่ขับเคลื่อนการกระทำ
- Open table format อย่าง Iceberg, Delta Lake, Hudi กำลังผลักดันนวัตกรรมด้าน metadata
- catalog แบบ lakehouse-native อย่าง Datastrato, Vakamo กำลังเกิดขึ้น
- DataHub ของ Acryl Data รองรับการเข้าถึงข้อมูลและ data governance สำหรับทั้งมนุษย์และ AI agent
- OpenHouse, Apache Amoro, Ryft มอบ control plane ที่มี metadata เป็นศูนย์กลาง
- Flarion.io, Greybeam กำลังพัฒนา เครื่องมือเพิ่มประสิทธิภาพ ในชั้นอื่นนอกเหนือจาก storage
Thesis 3: การเปลี่ยนแปลงของ compute และ query engine
- การแพร่หลายของ Lakehouse กำลังผลักดันให้เปลี่ยนจากโครงสร้างเดิมที่ยึดแพลตฟอร์มเดี่ยว ไปสู่ สถาปัตยกรรมแบบโมดูลาร์
- นอกจาก Snowflake และ Databricks แล้ว โซลูชันเฉพาะทางอย่าง DuckDB, ClickHouse, Druid ก็เติบโตขึ้นเช่นกัน
- Daft, typedef, Mooncake, Bauplan กำลังพัฒนา compute framework ใหม่เพื่อการเพิ่มประสิทธิภาพที่เน้น AI
- การเกิดขึ้นของ query engine ที่ปรับให้เหมาะกับ AI และแพลตฟอร์ม federated compute กำลังกำหนด มาตรฐานใหม่ของการประมวลผลข้อมูล
Thesis 4: เส้นแบ่งระหว่าง data engineering กับ software engineering เลือนรางลง
- แอปพลิเคชันที่เน้น AI กำลังผลักดันให้ นักพัฒนาทั้งหมดมีความสามารถด้านข้อมูลมากขึ้น
- dbt Labs นำแนวปฏิบัติของ software engineering เช่น version control, testing, CI/CD เข้ามาใช้กับการพัฒนาข้อมูล
- Gable รองรับการสร้าง data pipeline ผ่านอินเทอร์เฟซที่ใช้งานง่าย
- Temporal, Inngest ช่วยสร้างความน่าเชื่อถือและการมองเห็นได้ของ distributed workflow ที่ซับซ้อน
- การมีส่วนร่วมในโอเพนซอร์สเพิ่มขึ้นอย่างรวดเร็ว และอัตราการเติบโตของโปรเจกต์ด้านข้อมูลบน GitHub สูงกว่าซอฟต์แวร์ทั่วไป
- มีการนำโอเพนซอร์สมาใช้เพิ่มขึ้นเพื่อให้ได้รับการสนับสนุนจาก LLM ได้ดียิ่งขึ้น
- เมื่อ AI และวิศวกรรมที่ขับเคลื่อนด้วยข้อมูลหลอมรวมกัน โครงสร้างทีมและวิธีพัฒนาจึงเปลี่ยนไปอย่างรากฐาน
2 ความคิดเห็น
อะไรคือสิ่งถัดไปจาก Lakehouse?
หรือจะเป็น Dataland?
หวังว่าต้นทุนจะลดลงจนแม้แต่สตาร์ตอัปก็สามารถลองทำได้เหมือนกัน 555