โรดแมป: Data 3.0 ในยุค Lakehouse

(bvp.com)

8 คะแนน โดย GN⁺ 2025-04-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โครงสร้างพื้นฐานข้อมูล ขององค์กรมีการพัฒนาไปพร้อมกับความก้าวหน้าทางเทคโนโลยี และทำให้เกิดผลิตภัณฑ์และบริการใหม่ๆ ได้
โครงสร้างพื้นฐานข้อมูลได้พัฒนาจาก data warehouse แบบ on-premise เดิม ไปสู่ data warehouse และ data lake บนคลาวด์
ช่วงหลังมานี้พร้อมกับการเติบโตอย่างรวดเร็วของ AI สถาปัตยกรรมใหม่ที่เรียกว่า data lakehouse กำลังได้รับความสนใจ และกำลัง ก้าวเข้าสู่ยุค Data 3.0
Lakehouse คือ แพลตฟอร์มแบบบูรณาการที่มีประสิทธิภาพสูงและทำงานร่วมกันได้ ซึ่งรองรับการใช้งานหลากหลาย เช่น งานวิเคราะห์และ AI workload พร้อมนิยามแกนกลางของโครงสร้างพื้นฐานข้อมูลองค์กรขึ้นใหม่
ด้วยเหตุนี้จึงมีความเป็นไปได้สูงที่จะเกิดบริษัทโครงสร้างพื้นฐานข้อมูลรายใหม่ที่มีมูลค่าระดับหลายพันล้านดอลลาร์

เบื้องหลังนวัตกรรมของ Lakehouse

ระหว่างปี 2019 ถึง 2024 การลงทุนด้านโครงสร้างพื้นฐานข้อมูลขององค์กรเพิ่มขึ้นเกือบเท่าตัว จากราว 180 พันล้านดอลลาร์เป็น 350 พันล้านดอลลาร์
data warehouse และ data lake แบบเดิมไม่สามารถตอบโจทย์ความต้องการของ AI ได้อย่างสมบูรณ์
workload ที่เน้น AI มีข้อกำหนดดังต่อไปนี้:
- ต้องรองรับทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง
- ต้องรองรับการประมวลผลข้อมูลแบบเรียลไทม์ แบบมัลติโหมด และแบบประกอบเข้าด้วยกันได้
- ต้องการความสามารถในการทำงานร่วมกันระหว่างฐานข้อมูลเดิมกับ vector database
การเปลี่ยนแปลงของความต้องการจากลูกค้าองค์กร:
- ต้องการลดความซ้ำซ้อนของข้อมูล
- ความซับซ้อนของ data governance เพิ่มขึ้น
- ต้องการลดการผูกติดกับผู้ให้บริการและเพิ่มความยืดหยุ่น
- มีความยากลำบากในการค้นหาโซลูชันที่เหมาะกับ AI

Open table format ทำให้ Lakehouse เป็นไปได้

Open table format (OTF) เช่น Delta Lake, Iceberg, Hudi เป็นรากฐานของ Lakehouse
ความสามารถหลัก:
- รองรับ ACID transaction: รับประกันความถูกต้องสอดคล้องและความเสถียรของข้อมูล
- รองรับการประมวลผลแบบ batch และ streaming
- ให้ความยืดหยุ่นด้าน schema และ partition
- สามารถกู้คืนกลับไปยังสถานะก่อนหน้าได้ด้วย time travel
- การจัดการ metadata ที่ขยายขนาดได้

การมาถึงของแนวคิด Lakehouse

Data lakehouse คือ สถาปัตยกรรมใหม่ ที่ผสานประสิทธิภาพของ data warehouse เข้ากับความยืดหยุ่นของ data lake
กำลังก้าวขึ้นเป็น โครงสร้างพื้นฐานยุคถัดไป สำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย AI การวิเคราะห์แบบเรียลไทม์ และ business intelligence
ทั้งบริษัทใหญ่และสตาร์ตอัปต่างเร่งเปลี่ยนผ่านสู่ Lakehouse และกำลังก่อให้เกิดตลาดใหม่ที่เกี่ยวข้อง

Thesis 1: สร้าง intelligent real-time pipeline ด้วยการ ingest และแปลงข้อมูลที่ขับเคลื่อนด้วย AI

เครื่องมือ ETL แบบเดิมไม่มีประสิทธิภาพเพียงพอสำหรับสเกลของ AI
Prefect, Windmill, dltHub รองรับ data pipeline และ orchestration แบบเขียนโค้ด
เครื่องมืออย่าง Tobiko มีความสามารถด้าน SQL automation, data lineage, dependency tracking เป็นต้น
Model Context Protocol(MCP) ของ Anthropic ให้ อินเทอร์เฟซมาตรฐานสำหรับการรักษาบริบทของ AI workflow
Apache Kafka และ Flink มอบความสามารถด้าน messaging และ stream processing ที่จำเป็นต่อการฝึกโมเดลและการอนุมานแบบเรียลไทม์
Chalk AI มอบแพลตฟอร์มการอนุมานแบบเรียลไทม์ ช่วยให้ตัดสินใจได้รวดเร็วขึ้น
ชั้น metadata กำลังก้าวขึ้นเป็น แหล่งความจริงหลัก (source of truth) ที่สำคัญในยุค AI

Thesis 2: ความสำคัญเชิงกลยุทธ์ของชั้น metadata เด่นชัดขึ้น

ตอนนี้ metadata ไม่ได้เป็นเพียงข้อมูลประกอบอีกต่อไป แต่เป็น ชั้นศูนย์กลางที่ขับเคลื่อนการกระทำ
Open table format อย่าง Iceberg, Delta Lake, Hudi กำลังผลักดันนวัตกรรมด้าน metadata
catalog แบบ lakehouse-native อย่าง Datastrato, Vakamo กำลังเกิดขึ้น
DataHub ของ Acryl Data รองรับการเข้าถึงข้อมูลและ data governance สำหรับทั้งมนุษย์และ AI agent
OpenHouse, Apache Amoro, Ryft มอบ control plane ที่มี metadata เป็นศูนย์กลาง
Flarion.io, Greybeam กำลังพัฒนา เครื่องมือเพิ่มประสิทธิภาพ ในชั้นอื่นนอกเหนือจาก storage

Thesis 3: การเปลี่ยนแปลงของ compute และ query engine

การแพร่หลายของ Lakehouse กำลังผลักดันให้เปลี่ยนจากโครงสร้างเดิมที่ยึดแพลตฟอร์มเดี่ยว ไปสู่ สถาปัตยกรรมแบบโมดูลาร์
นอกจาก Snowflake และ Databricks แล้ว โซลูชันเฉพาะทางอย่าง DuckDB, ClickHouse, Druid ก็เติบโตขึ้นเช่นกัน
Daft, typedef, Mooncake, Bauplan กำลังพัฒนา compute framework ใหม่เพื่อการเพิ่มประสิทธิภาพที่เน้น AI
การเกิดขึ้นของ query engine ที่ปรับให้เหมาะกับ AI และแพลตฟอร์ม federated compute กำลังกำหนด มาตรฐานใหม่ของการประมวลผลข้อมูล

Thesis 4: เส้นแบ่งระหว่าง data engineering กับ software engineering เลือนรางลง

แอปพลิเคชันที่เน้น AI กำลังผลักดันให้ นักพัฒนาทั้งหมดมีความสามารถด้านข้อมูลมากขึ้น
dbt Labs นำแนวปฏิบัติของ software engineering เช่น version control, testing, CI/CD เข้ามาใช้กับการพัฒนาข้อมูล
Gable รองรับการสร้าง data pipeline ผ่านอินเทอร์เฟซที่ใช้งานง่าย
Temporal, Inngest ช่วยสร้างความน่าเชื่อถือและการมองเห็นได้ของ distributed workflow ที่ซับซ้อน
การมีส่วนร่วมในโอเพนซอร์สเพิ่มขึ้นอย่างรวดเร็ว และอัตราการเติบโตของโปรเจกต์ด้านข้อมูลบน GitHub สูงกว่าซอฟต์แวร์ทั่วไป
มีการนำโอเพนซอร์สมาใช้เพิ่มขึ้นเพื่อให้ได้รับการสนับสนุนจาก LLM ได้ดียิ่งขึ้น
เมื่อ AI และวิศวกรรมที่ขับเคลื่อนด้วยข้อมูลหลอมรวมกัน โครงสร้างทีมและวิธีพัฒนาจึงเปลี่ยนไปอย่างรากฐาน

2 ความคิดเห็น

halfenif 2025-04-01

อะไรคือสิ่งถัดไปจาก Lakehouse?

หรือจะเป็น Dataland?

yangeok 2025-04-01

หวังว่าต้นทุนจะลดลงจนแม้แต่สตาร์ตอัปก็สามารถลองทำได้เหมือนกัน 555