สถาปัตยกรรมใหม่ 2.0 สำหรับโครงสร้างพื้นฐานข้อมูลสมัยใหม่

(future.a16z.com)

25 คะแนน โดย xguru 2022-04-25 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

อัปเดต 2.0 ของบทความที่เผยแพร่ในปี 2020

Changelog

2 หมวดหมู่ใหม่ที่เติบโตอย่างรวดเร็ว
- เครื่องมือสำหรับสนับสนุนกระบวนการและเวิร์กโฟลว์ด้านข้อมูลที่สำคัญ เช่น data discovery, observability และการตรวจสอบโมเดล ML
- แอปพลิเคชันรูปแบบใหม่ เช่น data workspace, reverse ETL และเฟรมเวิร์กสำหรับแอปพลิเคชัน ML ที่ช่วยให้ทีมข้อมูลและผู้ใช้ธุรกิจสร้างคุณค่าจากข้อมูลได้
สิ่งที่เพิ่มเข้ามาใน BI
- Metrics Layer : เครื่องมือเฉพาะทางใหม่อย่าง Transfrom, Supergrain และ dbt ก็ขยายเข้ามาในด้านนี้
- Reverse ETL : Hightouch, Census
- Data Workspace : Hex, Mode, Deepnote
- Data Discovery & Observability : Monte Carlo, Big Eye ระดมทุนก้อนใหญ่ได้สำเร็จ และยังมีบริษัทระยะ seed อีกมาก เช่น Select Star, Metaphor, Stemma, Secoda, Castor
สิ่งที่เพิ่มเข้ามาใน Multimodal Data Processing
- แนวทางต่อสถาปัตยกรรม Lakehouse
- Storage Layer ได้รับการยกระดับ : Delta/Iceberg/Hudi ถูกนำไปใช้มากขึ้นและเริ่มเชิงพาณิชย์มากขึ้น
- การนำ stream processing มาใช้เพิ่มขึ้น : การประมวลผลข้อมูลเชิงวิเคราะห์แบบเรียลไทม์ เช่น Materialize/Upsolver
สิ่งที่เพิ่มเข้ามาใน AI & ML
- กำลังถูกรวมเข้าด้วยกันผ่านแนวทางที่ยึดข้อมูลเป็นศูนย์กลาง
  - การติดป้ายกำกับข้อมูล : Scale, Labelbox ความสนใจต่อ Closed-loop Data Engine เพิ่มขึ้น
  - การนำ feature store มาใช้เพิ่มขึ้น : Tecton, Feast, Databricks
  - โซลูชัน Low-Code ML : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- การใช้โมเดล pre-trained กำลังกลายเป็นมาตรฐาน โดยเฉพาะใน NLP เช่น OpenAI & Hugging Face
- MLOps มีความเป็นผู้ใหญ่มากขึ้น และมีกรณีใช้งานรวมถึงงบประมาณที่เน้น ML Monitoring เพิ่มขึ้น
- ยังมีความสนใจสูงต่อวิธีเชื่อมต่อโมเดล ML เข้ากับแอปพลิเคชัน เช่น API ที่สร้างไว้ล่วงหน้า (OpenAI), vector database (Pinecone) เป็นต้น

สมมติฐานแพลตฟอร์มข้อมูล

ตลอด 1 ปีที่ผ่านมา สแตกโครงสร้างพื้นฐานข้อมูลได้ขยายตัวอย่างรวดเร็วทั้งในส่วนระบบแกนหลักและเครื่องมือสนับสนุน จึงมีการเสนอแนวคิดเรื่อง "แพลตฟอร์มข้อมูล" เพื่ออธิบายว่าทำไมสิ่งนี้จึงเกิดขึ้น
แพลตฟอร์มคืออะไร?
- ในระบบนิเวศข้อมูล คำว่า "แพลตฟอร์ม" ถูกใช้มากเกินไป ทั้งโดยทีมภายในที่ใช้เรียกเทคสแตกทั้งหมด หรือโดยผู้ขายที่ขายชุดผลิตภัณฑ์ที่เชื่อมต่อกันแบบหลวม ๆ
- ในซอฟต์แวร์ แพลตฟอร์มหมายถึงสิ่งที่นักพัฒนาคนอื่นสามารถสร้างบางอย่างต่อยอดบนมันได้
- คุณลักษณะที่ใช้กำหนดแพลตฟอร์ม จากมุมมองเชิงอุตสาหกรรม คือ "การพึ่งพาอาศัยกัน" ระหว่างผู้ให้บริการแพลตฟอร์มที่มีอิทธิพล (ทั้งทางเทคนิคและเศรษฐกิจ) กับกลุ่มนักพัฒนาภายนอก
แล้วแพลตฟอร์มข้อมูลคืออะไร?
- ในอดีต สแตกข้อมูลไม่ได้ตรงกับคำจำกัดความของแพลตฟอร์ม
- แม้จะมีความพึ่งพากันระหว่างผู้ให้บริการ ETL, data warehouse และ reporting แต่โมเดลการเชื่อมต่อมักเป็นแบบ 1:1 มากกว่า 1:หลาย และส่วนใหญ่ต้องอาศัยบริการเฉพาะทางมาช่วยเติมเต็ม
- จากการพูดคุยกับผู้เชี่ยวชาญด้านข้อมูลจำนวนมาก แนวโน้มนี้อาจกำลังเริ่มเปลี่ยนไป
- สมมติฐานแพลตฟอร์มมองว่า "แบ็กเอนด์ของสแตกข้อมูล (ตั้งแต่ data ingestion, storage, processing ไปจนถึง transformation)" กำลังเริ่มถูกรวมศูนย์โดยผู้ให้บริการบนคลาวด์บางราย
- ผลลัพธ์คือ ชุดข้อมูลลูกค้าถูกเก็บรวบรวมไว้ในระบบมาตรฐานชุดหนึ่ง และผู้ขายกำลังทำให้ข้อมูลเหล่านี้เข้าถึงได้ง่ายสำหรับนักพัฒนารายอื่น (ผ่านหลักการออกแบบพื้นฐานของ Databricks, มาตรฐาน SQL และ API อย่าง Snowpark ของ Snowflake)
- คล้ายกับที่นักพัฒนาฝั่งฟรอนต์เอนด์ได้ประโยชน์จากการเชื่อมต่อผ่านจุดเดียว ตอนนี้ก็สามารถเข้าถึงข้อมูลที่ถูกรวมแล้วได้โดยไม่ต้องสนใจโครงสร้างชั้นล่าง
- ระบบองค์กรแบบดั้งเดิมอย่างการเงินหรือ product analytics ก็เริ่มมีการพัฒนาใหม่บนสถาปัตยกรรมแบบ "Warehouse-native" เช่นกัน
- นี่ไม่ได้หมายความว่า OLTP DB หรือเทคโนโลยีแบ็กเอนด์สำคัญอื่น ๆ จะหายไปในเร็ว ๆ นี้
- แต่การเชื่อมต่อแบบ native กับระบบ OLAP อาจกลายเป็นองค์ประกอบสำคัญของการพัฒนาแอปพลิเคชัน
- ตรรกะทางธุรกิจและฟังก์ชันของแอปพลิเคชันจำนวนมากขึ้นเรื่อย ๆ อาจเปลี่ยนไปสู่โมเดลนี้
การเกิดขึ้นของ data apps?
- สมมติฐานแพลตฟอร์มข้อมูลนี้ยังมีอีกมากที่ต้องถกเถียงกัน
- อย่างไรก็ตาม เรากำลังเห็นโซลูชัน vertical SaaS ที่ซับซ้อนเพิ่มขึ้นในฐานะเลเยอร์แนวนอนบนแพลตฟอร์มข้อมูล
- บริษัทอย่าง Snowflake และ Databricks จะกลายเป็นชิ้นส่วนที่มั่นคงของสแตกข้อมูลลักษณะนี้
  - เพราะมีผลิตภัณฑ์ที่ยอดเยี่ยม ทีมขายที่แข็งแกร่ง และโมเดลการนำไปใช้งานที่มีแรงเสียดทานต่ำ
  - และเมื่อผู้ใช้สร้างหรือเชื่อมต่อแอปพลิเคชันข้อมูลบนระบบเหล่านี้แล้ว ก็ไม่สมเหตุสมผลที่จะย้ายไปอย่างอื่น
- การที่ผลิตภัณฑ์โครงสร้างพื้นฐานข้อมูลจำนวนมากถูกสร้างขึ้นในช่วงไม่กี่ปีที่ผ่านมา และยังคงเกิดขึ้นอย่างต่อเนื่อง น่าจะเกี่ยวข้องกับแพลตฟอร์มนี้
- สมมติฐานแพลตฟอร์มมีพลังในการทำให้พลวัตการแข่งขันคาดการณ์ได้มากขึ้น
  - หากขยายได้ถึงระดับใหญ่ แพลตฟอร์มจะมีมูลค่าสูงมาก
  - ผู้ขายระบบข้อมูลแกนหลักอาจกำลังแข่งขันกันอย่างดุเดือด ไม่ใช่เพื่อแย่งงบประมาณปัจจุบัน แต่เพื่อยึดสถานะแพลตฟอร์มระยะยาว
- มูลค่าที่สูงของบริษัทด้าน data ingestion & transformation หรือในกลุ่ม Metrics Layer และ Reverse ETL อาจสมเหตุสมผลขึ้น หากมองว่าพวกเขาเป็นส่วนสำคัญของแพลตฟอร์มข้อมูลแบบใหม่
มองไปข้างหน้า
- เรายังอยู่ในช่วงเริ่มต้นของการนิยามแพลตฟอร์มข้อมูลทั้งเชิงวิเคราะห์และเชิงปฏิบัติการ และชิ้นส่วนที่ประกอบเป็นแพลตฟอร์มก็ยังคงเปลี่ยนแปลงอยู่
- ดังนั้น การใช้แนวคิดนี้เป็นอุปมาอุปไมยน่าจะมีประโยชน์มากกว่าการมองว่าเป็นคำจำกัดความที่เคร่งครัด
- แต่สมมติฐานนี้ก็ยังมีประโยชน์ในฐานะเครื่องมือกรอง Signal ออกจาก Noise และช่วยให้เข้าใจว่าทำไมตลาดจึงเคลื่อนไหวเช่นนี้
- ตอนนี้ทีมข้อมูลมีทั้งเครื่องมือ ทรัพยากร และแรงส่งในระดับองค์กรมากกว่าช่วงเวลาใด ๆ นับตั้งแต่มีการคิดค้นฐานข้อมูล
- น่าตื่นเต้นมากที่จะได้เห็นว่าเลเยอร์แอปจะวิวัฒน์ไปอย่างไรบนแพลตฟอร์มใหม่นี้

4 ความคิดเห็น

sungwoo 2023-01-10

วิดีโอคอร์ส YouTube ที่เคยอัปโหลดไว้ก่อนหน้านี้ จะอัปเดตให้ด้วยไหมครับ/คะ..? ^^;
https://youtube.com/watch/…

ขอบคุณเสมอครับ/ค่ะ~

xguru 2023-01-10

พอหยุดทำวิดีโอไปแล้ว ก็เลยเหมือนจะกลับมาทำต่อได้ยากขึ้น ฮือ
คงน่าจะอัปเดตได้ยากในช่วงเวลาอันใกล้นี้ครับ

sungwoo 2023-01-10

อ้อครับ แค่เนื้อหาที่คุณโพสต์ไว้ก่อนหน้านี้ก็ช่วยได้มากแล้ว
ขอถือโอกาสนี้ขอบคุณครับ

xguru 2022-04-25

นี่คือเวอร์ชันอัปเดตของบทความ สถาปัตยกรรมใหม่สำหรับโครงสร้างพื้นฐานข้อมูลสมัยใหม่

พอจะจัดเรียบเรียงแล้วค่อยโพสต์ ก็พบว่าทาง Techit ได้แปลบทความเวอร์ชัน 2.0 นี้ไว้ครบทั้งฉบับเช่นกัน ลองอ่านประกอบกันได้ครับ
ยุคของสถาปัตยกรรมข้อมูลสมัยใหม่และสถาปัตยกรรมแบบใหม่

สถาปัตยกรรมใหม่ 2.0 สำหรับโครงสร้างพื้นฐานข้อมูลสมัยใหม่

Changelog

สมมติฐานแพลตฟอร์มข้อมูล

บทความที่เกี่ยวข้อง

4 ความคิดเห็น