25 คะแนน โดย xguru 2022-04-25 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

อัปเดต 2.0 ของบทความที่เผยแพร่ในปี 2020

Changelog

  • 2 หมวดหมู่ใหม่ที่เติบโตอย่างรวดเร็ว
    • เครื่องมือสำหรับสนับสนุนกระบวนการและเวิร์กโฟลว์ด้านข้อมูลที่สำคัญ เช่น data discovery, observability และการตรวจสอบโมเดล ML
    • แอปพลิเคชันรูปแบบใหม่ เช่น data workspace, reverse ETL และเฟรมเวิร์กสำหรับแอปพลิเคชัน ML ที่ช่วยให้ทีมข้อมูลและผู้ใช้ธุรกิจสร้างคุณค่าจากข้อมูลได้
  • สิ่งที่เพิ่มเข้ามาใน BI
    • Metrics Layer : เครื่องมือเฉพาะทางใหม่อย่าง Transfrom, Supergrain และ dbt ก็ขยายเข้ามาในด้านนี้
    • Reverse ETL : Hightouch, Census
    • Data Workspace : Hex, Mode, Deepnote
    • Data Discovery & Observability : Monte Carlo, Big Eye ระดมทุนก้อนใหญ่ได้สำเร็จ และยังมีบริษัทระยะ seed อีกมาก เช่น Select Star, Metaphor, Stemma, Secoda, Castor
  • สิ่งที่เพิ่มเข้ามาใน Multimodal Data Processing
    • แนวทางต่อสถาปัตยกรรม Lakehouse
    • Storage Layer ได้รับการยกระดับ : Delta/Iceberg/Hudi ถูกนำไปใช้มากขึ้นและเริ่มเชิงพาณิชย์มากขึ้น
    • การนำ stream processing มาใช้เพิ่มขึ้น : การประมวลผลข้อมูลเชิงวิเคราะห์แบบเรียลไทม์ เช่น Materialize/Upsolver
  • สิ่งที่เพิ่มเข้ามาใน AI & ML
    • กำลังถูกรวมเข้าด้วยกันผ่านแนวทางที่ยึดข้อมูลเป็นศูนย์กลาง
      • การติดป้ายกำกับข้อมูล : Scale, Labelbox ความสนใจต่อ Closed-loop Data Engine เพิ่มขึ้น
      • การนำ feature store มาใช้เพิ่มขึ้น : Tecton, Feast, Databricks
      • โซลูชัน Low-Code ML : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • การใช้โมเดล pre-trained กำลังกลายเป็นมาตรฐาน โดยเฉพาะใน NLP เช่น OpenAI & Hugging Face
    • MLOps มีความเป็นผู้ใหญ่มากขึ้น และมีกรณีใช้งานรวมถึงงบประมาณที่เน้น ML Monitoring เพิ่มขึ้น
    • ยังมีความสนใจสูงต่อวิธีเชื่อมต่อโมเดล ML เข้ากับแอปพลิเคชัน เช่น API ที่สร้างไว้ล่วงหน้า (OpenAI), vector database (Pinecone) เป็นต้น

สมมติฐานแพลตฟอร์มข้อมูล

  • ตลอด 1 ปีที่ผ่านมา สแตกโครงสร้างพื้นฐานข้อมูลได้ขยายตัวอย่างรวดเร็วทั้งในส่วนระบบแกนหลักและเครื่องมือสนับสนุน จึงมีการเสนอแนวคิดเรื่อง "แพลตฟอร์มข้อมูล" เพื่ออธิบายว่าทำไมสิ่งนี้จึงเกิดขึ้น
  • แพลตฟอร์มคืออะไร?
    • ในระบบนิเวศข้อมูล คำว่า "แพลตฟอร์ม" ถูกใช้มากเกินไป ทั้งโดยทีมภายในที่ใช้เรียกเทคสแตกทั้งหมด หรือโดยผู้ขายที่ขายชุดผลิตภัณฑ์ที่เชื่อมต่อกันแบบหลวม ๆ
    • ในซอฟต์แวร์ แพลตฟอร์มหมายถึงสิ่งที่นักพัฒนาคนอื่นสามารถสร้างบางอย่างต่อยอดบนมันได้
    • คุณลักษณะที่ใช้กำหนดแพลตฟอร์ม จากมุมมองเชิงอุตสาหกรรม คือ "การพึ่งพาอาศัยกัน" ระหว่างผู้ให้บริการแพลตฟอร์มที่มีอิทธิพล (ทั้งทางเทคนิคและเศรษฐกิจ) กับกลุ่มนักพัฒนาภายนอก
  • แล้วแพลตฟอร์มข้อมูลคืออะไร?
    • ในอดีต สแตกข้อมูลไม่ได้ตรงกับคำจำกัดความของแพลตฟอร์ม
    • แม้จะมีความพึ่งพากันระหว่างผู้ให้บริการ ETL, data warehouse และ reporting แต่โมเดลการเชื่อมต่อมักเป็นแบบ 1:1 มากกว่า 1:หลาย และส่วนใหญ่ต้องอาศัยบริการเฉพาะทางมาช่วยเติมเต็ม
    • จากการพูดคุยกับผู้เชี่ยวชาญด้านข้อมูลจำนวนมาก แนวโน้มนี้อาจกำลังเริ่มเปลี่ยนไป
    • สมมติฐานแพลตฟอร์มมองว่า "แบ็กเอนด์ของสแตกข้อมูล (ตั้งแต่ data ingestion, storage, processing ไปจนถึง transformation)" กำลังเริ่มถูกรวมศูนย์โดยผู้ให้บริการบนคลาวด์บางราย
    • ผลลัพธ์คือ ชุดข้อมูลลูกค้าถูกเก็บรวบรวมไว้ในระบบมาตรฐานชุดหนึ่ง และผู้ขายกำลังทำให้ข้อมูลเหล่านี้เข้าถึงได้ง่ายสำหรับนักพัฒนารายอื่น (ผ่านหลักการออกแบบพื้นฐานของ Databricks, มาตรฐาน SQL และ API อย่าง Snowpark ของ Snowflake)
    • คล้ายกับที่นักพัฒนาฝั่งฟรอนต์เอนด์ได้ประโยชน์จากการเชื่อมต่อผ่านจุดเดียว ตอนนี้ก็สามารถเข้าถึงข้อมูลที่ถูกรวมแล้วได้โดยไม่ต้องสนใจโครงสร้างชั้นล่าง
    • ระบบองค์กรแบบดั้งเดิมอย่างการเงินหรือ product analytics ก็เริ่มมีการพัฒนาใหม่บนสถาปัตยกรรมแบบ "Warehouse-native" เช่นกัน
    • นี่ไม่ได้หมายความว่า OLTP DB หรือเทคโนโลยีแบ็กเอนด์สำคัญอื่น ๆ จะหายไปในเร็ว ๆ นี้
    • แต่การเชื่อมต่อแบบ native กับระบบ OLAP อาจกลายเป็นองค์ประกอบสำคัญของการพัฒนาแอปพลิเคชัน
    • ตรรกะทางธุรกิจและฟังก์ชันของแอปพลิเคชันจำนวนมากขึ้นเรื่อย ๆ อาจเปลี่ยนไปสู่โมเดลนี้
  • การเกิดขึ้นของ data apps?
    • สมมติฐานแพลตฟอร์มข้อมูลนี้ยังมีอีกมากที่ต้องถกเถียงกัน
    • อย่างไรก็ตาม เรากำลังเห็นโซลูชัน vertical SaaS ที่ซับซ้อนเพิ่มขึ้นในฐานะเลเยอร์แนวนอนบนแพลตฟอร์มข้อมูล
    • บริษัทอย่าง Snowflake และ Databricks จะกลายเป็นชิ้นส่วนที่มั่นคงของสแตกข้อมูลลักษณะนี้
      • เพราะมีผลิตภัณฑ์ที่ยอดเยี่ยม ทีมขายที่แข็งแกร่ง และโมเดลการนำไปใช้งานที่มีแรงเสียดทานต่ำ
      • และเมื่อผู้ใช้สร้างหรือเชื่อมต่อแอปพลิเคชันข้อมูลบนระบบเหล่านี้แล้ว ก็ไม่สมเหตุสมผลที่จะย้ายไปอย่างอื่น
    • การที่ผลิตภัณฑ์โครงสร้างพื้นฐานข้อมูลจำนวนมากถูกสร้างขึ้นในช่วงไม่กี่ปีที่ผ่านมา และยังคงเกิดขึ้นอย่างต่อเนื่อง น่าจะเกี่ยวข้องกับแพลตฟอร์มนี้
    • สมมติฐานแพลตฟอร์มมีพลังในการทำให้พลวัตการแข่งขันคาดการณ์ได้มากขึ้น
      • หากขยายได้ถึงระดับใหญ่ แพลตฟอร์มจะมีมูลค่าสูงมาก
      • ผู้ขายระบบข้อมูลแกนหลักอาจกำลังแข่งขันกันอย่างดุเดือด ไม่ใช่เพื่อแย่งงบประมาณปัจจุบัน แต่เพื่อยึดสถานะแพลตฟอร์มระยะยาว
    • มูลค่าที่สูงของบริษัทด้าน data ingestion & transformation หรือในกลุ่ม Metrics Layer และ Reverse ETL อาจสมเหตุสมผลขึ้น หากมองว่าพวกเขาเป็นส่วนสำคัญของแพลตฟอร์มข้อมูลแบบใหม่
  • มองไปข้างหน้า
    • เรายังอยู่ในช่วงเริ่มต้นของการนิยามแพลตฟอร์มข้อมูลทั้งเชิงวิเคราะห์และเชิงปฏิบัติการ และชิ้นส่วนที่ประกอบเป็นแพลตฟอร์มก็ยังคงเปลี่ยนแปลงอยู่
    • ดังนั้น การใช้แนวคิดนี้เป็นอุปมาอุปไมยน่าจะมีประโยชน์มากกว่าการมองว่าเป็นคำจำกัดความที่เคร่งครัด
    • แต่สมมติฐานนี้ก็ยังมีประโยชน์ในฐานะเครื่องมือกรอง Signal ออกจาก Noise และช่วยให้เข้าใจว่าทำไมตลาดจึงเคลื่อนไหวเช่นนี้
    • ตอนนี้ทีมข้อมูลมีทั้งเครื่องมือ ทรัพยากร และแรงส่งในระดับองค์กรมากกว่าช่วงเวลาใด ๆ นับตั้งแต่มีการคิดค้นฐานข้อมูล
    • น่าตื่นเต้นมากที่จะได้เห็นว่าเลเยอร์แอปจะวิวัฒน์ไปอย่างไรบนแพลตฟอร์มใหม่นี้

4 ความคิดเห็น

 
sungwoo 2023-01-10

วิดีโอคอร์ส YouTube ที่เคยอัปโหลดไว้ก่อนหน้านี้ จะอัปเดตให้ด้วยไหมครับ/คะ..? ^^;
https://youtube.com/watch/…

ขอบคุณเสมอครับ/ค่ะ~

 
xguru 2023-01-10

พอหยุดทำวิดีโอไปแล้ว ก็เลยเหมือนจะกลับมาทำต่อได้ยากขึ้น ฮือ
คงน่าจะอัปเดตได้ยากในช่วงเวลาอันใกล้นี้ครับ

 
sungwoo 2023-01-10

อ้อครับ แค่เนื้อหาที่คุณโพสต์ไว้ก่อนหน้านี้ก็ช่วยได้มากแล้ว
ขอถือโอกาสนี้ขอบคุณครับ

 
xguru 2022-04-25

นี่คือเวอร์ชันอัปเดตของบทความ สถาปัตยกรรมใหม่สำหรับโครงสร้างพื้นฐานข้อมูลสมัยใหม่

พอจะจัดเรียบเรียงแล้วค่อยโพสต์ ก็พบว่าทาง Techit ได้แปลบทความเวอร์ชัน 2.0 นี้ไว้ครบทั้งฉบับเช่นกัน ลองอ่านประกอบกันได้ครับ
ยุคของสถาปัตยกรรมข้อมูลสมัยใหม่และสถาปัตยกรรมแบบใหม่