บิ๊กดาต้าตายแล้ว

xguru · 2023-02-13T11:07:01+09:00

ฉันเป็นใคร และทำไมถึงสนใจเรื่องนี้ → วิศวกรยุคแรกของ BigQuery สไลด์แนะนำที่ขาดไม่ได้ → กราฟ "ข้อมูลเพิ่มขึ้นอย่างระเบิดเถิดเทิงเมื่อเวลาผ่านไป" ที่ทุกคนชอบอ้างอิง คนส่วนใหญ่ไม่ได้มีข้อมูลมากขนาดนั้น การแยก storage และ computing ออกจากกัน ทำให้เกิดอคติไปทาง storage ขนาดของ workload เล็กกว่าขนาดข้อมูลทั้งหมด ข้อมูลส่วนใหญ่แทบไม่เคยถูก query พรมแดนของบิ๊กดาต้ากำลังถอยร่นลงอย่างต่อเนื่อง ข้อมูลคือภาระผูกพัน (Liability) → อีกคำจำกัดความหนึ่งของบิ๊กดาต้าคือ "เมื่อค่าใช้จ่ายในการเก็บข้อมูลไว้ ต่ำกว่าค่าใช้จ่ายในการหาว่าควรทิ้งอะไร" คุณอยู่ใน 1 เปอร์เซ็นต์ของบิ๊กดาต้าหรือเปล่า? คุณกำลังสร้างข้อมูลจำนวนมหาศาลจริง ๆ หรือไม่? ถ้าใช่ คุณจำเป็นต้องใช้ข้อมูลจำนวนมหาศาลนั้นพร้อมกันจริงหรือไม่? ถ้าใช่ ข้อมูลนั้นใหญ่เกินกว่าจะใส่ในระบบเดียวหรือไม่? ถ้าใช่ คุณมั่นใจหรือไม่ว่าตัวเองไม่ใช่แค่นักสะสมข้อมูล (Hoarder)? ถ้าใช่ การสรุปย่อข้อมูลจะไม่ดีกว่าหรือ? หากคุณตอบว่าไม่แม้แต่ข้อเดียวในรายการด้านบน แทนที่จะใช้ "บิ๊กดาต้าขนาดน่าหวาดกลัว" ที่คุณอาจจะมีในสักวันหรืออาจไม่มีวันมี คุณอาจเหมาะกับการใช้ "เครื่องมือข้อมูลยุคถัดไปที่ช่วยให้จัดการกับขนาดข้อมูลที่คุณมีอยู่จริง" มากกว่า

(motherduck.com)

20 คะแนน โดย xguru 2023-02-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ฉันเป็นใคร และทำไมถึงสนใจเรื่องนี้ → วิศวกรยุคแรกของ BigQuery
สไลด์แนะนำที่ขาดไม่ได้ → กราฟ "ข้อมูลเพิ่มขึ้นอย่างระเบิดเถิดเทิงเมื่อเวลาผ่านไป" ที่ทุกคนชอบอ้างอิง
คนส่วนใหญ่ไม่ได้มีข้อมูลมากขนาดนั้น
การแยก storage และ computing ออกจากกัน ทำให้เกิดอคติไปทาง storage
ขนาดของ workload เล็กกว่าขนาดข้อมูลทั้งหมด
ข้อมูลส่วนใหญ่แทบไม่เคยถูก query
พรมแดนของบิ๊กดาต้ากำลังถอยร่นลงอย่างต่อเนื่อง
ข้อมูลคือภาระผูกพัน (Liability)
→ อีกคำจำกัดความหนึ่งของบิ๊กดาต้าคือ "เมื่อค่าใช้จ่ายในการเก็บข้อมูลไว้ ต่ำกว่าค่าใช้จ่ายในการหาว่าควรทิ้งอะไร"
คุณอยู่ใน 1 เปอร์เซ็นต์ของบิ๊กดาต้าหรือเปล่า?
- คุณกำลังสร้างข้อมูลจำนวนมหาศาลจริง ๆ หรือไม่?
- ถ้าใช่ คุณจำเป็นต้องใช้ข้อมูลจำนวนมหาศาลนั้นพร้อมกันจริงหรือไม่?
- ถ้าใช่ ข้อมูลนั้นใหญ่เกินกว่าจะใส่ในระบบเดียวหรือไม่?
- ถ้าใช่ คุณมั่นใจหรือไม่ว่าตัวเองไม่ใช่แค่นักสะสมข้อมูล (Hoarder)?
- ถ้าใช่ การสรุปย่อข้อมูลจะไม่ดีกว่าหรือ?
หากคุณตอบว่าไม่แม้แต่ข้อเดียวในรายการด้านบน
แทนที่จะใช้ "บิ๊กดาต้าขนาดน่าหวาดกลัว" ที่คุณอาจจะมีในสักวันหรืออาจไม่มีวันมี
คุณอาจเหมาะกับการใช้ "เครื่องมือข้อมูลยุคถัดไปที่ช่วยให้จัดการกับขนาดข้อมูลที่คุณมีอยู่จริง" มากกว่า

1 ความคิดเห็น

xguru 2023-02-13

ต้องอ่านบทความนี้โดยคำนึงด้วยว่าบริษัทที่เขียนคือ MotherDuck ซึ่งเป็นบริษัทผู้สร้าง "DuckDB"
DuckDB - โอเพนซอร์ส Embedded OLAP DB

สโลแกนของบริษัทนี้คือ "Big Data is DEAD. Long live EASY DATA."
เป็นบริษัทที่โปรโมต embedded DB ของตัวเองด้วยคำว่า "Your laptop is faster than your data warehouse. Why wait for the Cloud?"

แน่นอนว่าไม่ได้หมายความว่าบทความนี้ไม่ดีนะครับ/ค่ะ โดยรวมแล้วอ่านสักครั้งก็คุ้มค่า และผม/ฉันก็เห็นด้วยกับหลายประเด็นในบทความนี้
เพราะมีบริษัทมากเกินไปที่มีข้อมูลนิดเดียวก็ยังบอกว่าตัวเองทำ "บิ๊กดาต้า"

บิ๊กดาต้าตายแล้ว

บทความที่เกี่ยวข้อง

1 ความคิดเห็น