- ฉันเป็นใคร และทำไมถึงสนใจเรื่องนี้ → วิศวกรยุคแรกของ BigQuery
- สไลด์แนะนำที่ขาดไม่ได้ → กราฟ "ข้อมูลเพิ่มขึ้นอย่างระเบิดเถิดเทิงเมื่อเวลาผ่านไป" ที่ทุกคนชอบอ้างอิง
- คนส่วนใหญ่ไม่ได้มีข้อมูลมากขนาดนั้น
- การแยก storage และ computing ออกจากกัน ทำให้เกิดอคติไปทาง storage
- ขนาดของ workload เล็กกว่าขนาดข้อมูลทั้งหมด
- ข้อมูลส่วนใหญ่แทบไม่เคยถูก query
- พรมแดนของบิ๊กดาต้ากำลังถอยร่นลงอย่างต่อเนื่อง
- ข้อมูลคือภาระผูกพัน (Liability)
→ อีกคำจำกัดความหนึ่งของบิ๊กดาต้าคือ "เมื่อค่าใช้จ่ายในการเก็บข้อมูลไว้ ต่ำกว่าค่าใช้จ่ายในการหาว่าควรทิ้งอะไร"
- คุณอยู่ใน 1 เปอร์เซ็นต์ของบิ๊กดาต้าหรือเปล่า?
- คุณกำลังสร้างข้อมูลจำนวนมหาศาลจริง ๆ หรือไม่?
- ถ้าใช่ คุณจำเป็นต้องใช้ข้อมูลจำนวนมหาศาลนั้นพร้อมกันจริงหรือไม่?
- ถ้าใช่ ข้อมูลนั้นใหญ่เกินกว่าจะใส่ในระบบเดียวหรือไม่?
- ถ้าใช่ คุณมั่นใจหรือไม่ว่าตัวเองไม่ใช่แค่นักสะสมข้อมูล (Hoarder)?
- ถ้าใช่ การสรุปย่อข้อมูลจะไม่ดีกว่าหรือ?
- หากคุณตอบว่าไม่แม้แต่ข้อเดียวในรายการด้านบน
แทนที่จะใช้ "บิ๊กดาต้าขนาดน่าหวาดกลัว" ที่คุณอาจจะมีในสักวันหรืออาจไม่มีวันมี
คุณอาจเหมาะกับการใช้ "เครื่องมือข้อมูลยุคถัดไปที่ช่วยให้จัดการกับขนาดข้อมูลที่คุณมีอยู่จริง" มากกว่า
1 ความคิดเห็น
ต้องอ่านบทความนี้โดยคำนึงด้วยว่าบริษัทที่เขียนคือ MotherDuck ซึ่งเป็นบริษัทผู้สร้าง "DuckDB"
DuckDB - โอเพนซอร์ส Embedded OLAP DB
สโลแกนของบริษัทนี้คือ "Big Data is DEAD. Long live EASY DATA."
เป็นบริษัทที่โปรโมต embedded DB ของตัวเองด้วยคำว่า "Your laptop is faster than your data warehouse. Why wait for the Cloud?"
แน่นอนว่าไม่ได้หมายความว่าบทความนี้ไม่ดีนะครับ/ค่ะ โดยรวมแล้วอ่านสักครั้งก็คุ้มค่า และผม/ฉันก็เห็นด้วยกับหลายประเด็นในบทความนี้
เพราะมีบริษัทมากเกินไปที่มีข้อมูลนิดเดียวก็ยังบอกว่าตัวเองทำ "บิ๊กดาต้า"