Big Data ตายแล้ว
ฉันคือใคร และทำไมถึงเขียนบทความนี้?
- ตลอดกว่า 10 ปีที่ผ่านมา ผู้เขียนได้เน้นย้ำความสำคัญของ Big Data
- ในฐานะวิศวกรผู้ก่อตั้ง Google BigQuery ผู้เขียนได้ผลักดันเทคโนโลยีสำหรับจัดการ Big Data
- จากการพูดคุยกับลูกค้าและการวิเคราะห์ผลิตภัณฑ์ ผู้เขียนตระหนักว่าคนส่วนใหญ่ไม่ได้จัดการกับ Big Data จริง ๆ
สไลด์เกริ่นนำที่ต้องมี
- งานนำเสนอของผลิตภัณฑ์ Big Data จำนวนมากมักสื่อสารข้อความว่า "Big Data กำลังมา"
- แต่ในความเป็นจริง แอปพลิเคชันส่วนใหญ่ไม่จำเป็นต้องประมวลผลข้อมูลขนาดใหญ่มาก
- ระบบฐานข้อมูลแบบดั้งเดิมกำลังกลับมาได้รับความนิยมอีกครั้ง
คนส่วนใหญ่ไม่ได้มีข้อมูลมากขนาดนั้น
- ลูกค้าส่วนใหญ่มีข้อมูลไม่เกิน 1TB
- แม้แต่ลูกค้าที่มีข้อมูลขนาดใหญ่ ในทางปฏิบัติก็มักใช้เพียงส่วนเล็ก ๆ เท่านั้น
- ขนาดข้อมูลเป็นไปตามกฎพาเรโต โดยข้อมูลส่วนใหญ่มักกระจุกตัวอยู่กับลูกค้าส่วนน้อย
อคติไปทางการเก็บข้อมูลในการแยก storage กับ compute
- แพลตฟอร์มข้อมูลบนคลาวด์สมัยใหม่แยก storage ออกจาก compute
- พื้นที่เก็บข้อมูลเพิ่มขึ้นอย่างรวดเร็ว แต่ความต้องการด้าน compute ไม่ได้เปลี่ยนแปลงมากนัก
- การประมวลผลแบบกระจายอาจไม่จำเป็นสำหรับการจัดการชุดข้อมูลขนาดใหญ่
ขนาดของงานเล็กกว่าขนาดข้อมูลทั้งหมด
- งานวิเคราะห์ส่วนใหญ่มักประมวลผลชุดข้อมูลขนาดเล็ก
- คิวรีที่ประมวลผลข้อมูลจำนวนมากมีไม่บ่อย และมักใช้เพื่อสร้างรายงานเป็นหลัก
- มีแนวโน้มจะเลือกคิวรีขนาดเล็กเพื่อลดต้นทุนการประมวลผลข้อมูล
ข้อมูลส่วนใหญ่แทบไม่ถูกคิวรี
- ข้อมูลส่วนใหญ่มักถูกคิวรีบ่อยเฉพาะภายใน 24 ชั่วโมงหลังถูกสร้างขึ้น
- ข้อมูลเก่าแทบไม่ถูกคิวรี และมีแต่กินพื้นที่จัดเก็บ
เส้นแบ่งของ Big Data ถอยร่นอยู่เสมอ
- นิยามของ "Big Data" เปลี่ยนไปตามกาลเวลา
- ฮาร์ดแวร์สมัยใหม่สามารถจัดการข้อมูลที่ใหญ่กว่ามากเมื่อเทียบกับอดีต
ข้อมูลคือภาระรับผิดชอบ
- ต้นทุนในการเก็บข้อมูลไว้สูงเกินกว่าค่าเก็บข้อมูลเพียงอย่างเดียว
- ต้องคำนึงถึงการปฏิบัติตามข้อกำหนดและความรับผิดชอบทางกฎหมาย
- ข้อมูลเก่าดูแลรักษาได้ยาก
คุณอยู่ใน 1% ของ Big Data หรือไม่?
- คนส่วนใหญ่ไม่จำเป็นต้องจัดการกับ Big Data
- ควรพิจารณาว่าข้อมูลของคุณใหญ่จริงหรือไม่ และสามารถสรุปย่อได้หรือไม่ เป็นต้น
ความเห็นของ GN⁺
- ความสำคัญของการจัดการข้อมูล: สิ่งสำคัญไม่ใช่ขนาดของข้อมูล แต่คือคุณภาพและการจัดการข้อมูล การลบข้อมูลที่ไม่จำเป็นและโฟกัสกับข้อมูลสำคัญจะมีประสิทธิภาพมากกว่า
- แนวทางที่สอดคล้องกับความเป็นจริง: ธุรกิจส่วนใหญ่ไม่ได้ต้องการเทคโนโลยี Big Data การเลือกเครื่องมือให้เหมาะกับขนาดข้อมูลจริงและความต้องการจริงเป็นสิ่งสำคัญ
- การลดต้นทุน: ในสภาพแวดล้อมคลาวด์ การแยก storage และ compute ออกจากกันช่วยลดต้นทุนได้ การลดการประมวลผลข้อมูลที่ไม่จำเป็นย่อมคุ้มค่ากว่า
- ความรับผิดชอบทางกฎหมาย: การเก็บข้อมูลมาพร้อมความรับผิดชอบทางกฎหมาย ต้องระวังเรื่องการปฏิบัติตามข้อกำหนดและความปลอดภัยของข้อมูล
- ความก้าวหน้าทางเทคโนโลยี: ความก้าวหน้าของฮาร์ดแวร์และซอฟต์แวร์ทำให้การประมวลผลข้อมูลที่ในอดีตทำไม่ได้กลายเป็นสิ่งที่ทำได้ ใช้เทคโนโลยีล่าสุดเพื่อเพิ่มประสิทธิภาพได้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ประสบการณ์การจ้างนักวิทยาศาสตร์ข้อมูล: ในคำถามที่ถามถึงสถาปัตยกรรมสำหรับจัดการข้อมูลขนาด 6TiB ผู้สมัครที่เข้าใจว่าสามารถแก้ปัญหานี้ได้ด้วยสมาร์ตโฟนหรือ HDD ราคาถูกเป็นคนที่น่าประทับใจที่สุด
เปรียบเทียบ MongoDB กับ PostgreSQL: MongoDB ไม่มีข้อดีเหนือ PostgreSQL และโซลูชันบิ๊กดาต้ามักใช้ฐานข้อมูลแบบคอลัมน์ หรือ Map/Reduce, Cassandra เป็นต้น
การวางแผนเพื่อความสำเร็จ: ธุรกิจส่วนใหญ่ไม่ได้กลายเป็นยูนิคอร์น แต่ก็จำเป็นต้องตั้งเป้าไว้เช่นนั้น และต้องมีสถาปัตยกรรมที่คำนึงถึงการสเกลตั้งแต่เริ่มต้น
ขนาดข้อมูลและความถี่ของคิวรี: ข้อมูลส่วนใหญ่ไม่ได้ใหญ่ และคิวรีส่วนใหญ่ก็มีขนาดเล็ก ช่วงเริ่มต้นจำเป็นต้องทำงานเพื่อลดข้อมูลก่อน
บิ๊กดาต้ากับต้นทุนด้านกฎระเบียบ: ต้นทุนของข้อมูลกำลังเพิ่มขึ้นเพราะกฎระเบียบ
ประสบการณ์วิเคราะห์บิ๊กดาต้า: จากประสบการณ์ที่ Large Hadron Collider พบว่าสตอเรจภายในเครื่องที่รวดเร็วให้ผลดีกว่าเครือข่ายซูเปอร์คอมพิวเตอร์ระดับโลก
ความย้อนแย้งของบิ๊กดาต้า: มีแนวโน้มจะหลีกเลี่ยงการปรับแต่งซอฟต์แวร์พื้นฐาน เพื่อโอ้อวดความต้องการด้านฮาร์ดแวร์
ปริมาณสารสนเทศของข้อมูล: แม้ข้อมูลจะเพิ่มขึ้นแบบทวีคูณ แต่ปริมาณสารสนเทศไม่ได้เพิ่มตามนั้น ในภาคการเงินข้อมูลส่วนใหญ่ซ้ำซ้อน จึงจำเป็นต้องลดมิติข้อมูล
นิยามของบิ๊กดาต้า: บิ๊กดาต้าไม่ได้เป็นแค่ปัญหาเรื่องความจุในการจัดเก็บหรือความเร็วในการประมวลผล แต่เป็นปัญหาเรื่องความสามารถในการรับรู้เพื่อบูรณาการและทำความเข้าใจกับข้อมูล
การออกแบบเครื่องมือบิ๊กดาต้ามากเกินความจำเป็น: หลายกรณี data warehouse และ data lake แค่ระดับกิกะไบต์หรือเทราไบต์ก็เพียงพอแล้ว และสถาปัตยกรรมที่เรียบง่ายมักให้ประสิทธิภาพดีกว่า
กระแสของบิ๊กดาต้า: กระแสบิ๊กดาต้าจบลงแล้ว ซึ่งเป็นผลลัพธ์ที่พบได้บ่อยในอุตสาหกรรมที่อ่อนไหวต่อแฟชั่น
บิ๊กดาต้ากับอัตตาของผู้ก่อตั้ง: แรงขับสำคัญของบิ๊กดาต้าคืออัตตาของผู้ก่อตั้ง และในช่วงแรกแค่มี SQLite DB เดียวก็เพียงพอ
ปัญหาการประมวลผลของบิ๊กดาต้า: ปัญหาของบิ๊กดาต้าอยู่ที่การประมวลผลมากกว่าการจัดเก็บ และคิวรีส่วนใหญ่มักเกี่ยวข้องกับข้อมูลล่าสุดเท่านั้น หากการประมวลผลข้อมูลทั้งหมดง่ายกว่า ก็ชวนให้สงสัยว่าทำไมบริษัทส่วนใหญ่ยังคงคิวรีเฉพาะข้อมูลขนาดเล็กอยู่