1 คะแนน โดย GN⁺ 2024-05-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Big Data ตายแล้ว

ฉันคือใคร และทำไมถึงเขียนบทความนี้?

  • ตลอดกว่า 10 ปีที่ผ่านมา ผู้เขียนได้เน้นย้ำความสำคัญของ Big Data
  • ในฐานะวิศวกรผู้ก่อตั้ง Google BigQuery ผู้เขียนได้ผลักดันเทคโนโลยีสำหรับจัดการ Big Data
  • จากการพูดคุยกับลูกค้าและการวิเคราะห์ผลิตภัณฑ์ ผู้เขียนตระหนักว่าคนส่วนใหญ่ไม่ได้จัดการกับ Big Data จริง ๆ

สไลด์เกริ่นนำที่ต้องมี

  • งานนำเสนอของผลิตภัณฑ์ Big Data จำนวนมากมักสื่อสารข้อความว่า "Big Data กำลังมา"
  • แต่ในความเป็นจริง แอปพลิเคชันส่วนใหญ่ไม่จำเป็นต้องประมวลผลข้อมูลขนาดใหญ่มาก
  • ระบบฐานข้อมูลแบบดั้งเดิมกำลังกลับมาได้รับความนิยมอีกครั้ง

คนส่วนใหญ่ไม่ได้มีข้อมูลมากขนาดนั้น

  • ลูกค้าส่วนใหญ่มีข้อมูลไม่เกิน 1TB
  • แม้แต่ลูกค้าที่มีข้อมูลขนาดใหญ่ ในทางปฏิบัติก็มักใช้เพียงส่วนเล็ก ๆ เท่านั้น
  • ขนาดข้อมูลเป็นไปตามกฎพาเรโต โดยข้อมูลส่วนใหญ่มักกระจุกตัวอยู่กับลูกค้าส่วนน้อย

อคติไปทางการเก็บข้อมูลในการแยก storage กับ compute

  • แพลตฟอร์มข้อมูลบนคลาวด์สมัยใหม่แยก storage ออกจาก compute
  • พื้นที่เก็บข้อมูลเพิ่มขึ้นอย่างรวดเร็ว แต่ความต้องการด้าน compute ไม่ได้เปลี่ยนแปลงมากนัก
  • การประมวลผลแบบกระจายอาจไม่จำเป็นสำหรับการจัดการชุดข้อมูลขนาดใหญ่

ขนาดของงานเล็กกว่าขนาดข้อมูลทั้งหมด

  • งานวิเคราะห์ส่วนใหญ่มักประมวลผลชุดข้อมูลขนาดเล็ก
  • คิวรีที่ประมวลผลข้อมูลจำนวนมากมีไม่บ่อย และมักใช้เพื่อสร้างรายงานเป็นหลัก
  • มีแนวโน้มจะเลือกคิวรีขนาดเล็กเพื่อลดต้นทุนการประมวลผลข้อมูล

ข้อมูลส่วนใหญ่แทบไม่ถูกคิวรี

  • ข้อมูลส่วนใหญ่มักถูกคิวรีบ่อยเฉพาะภายใน 24 ชั่วโมงหลังถูกสร้างขึ้น
  • ข้อมูลเก่าแทบไม่ถูกคิวรี และมีแต่กินพื้นที่จัดเก็บ

เส้นแบ่งของ Big Data ถอยร่นอยู่เสมอ

  • นิยามของ "Big Data" เปลี่ยนไปตามกาลเวลา
  • ฮาร์ดแวร์สมัยใหม่สามารถจัดการข้อมูลที่ใหญ่กว่ามากเมื่อเทียบกับอดีต

ข้อมูลคือภาระรับผิดชอบ

  • ต้นทุนในการเก็บข้อมูลไว้สูงเกินกว่าค่าเก็บข้อมูลเพียงอย่างเดียว
  • ต้องคำนึงถึงการปฏิบัติตามข้อกำหนดและความรับผิดชอบทางกฎหมาย
  • ข้อมูลเก่าดูแลรักษาได้ยาก

คุณอยู่ใน 1% ของ Big Data หรือไม่?

  • คนส่วนใหญ่ไม่จำเป็นต้องจัดการกับ Big Data
  • ควรพิจารณาว่าข้อมูลของคุณใหญ่จริงหรือไม่ และสามารถสรุปย่อได้หรือไม่ เป็นต้น

ความเห็นของ GN⁺

  • ความสำคัญของการจัดการข้อมูล: สิ่งสำคัญไม่ใช่ขนาดของข้อมูล แต่คือคุณภาพและการจัดการข้อมูล การลบข้อมูลที่ไม่จำเป็นและโฟกัสกับข้อมูลสำคัญจะมีประสิทธิภาพมากกว่า
  • แนวทางที่สอดคล้องกับความเป็นจริง: ธุรกิจส่วนใหญ่ไม่ได้ต้องการเทคโนโลยี Big Data การเลือกเครื่องมือให้เหมาะกับขนาดข้อมูลจริงและความต้องการจริงเป็นสิ่งสำคัญ
  • การลดต้นทุน: ในสภาพแวดล้อมคลาวด์ การแยก storage และ compute ออกจากกันช่วยลดต้นทุนได้ การลดการประมวลผลข้อมูลที่ไม่จำเป็นย่อมคุ้มค่ากว่า
  • ความรับผิดชอบทางกฎหมาย: การเก็บข้อมูลมาพร้อมความรับผิดชอบทางกฎหมาย ต้องระวังเรื่องการปฏิบัติตามข้อกำหนดและความปลอดภัยของข้อมูล
  • ความก้าวหน้าทางเทคโนโลยี: ความก้าวหน้าของฮาร์ดแวร์และซอฟต์แวร์ทำให้การประมวลผลข้อมูลที่ในอดีตทำไม่ได้กลายเป็นสิ่งที่ทำได้ ใช้เทคโนโลยีล่าสุดเพื่อเพิ่มประสิทธิภาพได้

1 ความคิดเห็น

 
GN⁺ 2024-05-28
ความคิดเห็นบน Hacker News
  • ประสบการณ์การจ้างนักวิทยาศาสตร์ข้อมูล: ในคำถามที่ถามถึงสถาปัตยกรรมสำหรับจัดการข้อมูลขนาด 6TiB ผู้สมัครที่เข้าใจว่าสามารถแก้ปัญหานี้ได้ด้วยสมาร์ตโฟนหรือ HDD ราคาถูกเป็นคนที่น่าประทับใจที่สุด

  • เปรียบเทียบ MongoDB กับ PostgreSQL: MongoDB ไม่มีข้อดีเหนือ PostgreSQL และโซลูชันบิ๊กดาต้ามักใช้ฐานข้อมูลแบบคอลัมน์ หรือ Map/Reduce, Cassandra เป็นต้น

  • การวางแผนเพื่อความสำเร็จ: ธุรกิจส่วนใหญ่ไม่ได้กลายเป็นยูนิคอร์น แต่ก็จำเป็นต้องตั้งเป้าไว้เช่นนั้น และต้องมีสถาปัตยกรรมที่คำนึงถึงการสเกลตั้งแต่เริ่มต้น

  • ขนาดข้อมูลและความถี่ของคิวรี: ข้อมูลส่วนใหญ่ไม่ได้ใหญ่ และคิวรีส่วนใหญ่ก็มีขนาดเล็ก ช่วงเริ่มต้นจำเป็นต้องทำงานเพื่อลดข้อมูลก่อน

  • บิ๊กดาต้ากับต้นทุนด้านกฎระเบียบ: ต้นทุนของข้อมูลกำลังเพิ่มขึ้นเพราะกฎระเบียบ

  • ประสบการณ์วิเคราะห์บิ๊กดาต้า: จากประสบการณ์ที่ Large Hadron Collider พบว่าสตอเรจภายในเครื่องที่รวดเร็วให้ผลดีกว่าเครือข่ายซูเปอร์คอมพิวเตอร์ระดับโลก

  • ความย้อนแย้งของบิ๊กดาต้า: มีแนวโน้มจะหลีกเลี่ยงการปรับแต่งซอฟต์แวร์พื้นฐาน เพื่อโอ้อวดความต้องการด้านฮาร์ดแวร์

  • ปริมาณสารสนเทศของข้อมูล: แม้ข้อมูลจะเพิ่มขึ้นแบบทวีคูณ แต่ปริมาณสารสนเทศไม่ได้เพิ่มตามนั้น ในภาคการเงินข้อมูลส่วนใหญ่ซ้ำซ้อน จึงจำเป็นต้องลดมิติข้อมูล

  • นิยามของบิ๊กดาต้า: บิ๊กดาต้าไม่ได้เป็นแค่ปัญหาเรื่องความจุในการจัดเก็บหรือความเร็วในการประมวลผล แต่เป็นปัญหาเรื่องความสามารถในการรับรู้เพื่อบูรณาการและทำความเข้าใจกับข้อมูล

  • การออกแบบเครื่องมือบิ๊กดาต้ามากเกินความจำเป็น: หลายกรณี data warehouse และ data lake แค่ระดับกิกะไบต์หรือเทราไบต์ก็เพียงพอแล้ว และสถาปัตยกรรมที่เรียบง่ายมักให้ประสิทธิภาพดีกว่า

  • กระแสของบิ๊กดาต้า: กระแสบิ๊กดาต้าจบลงแล้ว ซึ่งเป็นผลลัพธ์ที่พบได้บ่อยในอุตสาหกรรมที่อ่อนไหวต่อแฟชั่น

  • บิ๊กดาต้ากับอัตตาของผู้ก่อตั้ง: แรงขับสำคัญของบิ๊กดาต้าคืออัตตาของผู้ก่อตั้ง และในช่วงแรกแค่มี SQLite DB เดียวก็เพียงพอ

  • ปัญหาการประมวลผลของบิ๊กดาต้า: ปัญหาของบิ๊กดาต้าอยู่ที่การประมวลผลมากกว่าการจัดเก็บ และคิวรีส่วนใหญ่มักเกี่ยวข้องกับข้อมูลล่าสุดเท่านั้น หากการประมวลผลข้อมูลทั้งหมดง่ายกว่า ก็ชวนให้สงสัยว่าทำไมบริษัทส่วนใหญ่ยังคงคิวรีเฉพาะข้อมูลขนาดเล็กอยู่