แนวโน้ม Data Engineering: การคาดการณ์ปี 2025 จาก Data Engineering Weekly

xguru · 2024-12-23T10:36:01+09:00

การเปลี่ยนแปลงสำคัญของ data engineering ในปี 2024: การเติบโตอย่างก้าวกระโดดของ generative AI, การเติบโตเต็มที่ของ data governance และการมุ่งเน้นด้านประสิทธิภาพกับการประมวลผลแบบเรียลไทม์ ในปี 2025 คาดว่าจะมี 5 เทรนด์สำคัญที่จะเปลี่ยนโลกของข้อมูลต่อยอดจากกระแสเหล่านี้ 1. ความก้าวหน้าของ AI computing NVIDIA ก้าวขึ้นเป็นบริษัทที่มีมูลค่าตลาดสูงที่สุดในโลก และกำลังเติบโตในระดับที่อาจเกิดขึ้นเพียงครั้งเดียวในหนึ่งยุคสมัย Google ประกาศความก้าวหน้าครั้งสำคัญในด้าน quantum computing ผ่าน Willow Amazon, Google และ Microsoft กำลังแข่งขันกันอย่างดุเดือดในตลาดชิป AI โดยชิป Trainium2 ของ Amazon เป็นตัวอย่างสำคัญ PC และอุปกรณ์ที่ติดตั้ง Neural Processing Units (NPUs) ทำให้การประมวลผล AI แบบออฟไลน์เป็นไปได้ และช่วยยกระดับความเป็นส่วนตัวของข้อมูล นวัตกรรมอย่าง Edge TPU ของ Google กำลังเร่งการเปลี่ยนผ่านสู่ edge computing ที่ประหยัดพลังงานมากขึ้น และลดการพึ่งพาโครงสร้างพื้นฐานคลาวด์แบบรวมศูนย์ การเปลี่ยนผ่านสู่สถาปัตยกรรมการประมวลผลแบบไฮบริดและประหยัดพลังงาน กำลังลดช่องว่างระหว่างประสิทธิภาพ ต้นทุน และความเป็นส่วนตัวของแอปพลิเคชัน AI คาดว่าชิป Neuromorphic ซึ่งเลียนแบบโครงสร้างของสมอง จะมอบประสิทธิภาพด้านพลังงานที่เทียบชั้นได้ยาก พร้อมความสามารถในการประมวลผลข้อมูลที่ไม่มีโครงสร้างบนอุปกรณ์ มีความก้าวหน้าครั้งใหญ่ในด้าน neuromorphic และ quantum computing ซึ่งกำลังเปิดขอบเขตใหม่ของความสามารถ AI คาดว่าความก้าวหน้าของฮาร์ดแวร์ AI เหล่านี้จะขับเคลื่อนนวัตกรรมในด้าน natural language processing, computer vision, robotics และ healthcare ตั้งแต่ปี 2025 เป็นต้นไป 2. วิวัฒนาการของโมเดลภาษาที่เฉพาะทางตามโดเมน Domain-specific language models (LLMs) โมเดลภาษาที่ฝึกด้วยชุดข้อมูลเฉพาะอุตสาหกรรม กำลังยกระดับการประยุกต์ใช้ AI ในแต่ละอุตสาหกรรมไปอีกขั้น อุตสาหกรรมอย่างการแพทย์ การเงิน กฎหมาย และการผลิต กำลังนำโมเดลเหล่านี้ไปใช้เพื่อแก้ปัญหาที่ซับซ้อนและมีบริบทสูงได้อย่างแม่นยำ ความสามารถ AI ที่ปรับให้เหมาะกับความต้องการเชิงละเอียดของแต่ละอุตสาหกรรม กำลังสร้างนวัตกรรมให้กับกระบวนการทำงานและการตัดสินใจทั่วทั้งองค์กร Small Language Models (SLMs) โมเดลภาษาขนาดเล็ก (Small Language Models, SLMs) กำลังได้รับความสนใจในด้านความคุ้มค่าด้านต้นทุนและความสามารถในการปรับตัว SLM ที่ปรับให้เหมาะกับงานเฉพาะทาง กำลังแสดงประสิทธิภาพที่ดีกว่าโมเดลขนาดใหญ่ในขอบเขตที่จำกัด ด้วยความต้องการด้านคอมพิวต์ที่ลดลงและความสะดวกในการนำไปใช้งานที่ดีขึ้น SLM จะทำให้การเข้าถึง AI เป็นประชาธิปไตยมากขึ้น ช่วยให้องค์กรทุกขนาดสามารถใช้ความสามารถด้านภาษาอันซับซ้อนได้ โดยไม่ต้องแบกรับภาระในการดูแลระบบที่ใช้ทรัพยากรสูง 3. AI orchestrator และการให้เหตุผลหลายขั้นตอน AI orchestrator เมื่อองค์กรต่าง ๆ นำ AI agent เฉพาะทางหลากหลายรูปแบบมาใช้มากขึ้น คาดว่า AI orchestrator จะกลายเป็นแกนหลักของ AI-driven data stack orchestrator เหล่านี้ทำหน้าที่เป็น intelligent control plane โดยจะส่งต่องานไปยัง agent ที่เหมาะสมที่สุดแบบไดนามิก สังเคราะห์ผลลัพธ์ และให้ insight ที่นำไปปฏิบัติได้ ด้วยความสามารถในการเข้าใจเนื้อหาเชิงลึก การประมวลผลหลายภาษา และการรองรับข้อมูลหลายประเภท จึงสามารถรวม AI agent หลายตัวเข้าสู่ workflow ที่สอดคล้องกันได้ ความก้าวหน้าของการให้เหตุผลหลายขั้นตอน โมเดล AI กำลังพัฒนาจากการตอบคำถามแบบง่าย ๆ ไปสู่การแก้ปัญหาซับซ้อนผ่านการให้เหตุผลหลายขั้นตอน การแบ่งงานซับซ้อนออกเป็นลำดับขั้นตอนย่อย ๆ ทำให้สามารถวิเคราะห์ได้แม่นยำและลึกซึ้งยิ่งขึ้น ความสามารถนี้จะทำให้ AI agent รองรับงาน automation แบบ long-tail ได้ในด้านการเขียนโค้ด การแพทย์ กฎหมาย และอุตสาหกรรมอื่น ๆ การผสานกันของ AI orchestrator และการให้เหตุผลหลายขั้นตอน จะเปิดยุคใหม่ของ AI และขยายอิทธิพลของ AI ต่อการแก้ปัญหาและการตัดสินใจในหลากหลายสาขาอย่างมาก 4. สภาพแวดล้อมการพัฒนาแบบบูรณาการสำหรับการรวมข้อมูลยุคถัดไป (Data IDE) แนวทางด้าน data engineering กำลังเปลี่ยนแปลงอย่างพื้นฐาน จากความต้องการด้าน insight จากข้อมูลที่เพิ่มขึ้นขององค์กร ในปี 2025 คาดว่าจะมี integrated development environment (IDE) รูปแบบใหม่ที่ออกแบบมาเพื่อทำให้การเข้าถึงและจัดการข้อมูลเป็นประชาธิปไตยอย่างมีประสิทธิภาพ เครื่องมืออย่าง lakebyte.ai กำลังแสดงให้เห็นจุดเริ่มต้นของนวัตกรรมนี้ คุณลักษณะสำคัญ การรวมระบบอย่างไร้รอยต่อ รวมทั้งวงจรชีวิตข้อมูลตั้งแต่การเก็บข้อมูลและการแปลงข้อมูล ไปจนถึงการวิเคราะห์ การทำ visualization และการ deploy ไว้ในสภาพแวดล้อมเดียวอย่างลื่นไหล ความช่วยเหลืออัจฉริยะที่ขับเคลื่อนด้วย AI จะมาพร้อมความสามารถ AI ที่ให้ intelligent code completion, การทำความสะอาดข้อมูลอัตโนมัติ และคำแนะนำอัจฉริยะสำหรับการปรับแต่ง pipeline ไม่เพียงช่วยเขียนโค้ด แต่ยังเข้าใจความหมายของข้อมูลและแนะนำวิธีที่เหมาะสมที่สุดในการแปลงข้อมูล อินเทอร์เฟซ Low-Code/No-Code ผู้ใช้ที่มีประสบการณ์ด้านการเขียนโค้ดน้อยก็สามารถสร้างและจัดการ data pipeline ได้ผ่านอินเทอร์เฟซแบบ visual drag-and-drop ขณะเดียวกันก็ยังให้ความยืดหยุ่นแก่ผู้ใช้ระดับสูงในการเขียนโค้ดแบบกำหนดเองเมื่อจำเป็น ฟีเจอร์ด้านการทำงานร่วมกัน ส่งเสริมการทำงานร่วมกันอย่างราบรื่นระหว่าง data engineer, data scientist, analyst และผู้ใช้ทางธุรกิจ ช่วยให้ทำงานร่วมกันในโปรเจกต์ข้อมูลภายในสภาพแวดล้อมที่ใช้ร่วมกันได้ data governance ที่ฝังมาในตัว การตรวจสอบคุณภาพข้อมูล, CI/CD pipeline, การรัน integration test ก่อน push ไป production, access control และการติดตาม lineage ถูกผสานเข้าใน workflow การพัฒนาโดยตรง ช่วยให้มั่นใจว่า data governance จะไม่ถูกนำมาคิดภายหลัง รองรับแหล่งข้อมูลและฟอร์แมตที่หลากหลาย มี native connector สำหรับแหล่งข้อมูลหลากหลาย เช่น database, data lake, แพลตฟอร์มสตรีมมิง และ cloud storage รองรับรูปแบบข้อมูลหลายประเภท ทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง cloud-native และการขยายตัว ออกแบบมาให้ทำงานบนคลาวด์ โดยใช้ประโยชน์จาก scalability และ elasticity ของโครงสร้างพื้นฐานคลาวด์ คาดว่าการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE ที่ทรงพลังและใช้งานง่าย จะทำให้เกิด 'Citizen Data Engineers' ผู้เชี่ยวชาญในแต่ละโดเมนจะสามารถสร้างและจัดการ data workflow ได้ แม้ไม่ใช่นักเขียนโปรแกรมแบบดั้งเดิม คาดว่าการขจัดกำแพงระหว่างทีมเทคนิคและทีมที่ไม่ใช่เทคนิค จะเร่งนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล คาดว่าในปี 2025 Prompt Wrangling จะกลายเป็นทักษะที่สำคัญที่สุดสำหรับ data engineer 5. การมาของ LakeDB: เปลี่ยนฟอร์แมต lakehouse ให้กลายเป็น DB เส้นแบ่งระหว่าง data lake, data warehouse และ database กำลังเลือนรางลงเรื่อย ๆ ในปี 2025 คาดว่าจะเกิดกระบวนทัศน์ใหม่ที่เรียกว่า LakeDB นี่คือวิวัฒนาการของแนวคิด LakeHouse โดยพัฒนาไปในทิศทางที่ผสานความสามารถของ database ที่ทรงพลังยิ่งขึ้นเข้าไปใน data lake โดยตรง มอบทั้ง scalability และความยืดหยุ่นของ object storage พร้อมประสิทธิภาพและความง่ายในการใช้งานแบบ database ดั้งเดิม มอบความสามารถขั้นสูงที่มากกว่าเพียงการ query object storage และ table format จัดการ buffering, caching, index และงานเขียนแบบ native เพื่อให้ได้ประสิทธิภาพและความคุ้มค่าในระดับ LakeHouse LakeHouse ในปัจจุบันยังพึ่งพา processing framework ภายนอกอย่าง Spark หรือ Flink สำหรับการเก็บข้อมูล การแปลงข้อมูล และงานเขียน การพึ่งพาเช่นนี้เพิ่มความซับซ้อนและก่อให้เกิด latency ประสิทธิภาพอาจไม่สม่ำเสมอตามวิธีการ implement และอาจเกิดปัญหาเรื่อง interoperability LakeDB จะมีความสามารถเหล่านี้: ความสามารถในการเขียนแบบ native มอบเส้นทางการเขียนที่ปรับให้เหมาะกับ object storage พื้นฐานโดยตรง ช่วยลดความจำเป็นในการใช้ processing engine ภายนอกสำหรับงานทั่วไป การเพิ่มความสามารถด้าน S3 conditional write เมื่อไม่นานมานี้ ทำให้คาดว่า cloud object storage จะรองรับ write path ของ LakeDB ได้ buffering และ caching อัจฉริยะ จัดการ buffering และ caching ของข้อมูลอย่างชาญฉลาด เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน การจัดการธุรกรรม ใช้ S3 conditional write และเทคนิคการจัดการ metadata ขั้นสูง เพื่อมอบความสามารถด้าน transaction management ที่แข็งแกร่ง มี mechanism ในตัวเพื่อรับประกันความสอดคล้องและความถูกต้องสมบูรณ์ของข้อมูล ประสิทธิภาพการ query อัจฉริยะ ผสาน in-process OLAP engine อย่าง DuckDB เพื่อเพิ่มประสิทธิภาพในการประมวลผลข้อมูลขนาดเล็ก ปรับปรุงประสิทธิภาพการ query ผ่าน advanced indexing และ query optimization เลือกกลยุทธ์ที่เหมาะสมที่สุดโดยอัตโนมัติตามขนาดข้อมูล โดยที่ผู้ใช้ไม่ต้องกำหนดกลยุทธ์การ query แยกเอง การจัดการข้อมูลอัตโนมัติ ทำ data tiering, การบีบอัด และฟังก์ชันการปรับแต่งอื่น ๆ แบบอัตโนมัติ เพื่อลดความซับซ้อนในการดำเนินงานและลดต้นทุน ความสามารถด้าน vector search และการขยายตัว มีการรองรับในตัวสำหรับ vector database และ similarity search สามารถเลือกใช้เทคนิค indexing ที่เหมาะสมที่สุดสำหรับแต่ละคอลัมน์ เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน ฟีเจอร์อย่างการรองรับ secondary index ของ Hudi และ variable data type ของ Delta ได้เริ่มปรากฏในฟอร์แมต LakeHouse แล้ว แม้แนวคิด LakeDB จะยังอยู่ในระยะเริ่มต้น แต่คาดว่าในปี 2025 จะมีนวัตกรรมสำคัญเกิดขึ้นมากในด้านนี้ ฟอร์แมต LakeHouse ที่มีอยู่เดิมอาจพัฒนาไปสู่การผสานความสามารถคล้าย LakeDB มากขึ้น และอาจมีโซลูชันใหม่ที่ถูกสร้างขึ้นโดยมีวิสัยทัศน์นี้ตั้งแต่แรก 6. Data Mesh และสถาปัตยกรรมแบบ federated กับ zero ETL ที่อิงสัญญา แม้จะมีมุมมองเชิงกังขาต่อ data contract และ mesh แต่คาดว่าจะมีองค์กรจำนวนมากขึ้นนำสถาปัตยกรรม data mesh มาใช้ โดยเฉพาะในกรณีที่ต้องมีการแลกเปลี่ยนข้อมูลภายในองค์กร คาดว่าการใช้งาน data mesh จะเพิ่มขึ้น zero ETL และสถาปัตยกรรม federated query กำลังเป็นแรงขับเคลื่อนการเปลี่ยนแปลงนี้ zero ETL เทคโนโลยีกำลังพัฒนาไปในทิศทางที่ลดการเคลื่อนย้ายและการทำข้อมูลซ้ำให้น้อยที่สุด เทคโนโลยีอย่าง data virtualization, federated query engine และ data sharing protocol ช่วยให้เข้าถึงและวิเคราะห์ข้อมูลได้โดยไม่ต้องผ่านกระบวนการ ETL ที่ซับซ้อน คาดว่ากระบวนการ ETL แบบเดิมที่ซับซ้อนและใช้เวลามาก จะถูกทำให้ง่ายขึ้น การแชร์ข้อมูลกำลังกลายเป็นประเด็นสำคัญ โปรโตคอลและแพลตฟอร์มสำหรับการแชร์ข้อมูลที่ปลอดภัยและมีประสิทธิภาพ ทำให้สามารถทำงานร่วมกับพาร์ตเนอร์ ลูกค้า และคู่แข่งได้ คาดว่าการนำมาตรฐานอย่าง Delta Sharing ไปใช้จะเพิ่มขึ้นและพัฒนาอย่างต่อเนื่อง แนวโน้มในอนาคต คาดว่าทีมในแต่ละโดเมนจะสามารถเป็นเจ้าของ data pipeline ของตนเอง สร้าง data product และแชร์ข้อมูลข้ามขอบเขตองค์กรได้อย่างราบรื่น เมื่อองค์กรต่าง ๆ เพิ่มสัดส่วนการฝึก LLM ด้วยข้อมูลของตนเอง ความสำคัญของการแชร์ข้อมูลก็จะยิ่งเพิ่มขึ้น คาดว่าโมเดลการแชร์ข้อมูลจะช่วยเพิ่มความคล่องตัว ลดเวลาสู่การได้มาซึ่ง insight และทำให้เกิดแนวทางการจัดการข้อมูลที่กระจายศูนย์และขยายตัวได้มากขึ้น บทสรุป การเติบโตของ AI และการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE รูปแบบใหม่กำลังเร่งตัวขึ้น วิวัฒนาการของบทบาท data engineer และการมาของ LakeDB กำลังเปลี่ยนวิธีการจัดการข้อมูลอย่างพื้นฐาน หลักการของ data mesh ที่ได้รับแรงหนุนจาก zero ETL และสถาปัตยกรรม federated กำลังกลายเป็นกระแสหลัก ท่ามกลางสภาพแวดล้อมที่เปลี่ยนแปลงอย่างรวดเร็ว บทบาทของ data engineer กำลังสำคัญกว่าที่เคย คาดว่าจะกลายเป็นผู้วางสถาปัตยกรรมของ insight ผู้พิทักษ์คุณภาพข้อมูล และแรงขับเคลื่อนของนวัตกรรม พร้อมทั้งปรับตัวต่อความต้องการที่เปลี่ยนแปลงของโลกที่ขับเคลื่อนด้วยข้อมูล และสร้างคุณค่าใหม่ต่อไป

(dataengineeringweekly.com)

18 คะแนน โดย xguru 2024-12-23 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

การเปลี่ยนแปลงสำคัญของ data engineering ในปี 2024: การเติบโตอย่างก้าวกระโดดของ generative AI, การเติบโตเต็มที่ของ data governance และการมุ่งเน้นด้านประสิทธิภาพกับการประมวลผลแบบเรียลไทม์
ในปี 2025 คาดว่าจะมี 5 เทรนด์สำคัญที่จะเปลี่ยนโลกของข้อมูลต่อยอดจากกระแสเหล่านี้

1. ความก้าวหน้าของ AI computing

NVIDIA ก้าวขึ้นเป็นบริษัทที่มีมูลค่าตลาดสูงที่สุดในโลก และกำลังเติบโตในระดับที่อาจเกิดขึ้นเพียงครั้งเดียวในหนึ่งยุคสมัย
Google ประกาศความก้าวหน้าครั้งสำคัญในด้าน quantum computing ผ่าน Willow
Amazon, Google และ Microsoft กำลังแข่งขันกันอย่างดุเดือดในตลาดชิป AI โดยชิป Trainium2 ของ Amazon เป็นตัวอย่างสำคัญ
PC และอุปกรณ์ที่ติดตั้ง Neural Processing Units (NPUs) ทำให้การประมวลผล AI แบบออฟไลน์เป็นไปได้ และช่วยยกระดับความเป็นส่วนตัวของข้อมูล
นวัตกรรมอย่าง Edge TPU ของ Google กำลังเร่งการเปลี่ยนผ่านสู่ edge computing ที่ประหยัดพลังงานมากขึ้น และลดการพึ่งพาโครงสร้างพื้นฐานคลาวด์แบบรวมศูนย์
การเปลี่ยนผ่านสู่สถาปัตยกรรมการประมวลผลแบบไฮบริดและประหยัดพลังงาน กำลังลดช่องว่างระหว่างประสิทธิภาพ ต้นทุน และความเป็นส่วนตัวของแอปพลิเคชัน AI
คาดว่าชิป Neuromorphic ซึ่งเลียนแบบโครงสร้างของสมอง จะมอบประสิทธิภาพด้านพลังงานที่เทียบชั้นได้ยาก พร้อมความสามารถในการประมวลผลข้อมูลที่ไม่มีโครงสร้างบนอุปกรณ์
มีความก้าวหน้าครั้งใหญ่ในด้าน neuromorphic และ quantum computing ซึ่งกำลังเปิดขอบเขตใหม่ของความสามารถ AI
คาดว่าความก้าวหน้าของฮาร์ดแวร์ AI เหล่านี้จะขับเคลื่อนนวัตกรรมในด้าน natural language processing, computer vision, robotics และ healthcare ตั้งแต่ปี 2025 เป็นต้นไป

2. วิวัฒนาการของโมเดลภาษาที่เฉพาะทางตามโดเมน

Domain-specific language models (LLMs)
- โมเดลภาษาที่ฝึกด้วยชุดข้อมูลเฉพาะอุตสาหกรรม กำลังยกระดับการประยุกต์ใช้ AI ในแต่ละอุตสาหกรรมไปอีกขั้น
- อุตสาหกรรมอย่างการแพทย์ การเงิน กฎหมาย และการผลิต กำลังนำโมเดลเหล่านี้ไปใช้เพื่อแก้ปัญหาที่ซับซ้อนและมีบริบทสูงได้อย่างแม่นยำ
- ความสามารถ AI ที่ปรับให้เหมาะกับความต้องการเชิงละเอียดของแต่ละอุตสาหกรรม กำลังสร้างนวัตกรรมให้กับกระบวนการทำงานและการตัดสินใจทั่วทั้งองค์กร
Small Language Models (SLMs)
- โมเดลภาษาขนาดเล็ก (Small Language Models, SLMs) กำลังได้รับความสนใจในด้านความคุ้มค่าด้านต้นทุนและความสามารถในการปรับตัว
- SLM ที่ปรับให้เหมาะกับงานเฉพาะทาง กำลังแสดงประสิทธิภาพที่ดีกว่าโมเดลขนาดใหญ่ในขอบเขตที่จำกัด
- ด้วยความต้องการด้านคอมพิวต์ที่ลดลงและความสะดวกในการนำไปใช้งานที่ดีขึ้น SLM จะทำให้การเข้าถึง AI เป็นประชาธิปไตยมากขึ้น ช่วยให้องค์กรทุกขนาดสามารถใช้ความสามารถด้านภาษาอันซับซ้อนได้ โดยไม่ต้องแบกรับภาระในการดูแลระบบที่ใช้ทรัพยากรสูง

3. AI orchestrator และการให้เหตุผลหลายขั้นตอน

AI orchestrator
- เมื่อองค์กรต่าง ๆ นำ AI agent เฉพาะทางหลากหลายรูปแบบมาใช้มากขึ้น คาดว่า AI orchestrator จะกลายเป็นแกนหลักของ AI-driven data stack
- orchestrator เหล่านี้ทำหน้าที่เป็น intelligent control plane โดยจะส่งต่องานไปยัง agent ที่เหมาะสมที่สุดแบบไดนามิก สังเคราะห์ผลลัพธ์ และให้ insight ที่นำไปปฏิบัติได้
- ด้วยความสามารถในการเข้าใจเนื้อหาเชิงลึก การประมวลผลหลายภาษา และการรองรับข้อมูลหลายประเภท จึงสามารถรวม AI agent หลายตัวเข้าสู่ workflow ที่สอดคล้องกันได้
ความก้าวหน้าของการให้เหตุผลหลายขั้นตอน
- โมเดล AI กำลังพัฒนาจากการตอบคำถามแบบง่าย ๆ ไปสู่การแก้ปัญหาซับซ้อนผ่านการให้เหตุผลหลายขั้นตอน
- การแบ่งงานซับซ้อนออกเป็นลำดับขั้นตอนย่อย ๆ ทำให้สามารถวิเคราะห์ได้แม่นยำและลึกซึ้งยิ่งขึ้น
- ความสามารถนี้จะทำให้ AI agent รองรับงาน automation แบบ long-tail ได้ในด้านการเขียนโค้ด การแพทย์ กฎหมาย และอุตสาหกรรมอื่น ๆ
โฆษณา
การผสานกันของ AI orchestrator และการให้เหตุผลหลายขั้นตอน จะเปิดยุคใหม่ของ AI และขยายอิทธิพลของ AI ต่อการแก้ปัญหาและการตัดสินใจในหลากหลายสาขาอย่างมาก

4. สภาพแวดล้อมการพัฒนาแบบบูรณาการสำหรับการรวมข้อมูลยุคถัดไป (Data IDE)

แนวทางด้าน data engineering กำลังเปลี่ยนแปลงอย่างพื้นฐาน จากความต้องการด้าน insight จากข้อมูลที่เพิ่มขึ้นขององค์กร
ในปี 2025 คาดว่าจะมี integrated development environment (IDE) รูปแบบใหม่ที่ออกแบบมาเพื่อทำให้การเข้าถึงและจัดการข้อมูลเป็นประชาธิปไตยอย่างมีประสิทธิภาพ
เครื่องมืออย่าง lakebyte.ai กำลังแสดงให้เห็นจุดเริ่มต้นของนวัตกรรมนี้
คุณลักษณะสำคัญ
- การรวมระบบอย่างไร้รอยต่อ
  - รวมทั้งวงจรชีวิตข้อมูลตั้งแต่การเก็บข้อมูลและการแปลงข้อมูล ไปจนถึงการวิเคราะห์ การทำ visualization และการ deploy ไว้ในสภาพแวดล้อมเดียวอย่างลื่นไหล
- ความช่วยเหลืออัจฉริยะที่ขับเคลื่อนด้วย AI
  - จะมาพร้อมความสามารถ AI ที่ให้ intelligent code completion, การทำความสะอาดข้อมูลอัตโนมัติ และคำแนะนำอัจฉริยะสำหรับการปรับแต่ง pipeline
  - ไม่เพียงช่วยเขียนโค้ด แต่ยังเข้าใจความหมายของข้อมูลและแนะนำวิธีที่เหมาะสมที่สุดในการแปลงข้อมูล
- อินเทอร์เฟซ Low-Code/No-Code
  - ผู้ใช้ที่มีประสบการณ์ด้านการเขียนโค้ดน้อยก็สามารถสร้างและจัดการ data pipeline ได้ผ่านอินเทอร์เฟซแบบ visual drag-and-drop
  - ขณะเดียวกันก็ยังให้ความยืดหยุ่นแก่ผู้ใช้ระดับสูงในการเขียนโค้ดแบบกำหนดเองเมื่อจำเป็น
- ฟีเจอร์ด้านการทำงานร่วมกัน
  - ส่งเสริมการทำงานร่วมกันอย่างราบรื่นระหว่าง data engineer, data scientist, analyst และผู้ใช้ทางธุรกิจ
  - ช่วยให้ทำงานร่วมกันในโปรเจกต์ข้อมูลภายในสภาพแวดล้อมที่ใช้ร่วมกันได้
- data governance ที่ฝังมาในตัว
  - การตรวจสอบคุณภาพข้อมูล, CI/CD pipeline, การรัน integration test ก่อน push ไป production, access control และการติดตาม lineage ถูกผสานเข้าใน workflow การพัฒนาโดยตรง
  - ช่วยให้มั่นใจว่า data governance จะไม่ถูกนำมาคิดภายหลัง
- รองรับแหล่งข้อมูลและฟอร์แมตที่หลากหลาย
  - มี native connector สำหรับแหล่งข้อมูลหลากหลาย เช่น database, data lake, แพลตฟอร์มสตรีมมิง และ cloud storage
  - รองรับรูปแบบข้อมูลหลายประเภท ทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง
  โฆษณา
- cloud-native และการขยายตัว
  - ออกแบบมาให้ทำงานบนคลาวด์ โดยใช้ประโยชน์จาก scalability และ elasticity ของโครงสร้างพื้นฐานคลาวด์
คาดว่าการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE ที่ทรงพลังและใช้งานง่าย จะทำให้เกิด 'Citizen Data Engineers'
- ผู้เชี่ยวชาญในแต่ละโดเมนจะสามารถสร้างและจัดการ data workflow ได้ แม้ไม่ใช่นักเขียนโปรแกรมแบบดั้งเดิม
คาดว่าการขจัดกำแพงระหว่างทีมเทคนิคและทีมที่ไม่ใช่เทคนิค จะเร่งนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล
คาดว่าในปี 2025 Prompt Wrangling จะกลายเป็นทักษะที่สำคัญที่สุดสำหรับ data engineer

5. การมาของ LakeDB: เปลี่ยนฟอร์แมต lakehouse ให้กลายเป็น DB

เส้นแบ่งระหว่าง data lake, data warehouse และ database กำลังเลือนรางลงเรื่อย ๆ
ในปี 2025 คาดว่าจะเกิดกระบวนทัศน์ใหม่ที่เรียกว่า LakeDB
นี่คือวิวัฒนาการของแนวคิด LakeHouse โดยพัฒนาไปในทิศทางที่ผสานความสามารถของ database ที่ทรงพลังยิ่งขึ้นเข้าไปใน data lake โดยตรง
- มอบทั้ง scalability และความยืดหยุ่นของ object storage พร้อมประสิทธิภาพและความง่ายในการใช้งานแบบ database ดั้งเดิม
มอบความสามารถขั้นสูงที่มากกว่าเพียงการ query object storage และ table format
- จัดการ buffering, caching, index และงานเขียนแบบ native เพื่อให้ได้ประสิทธิภาพและความคุ้มค่าในระดับ LakeHouse
LakeHouse ในปัจจุบันยังพึ่งพา processing framework ภายนอกอย่าง Spark หรือ Flink สำหรับการเก็บข้อมูล การแปลงข้อมูล และงานเขียน
- การพึ่งพาเช่นนี้เพิ่มความซับซ้อนและก่อให้เกิด latency
- ประสิทธิภาพอาจไม่สม่ำเสมอตามวิธีการ implement และอาจเกิดปัญหาเรื่อง interoperability
โฆษณา
LakeDB จะมีความสามารถเหล่านี้:
- ความสามารถในการเขียนแบบ native
  - มอบเส้นทางการเขียนที่ปรับให้เหมาะกับ object storage พื้นฐานโดยตรง ช่วยลดความจำเป็นในการใช้ processing engine ภายนอกสำหรับงานทั่วไป
  - การเพิ่มความสามารถด้าน S3 conditional write เมื่อไม่นานมานี้ ทำให้คาดว่า cloud object storage จะรองรับ write path ของ LakeDB ได้
- buffering และ caching อัจฉริยะ
  - จัดการ buffering และ caching ของข้อมูลอย่างชาญฉลาด เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน
- การจัดการธุรกรรม
  - ใช้ S3 conditional write และเทคนิคการจัดการ metadata ขั้นสูง เพื่อมอบความสามารถด้าน transaction management ที่แข็งแกร่ง
  - มี mechanism ในตัวเพื่อรับประกันความสอดคล้องและความถูกต้องสมบูรณ์ของข้อมูล
- ประสิทธิภาพการ query อัจฉริยะ
  - ผสาน in-process OLAP engine อย่าง DuckDB เพื่อเพิ่มประสิทธิภาพในการประมวลผลข้อมูลขนาดเล็ก
  - ปรับปรุงประสิทธิภาพการ query ผ่าน advanced indexing และ query optimization
  - เลือกกลยุทธ์ที่เหมาะสมที่สุดโดยอัตโนมัติตามขนาดข้อมูล โดยที่ผู้ใช้ไม่ต้องกำหนดกลยุทธ์การ query แยกเอง
- การจัดการข้อมูลอัตโนมัติ
  - ทำ data tiering, การบีบอัด และฟังก์ชันการปรับแต่งอื่น ๆ แบบอัตโนมัติ เพื่อลดความซับซ้อนในการดำเนินงานและลดต้นทุน
- ความสามารถด้าน vector search และการขยายตัว
  - มีการรองรับในตัวสำหรับ vector database และ similarity search
  - สามารถเลือกใช้เทคนิค indexing ที่เหมาะสมที่สุดสำหรับแต่ละคอลัมน์ เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน
  - ฟีเจอร์อย่างการรองรับ secondary index ของ Hudi และ variable data type ของ Delta ได้เริ่มปรากฏในฟอร์แมต LakeHouse แล้ว
โฆษณา
แม้แนวคิด LakeDB จะยังอยู่ในระยะเริ่มต้น แต่คาดว่าในปี 2025 จะมีนวัตกรรมสำคัญเกิดขึ้นมากในด้านนี้
ฟอร์แมต LakeHouse ที่มีอยู่เดิมอาจพัฒนาไปสู่การผสานความสามารถคล้าย LakeDB มากขึ้น และอาจมีโซลูชันใหม่ที่ถูกสร้างขึ้นโดยมีวิสัยทัศน์นี้ตั้งแต่แรก

6. Data Mesh และสถาปัตยกรรมแบบ federated กับ zero ETL ที่อิงสัญญา

แม้จะมีมุมมองเชิงกังขาต่อ data contract และ mesh แต่คาดว่าจะมีองค์กรจำนวนมากขึ้นนำสถาปัตยกรรม data mesh มาใช้
โดยเฉพาะในกรณีที่ต้องมีการแลกเปลี่ยนข้อมูลภายในองค์กร คาดว่าการใช้งาน data mesh จะเพิ่มขึ้น
zero ETL และสถาปัตยกรรม federated query กำลังเป็นแรงขับเคลื่อนการเปลี่ยนแปลงนี้
zero ETL
- เทคโนโลยีกำลังพัฒนาไปในทิศทางที่ลดการเคลื่อนย้ายและการทำข้อมูลซ้ำให้น้อยที่สุด
- เทคโนโลยีอย่าง data virtualization, federated query engine และ data sharing protocol ช่วยให้เข้าถึงและวิเคราะห์ข้อมูลได้โดยไม่ต้องผ่านกระบวนการ ETL ที่ซับซ้อน
- คาดว่ากระบวนการ ETL แบบเดิมที่ซับซ้อนและใช้เวลามาก จะถูกทำให้ง่ายขึ้น
การแชร์ข้อมูลกำลังกลายเป็นประเด็นสำคัญ
- โปรโตคอลและแพลตฟอร์มสำหรับการแชร์ข้อมูลที่ปลอดภัยและมีประสิทธิภาพ ทำให้สามารถทำงานร่วมกับพาร์ตเนอร์ ลูกค้า และคู่แข่งได้
- คาดว่าการนำมาตรฐานอย่าง Delta Sharing ไปใช้จะเพิ่มขึ้นและพัฒนาอย่างต่อเนื่อง
แนวโน้มในอนาคต
- คาดว่าทีมในแต่ละโดเมนจะสามารถเป็นเจ้าของ data pipeline ของตนเอง สร้าง data product และแชร์ข้อมูลข้ามขอบเขตองค์กรได้อย่างราบรื่น
- เมื่อองค์กรต่าง ๆ เพิ่มสัดส่วนการฝึก LLM ด้วยข้อมูลของตนเอง ความสำคัญของการแชร์ข้อมูลก็จะยิ่งเพิ่มขึ้น
- คาดว่าโมเดลการแชร์ข้อมูลจะช่วยเพิ่มความคล่องตัว ลดเวลาสู่การได้มาซึ่ง insight และทำให้เกิดแนวทางการจัดการข้อมูลที่กระจายศูนย์และขยายตัวได้มากขึ้น

บทสรุป

การเติบโตของ AI และการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE รูปแบบใหม่กำลังเร่งตัวขึ้น
วิวัฒนาการของบทบาท data engineer และการมาของ LakeDB กำลังเปลี่ยนวิธีการจัดการข้อมูลอย่างพื้นฐาน
หลักการของ data mesh ที่ได้รับแรงหนุนจาก zero ETL และสถาปัตยกรรม federated กำลังกลายเป็นกระแสหลัก
ท่ามกลางสภาพแวดล้อมที่เปลี่ยนแปลงอย่างรวดเร็ว บทบาทของ data engineer กำลังสำคัญกว่าที่เคย
- คาดว่าจะกลายเป็นผู้วางสถาปัตยกรรมของ insight ผู้พิทักษ์คุณภาพข้อมูล และแรงขับเคลื่อนของนวัตกรรม
- พร้อมทั้งปรับตัวต่อความต้องการที่เปลี่ยนแปลงของโลกที่ขับเคลื่อนด้วยข้อมูล และสร้างคุณค่าใหม่ต่อไป