- การเปลี่ยนแปลงสำคัญของ data engineering ในปี 2024: การเติบโตอย่างก้าวกระโดดของ generative AI, การเติบโตเต็มที่ของ data governance และการมุ่งเน้นด้านประสิทธิภาพกับการประมวลผลแบบเรียลไทม์
- ในปี 2025 คาดว่าจะมี 5 เทรนด์สำคัญที่จะเปลี่ยนโลกของข้อมูลต่อยอดจากกระแสเหล่านี้
1. ความก้าวหน้าของ AI computing
- NVIDIA ก้าวขึ้นเป็นบริษัทที่มีมูลค่าตลาดสูงที่สุดในโลก และกำลังเติบโตในระดับที่อาจเกิดขึ้นเพียงครั้งเดียวในหนึ่งยุคสมัย
- Google ประกาศความก้าวหน้าครั้งสำคัญในด้าน quantum computing ผ่าน Willow
- Amazon, Google และ Microsoft กำลังแข่งขันกันอย่างดุเดือดในตลาดชิป AI โดยชิป Trainium2 ของ Amazon เป็นตัวอย่างสำคัญ
- PC และอุปกรณ์ที่ติดตั้ง Neural Processing Units (NPUs) ทำให้การประมวลผล AI แบบออฟไลน์เป็นไปได้ และช่วยยกระดับความเป็นส่วนตัวของข้อมูล
- นวัตกรรมอย่าง Edge TPU ของ Google กำลังเร่งการเปลี่ยนผ่านสู่ edge computing ที่ประหยัดพลังงานมากขึ้น และลดการพึ่งพาโครงสร้างพื้นฐานคลาวด์แบบรวมศูนย์
- การเปลี่ยนผ่านสู่สถาปัตยกรรมการประมวลผลแบบไฮบริดและประหยัดพลังงาน กำลังลดช่องว่างระหว่างประสิทธิภาพ ต้นทุน และความเป็นส่วนตัวของแอปพลิเคชัน AI
- คาดว่าชิป Neuromorphic ซึ่งเลียนแบบโครงสร้างของสมอง จะมอบประสิทธิภาพด้านพลังงานที่เทียบชั้นได้ยาก พร้อมความสามารถในการประมวลผลข้อมูลที่ไม่มีโครงสร้างบนอุปกรณ์
- มีความก้าวหน้าครั้งใหญ่ในด้าน neuromorphic และ quantum computing ซึ่งกำลังเปิดขอบเขตใหม่ของความสามารถ AI
- คาดว่าความก้าวหน้าของฮาร์ดแวร์ AI เหล่านี้จะขับเคลื่อนนวัตกรรมในด้าน natural language processing, computer vision, robotics และ healthcare ตั้งแต่ปี 2025 เป็นต้นไป
2. วิวัฒนาการของโมเดลภาษาที่เฉพาะทางตามโดเมน
- Domain-specific language models (LLMs)
- โมเดลภาษาที่ฝึกด้วยชุดข้อมูลเฉพาะอุตสาหกรรม กำลังยกระดับการประยุกต์ใช้ AI ในแต่ละอุตสาหกรรมไปอีกขั้น
- อุตสาหกรรมอย่างการแพทย์ การเงิน กฎหมาย และการผลิต กำลังนำโมเดลเหล่านี้ไปใช้เพื่อแก้ปัญหาที่ซับซ้อนและมีบริบทสูงได้อย่างแม่นยำ
- ความสามารถ AI ที่ปรับให้เหมาะกับความต้องการเชิงละเอียดของแต่ละอุตสาหกรรม กำลังสร้างนวัตกรรมให้กับกระบวนการทำงานและการตัดสินใจทั่วทั้งองค์กร
- Small Language Models (SLMs)
- โมเดลภาษาขนาดเล็ก (Small Language Models, SLMs) กำลังได้รับความสนใจในด้านความคุ้มค่าด้านต้นทุนและความสามารถในการปรับตัว
- SLM ที่ปรับให้เหมาะกับงานเฉพาะทาง กำลังแสดงประสิทธิภาพที่ดีกว่าโมเดลขนาดใหญ่ในขอบเขตที่จำกัด
- ด้วยความต้องการด้านคอมพิวต์ที่ลดลงและความสะดวกในการนำไปใช้งานที่ดีขึ้น SLM จะทำให้การเข้าถึง AI เป็นประชาธิปไตยมากขึ้น ช่วยให้องค์กรทุกขนาดสามารถใช้ความสามารถด้านภาษาอันซับซ้อนได้ โดยไม่ต้องแบกรับภาระในการดูแลระบบที่ใช้ทรัพยากรสูง
3. AI orchestrator และการให้เหตุผลหลายขั้นตอน
- AI orchestrator
- เมื่อองค์กรต่าง ๆ นำ AI agent เฉพาะทางหลากหลายรูปแบบมาใช้มากขึ้น คาดว่า AI orchestrator จะกลายเป็นแกนหลักของ AI-driven data stack
- orchestrator เหล่านี้ทำหน้าที่เป็น intelligent control plane โดยจะส่งต่องานไปยัง agent ที่เหมาะสมที่สุดแบบไดนามิก สังเคราะห์ผลลัพธ์ และให้ insight ที่นำไปปฏิบัติได้
- ด้วยความสามารถในการเข้าใจเนื้อหาเชิงลึก การประมวลผลหลายภาษา และการรองรับข้อมูลหลายประเภท จึงสามารถรวม AI agent หลายตัวเข้าสู่ workflow ที่สอดคล้องกันได้
- ความก้าวหน้าของการให้เหตุผลหลายขั้นตอน
- โมเดล AI กำลังพัฒนาจากการตอบคำถามแบบง่าย ๆ ไปสู่การแก้ปัญหาซับซ้อนผ่านการให้เหตุผลหลายขั้นตอน
- การแบ่งงานซับซ้อนออกเป็นลำดับขั้นตอนย่อย ๆ ทำให้สามารถวิเคราะห์ได้แม่นยำและลึกซึ้งยิ่งขึ้น
- ความสามารถนี้จะทำให้ AI agent รองรับงาน automation แบบ long-tail ได้ในด้านการเขียนโค้ด การแพทย์ กฎหมาย และอุตสาหกรรมอื่น ๆ
- การผสานกันของ AI orchestrator และการให้เหตุผลหลายขั้นตอน จะเปิดยุคใหม่ของ AI และขยายอิทธิพลของ AI ต่อการแก้ปัญหาและการตัดสินใจในหลากหลายสาขาอย่างมาก
4. สภาพแวดล้อมการพัฒนาแบบบูรณาการสำหรับการรวมข้อมูลยุคถัดไป (Data IDE)
- แนวทางด้าน data engineering กำลังเปลี่ยนแปลงอย่างพื้นฐาน จากความต้องการด้าน insight จากข้อมูลที่เพิ่มขึ้นขององค์กร
- ในปี 2025 คาดว่าจะมี integrated development environment (IDE) รูปแบบใหม่ที่ออกแบบมาเพื่อทำให้การเข้าถึงและจัดการข้อมูลเป็นประชาธิปไตยอย่างมีประสิทธิภาพ
- เครื่องมืออย่าง lakebyte.ai กำลังแสดงให้เห็นจุดเริ่มต้นของนวัตกรรมนี้
- คุณลักษณะสำคัญ
- การรวมระบบอย่างไร้รอยต่อ
- รวมทั้งวงจรชีวิตข้อมูลตั้งแต่การเก็บข้อมูลและการแปลงข้อมูล ไปจนถึงการวิเคราะห์ การทำ visualization และการ deploy ไว้ในสภาพแวดล้อมเดียวอย่างลื่นไหล
- ความช่วยเหลืออัจฉริยะที่ขับเคลื่อนด้วย AI
- จะมาพร้อมความสามารถ AI ที่ให้ intelligent code completion, การทำความสะอาดข้อมูลอัตโนมัติ และคำแนะนำอัจฉริยะสำหรับการปรับแต่ง pipeline
- ไม่เพียงช่วยเขียนโค้ด แต่ยังเข้าใจความหมายของข้อมูลและแนะนำวิธีที่เหมาะสมที่สุดในการแปลงข้อมูล
- อินเทอร์เฟซ Low-Code/No-Code
- ผู้ใช้ที่มีประสบการณ์ด้านการเขียนโค้ดน้อยก็สามารถสร้างและจัดการ data pipeline ได้ผ่านอินเทอร์เฟซแบบ visual drag-and-drop
- ขณะเดียวกันก็ยังให้ความยืดหยุ่นแก่ผู้ใช้ระดับสูงในการเขียนโค้ดแบบกำหนดเองเมื่อจำเป็น
- ฟีเจอร์ด้านการทำงานร่วมกัน
- ส่งเสริมการทำงานร่วมกันอย่างราบรื่นระหว่าง data engineer, data scientist, analyst และผู้ใช้ทางธุรกิจ
- ช่วยให้ทำงานร่วมกันในโปรเจกต์ข้อมูลภายในสภาพแวดล้อมที่ใช้ร่วมกันได้
- data governance ที่ฝังมาในตัว
- การตรวจสอบคุณภาพข้อมูล, CI/CD pipeline, การรัน integration test ก่อน push ไป production, access control และการติดตาม lineage ถูกผสานเข้าใน workflow การพัฒนาโดยตรง
- ช่วยให้มั่นใจว่า data governance จะไม่ถูกนำมาคิดภายหลัง
- รองรับแหล่งข้อมูลและฟอร์แมตที่หลากหลาย
- มี native connector สำหรับแหล่งข้อมูลหลากหลาย เช่น database, data lake, แพลตฟอร์มสตรีมมิง และ cloud storage
- รองรับรูปแบบข้อมูลหลายประเภท ทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง
- cloud-native และการขยายตัว
- ออกแบบมาให้ทำงานบนคลาวด์ โดยใช้ประโยชน์จาก scalability และ elasticity ของโครงสร้างพื้นฐานคลาวด์
- คาดว่าการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE ที่ทรงพลังและใช้งานง่าย จะทำให้เกิด 'Citizen Data Engineers'
- ผู้เชี่ยวชาญในแต่ละโดเมนจะสามารถสร้างและจัดการ data workflow ได้ แม้ไม่ใช่นักเขียนโปรแกรมแบบดั้งเดิม
- คาดว่าการขจัดกำแพงระหว่างทีมเทคนิคและทีมที่ไม่ใช่เทคนิค จะเร่งนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล
- คาดว่าในปี 2025 Prompt Wrangling จะกลายเป็นทักษะที่สำคัญที่สุดสำหรับ data engineer
5. การมาของ LakeDB: เปลี่ยนฟอร์แมต lakehouse ให้กลายเป็น DB
- เส้นแบ่งระหว่าง data lake, data warehouse และ database กำลังเลือนรางลงเรื่อย ๆ
- ในปี 2025 คาดว่าจะเกิดกระบวนทัศน์ใหม่ที่เรียกว่า LakeDB
- นี่คือวิวัฒนาการของแนวคิด LakeHouse โดยพัฒนาไปในทิศทางที่ผสานความสามารถของ database ที่ทรงพลังยิ่งขึ้นเข้าไปใน data lake โดยตรง
- มอบทั้ง scalability และความยืดหยุ่นของ object storage พร้อมประสิทธิภาพและความง่ายในการใช้งานแบบ database ดั้งเดิม
- มอบความสามารถขั้นสูงที่มากกว่าเพียงการ query object storage และ table format
- จัดการ buffering, caching, index และงานเขียนแบบ native เพื่อให้ได้ประสิทธิภาพและความคุ้มค่าในระดับ LakeHouse
- LakeHouse ในปัจจุบันยังพึ่งพา processing framework ภายนอกอย่าง Spark หรือ Flink สำหรับการเก็บข้อมูล การแปลงข้อมูล และงานเขียน
- การพึ่งพาเช่นนี้เพิ่มความซับซ้อนและก่อให้เกิด latency
- ประสิทธิภาพอาจไม่สม่ำเสมอตามวิธีการ implement และอาจเกิดปัญหาเรื่อง interoperability
- LakeDB จะมีความสามารถเหล่านี้:
- ความสามารถในการเขียนแบบ native
- มอบเส้นทางการเขียนที่ปรับให้เหมาะกับ object storage พื้นฐานโดยตรง ช่วยลดความจำเป็นในการใช้ processing engine ภายนอกสำหรับงานทั่วไป
- การเพิ่มความสามารถด้าน S3 conditional write เมื่อไม่นานมานี้ ทำให้คาดว่า cloud object storage จะรองรับ write path ของ LakeDB ได้
- buffering และ caching อัจฉริยะ
- จัดการ buffering และ caching ของข้อมูลอย่างชาญฉลาด เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน
- การจัดการธุรกรรม
- ใช้ S3 conditional write และเทคนิคการจัดการ metadata ขั้นสูง เพื่อมอบความสามารถด้าน transaction management ที่แข็งแกร่ง
- มี mechanism ในตัวเพื่อรับประกันความสอดคล้องและความถูกต้องสมบูรณ์ของข้อมูล
- ประสิทธิภาพการ query อัจฉริยะ
- ผสาน in-process OLAP engine อย่าง DuckDB เพื่อเพิ่มประสิทธิภาพในการประมวลผลข้อมูลขนาดเล็ก
- ปรับปรุงประสิทธิภาพการ query ผ่าน advanced indexing และ query optimization
- เลือกกลยุทธ์ที่เหมาะสมที่สุดโดยอัตโนมัติตามขนาดข้อมูล โดยที่ผู้ใช้ไม่ต้องกำหนดกลยุทธ์การ query แยกเอง
- การจัดการข้อมูลอัตโนมัติ
- ทำ data tiering, การบีบอัด และฟังก์ชันการปรับแต่งอื่น ๆ แบบอัตโนมัติ เพื่อลดความซับซ้อนในการดำเนินงานและลดต้นทุน
- ความสามารถด้าน vector search และการขยายตัว
- มีการรองรับในตัวสำหรับ vector database และ similarity search
- สามารถเลือกใช้เทคนิค indexing ที่เหมาะสมที่สุดสำหรับแต่ละคอลัมน์ เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน
- ฟีเจอร์อย่างการรองรับ secondary index ของ Hudi และ variable data type ของ Delta ได้เริ่มปรากฏในฟอร์แมต LakeHouse แล้ว
- แม้แนวคิด LakeDB จะยังอยู่ในระยะเริ่มต้น แต่คาดว่าในปี 2025 จะมีนวัตกรรมสำคัญเกิดขึ้นมากในด้านนี้
- ฟอร์แมต LakeHouse ที่มีอยู่เดิมอาจพัฒนาไปสู่การผสานความสามารถคล้าย LakeDB มากขึ้น และอาจมีโซลูชันใหม่ที่ถูกสร้างขึ้นโดยมีวิสัยทัศน์นี้ตั้งแต่แรก
6. Data Mesh และสถาปัตยกรรมแบบ federated กับ zero ETL ที่อิงสัญญา
- แม้จะมีมุมมองเชิงกังขาต่อ data contract และ mesh แต่คาดว่าจะมีองค์กรจำนวนมากขึ้นนำสถาปัตยกรรม data mesh มาใช้
- โดยเฉพาะในกรณีที่ต้องมีการแลกเปลี่ยนข้อมูลภายในองค์กร คาดว่าการใช้งาน data mesh จะเพิ่มขึ้น
- zero ETL และสถาปัตยกรรม federated query กำลังเป็นแรงขับเคลื่อนการเปลี่ยนแปลงนี้
- zero ETL
- เทคโนโลยีกำลังพัฒนาไปในทิศทางที่ลดการเคลื่อนย้ายและการทำข้อมูลซ้ำให้น้อยที่สุด
- เทคโนโลยีอย่าง data virtualization, federated query engine และ data sharing protocol ช่วยให้เข้าถึงและวิเคราะห์ข้อมูลได้โดยไม่ต้องผ่านกระบวนการ ETL ที่ซับซ้อน
- คาดว่ากระบวนการ ETL แบบเดิมที่ซับซ้อนและใช้เวลามาก จะถูกทำให้ง่ายขึ้น
- การแชร์ข้อมูลกำลังกลายเป็นประเด็นสำคัญ
- โปรโตคอลและแพลตฟอร์มสำหรับการแชร์ข้อมูลที่ปลอดภัยและมีประสิทธิภาพ ทำให้สามารถทำงานร่วมกับพาร์ตเนอร์ ลูกค้า และคู่แข่งได้
- คาดว่าการนำมาตรฐานอย่าง Delta Sharing ไปใช้จะเพิ่มขึ้นและพัฒนาอย่างต่อเนื่อง
- แนวโน้มในอนาคต
- คาดว่าทีมในแต่ละโดเมนจะสามารถเป็นเจ้าของ data pipeline ของตนเอง สร้าง data product และแชร์ข้อมูลข้ามขอบเขตองค์กรได้อย่างราบรื่น
- เมื่อองค์กรต่าง ๆ เพิ่มสัดส่วนการฝึก LLM ด้วยข้อมูลของตนเอง ความสำคัญของการแชร์ข้อมูลก็จะยิ่งเพิ่มขึ้น
- คาดว่าโมเดลการแชร์ข้อมูลจะช่วยเพิ่มความคล่องตัว ลดเวลาสู่การได้มาซึ่ง insight และทำให้เกิดแนวทางการจัดการข้อมูลที่กระจายศูนย์และขยายตัวได้มากขึ้น
บทสรุป
- การเติบโตของ AI และการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE รูปแบบใหม่กำลังเร่งตัวขึ้น
- วิวัฒนาการของบทบาท data engineer และการมาของ LakeDB กำลังเปลี่ยนวิธีการจัดการข้อมูลอย่างพื้นฐาน
- หลักการของ data mesh ที่ได้รับแรงหนุนจาก zero ETL และสถาปัตยกรรม federated กำลังกลายเป็นกระแสหลัก
- ท่ามกลางสภาพแวดล้อมที่เปลี่ยนแปลงอย่างรวดเร็ว บทบาทของ data engineer กำลังสำคัญกว่าที่เคย
- คาดว่าจะกลายเป็นผู้วางสถาปัตยกรรมของ insight ผู้พิทักษ์คุณภาพข้อมูล และแรงขับเคลื่อนของนวัตกรรม
- พร้อมทั้งปรับตัวต่อความต้องการที่เปลี่ยนแปลงของโลกที่ขับเคลื่อนด้วยข้อมูล และสร้างคุณค่าใหม่ต่อไป
ยังไม่มีความคิดเห็น