• การเปลี่ยนแปลงสำคัญของ data engineering ในปี 2024: การเติบโตอย่างก้าวกระโดดของ generative AI, การเติบโตเต็มที่ของ data governance และการมุ่งเน้นด้านประสิทธิภาพกับการประมวลผลแบบเรียลไทม์
  • ในปี 2025 คาดว่าจะมี 5 เทรนด์สำคัญที่จะเปลี่ยนโลกของข้อมูลต่อยอดจากกระแสเหล่านี้

1. ความก้าวหน้าของ AI computing

  • NVIDIA ก้าวขึ้นเป็นบริษัทที่มีมูลค่าตลาดสูงที่สุดในโลก และกำลังเติบโตในระดับที่อาจเกิดขึ้นเพียงครั้งเดียวในหนึ่งยุคสมัย
  • Google ประกาศความก้าวหน้าครั้งสำคัญในด้าน quantum computing ผ่าน Willow
  • Amazon, Google และ Microsoft กำลังแข่งขันกันอย่างดุเดือดในตลาดชิป AI โดยชิป Trainium2 ของ Amazon เป็นตัวอย่างสำคัญ
  • PC และอุปกรณ์ที่ติดตั้ง Neural Processing Units (NPUs) ทำให้การประมวลผล AI แบบออฟไลน์เป็นไปได้ และช่วยยกระดับความเป็นส่วนตัวของข้อมูล
  • นวัตกรรมอย่าง Edge TPU ของ Google กำลังเร่งการเปลี่ยนผ่านสู่ edge computing ที่ประหยัดพลังงานมากขึ้น และลดการพึ่งพาโครงสร้างพื้นฐานคลาวด์แบบรวมศูนย์
  • การเปลี่ยนผ่านสู่สถาปัตยกรรมการประมวลผลแบบไฮบริดและประหยัดพลังงาน กำลังลดช่องว่างระหว่างประสิทธิภาพ ต้นทุน และความเป็นส่วนตัวของแอปพลิเคชัน AI
  • คาดว่าชิป Neuromorphic ซึ่งเลียนแบบโครงสร้างของสมอง จะมอบประสิทธิภาพด้านพลังงานที่เทียบชั้นได้ยาก พร้อมความสามารถในการประมวลผลข้อมูลที่ไม่มีโครงสร้างบนอุปกรณ์
  • มีความก้าวหน้าครั้งใหญ่ในด้าน neuromorphic และ quantum computing ซึ่งกำลังเปิดขอบเขตใหม่ของความสามารถ AI
  • คาดว่าความก้าวหน้าของฮาร์ดแวร์ AI เหล่านี้จะขับเคลื่อนนวัตกรรมในด้าน natural language processing, computer vision, robotics และ healthcare ตั้งแต่ปี 2025 เป็นต้นไป

2. วิวัฒนาการของโมเดลภาษาที่เฉพาะทางตามโดเมน

  • Domain-specific language models (LLMs)
    • โมเดลภาษาที่ฝึกด้วยชุดข้อมูลเฉพาะอุตสาหกรรม กำลังยกระดับการประยุกต์ใช้ AI ในแต่ละอุตสาหกรรมไปอีกขั้น
    • อุตสาหกรรมอย่างการแพทย์ การเงิน กฎหมาย และการผลิต กำลังนำโมเดลเหล่านี้ไปใช้เพื่อแก้ปัญหาที่ซับซ้อนและมีบริบทสูงได้อย่างแม่นยำ
    • ความสามารถ AI ที่ปรับให้เหมาะกับความต้องการเชิงละเอียดของแต่ละอุตสาหกรรม กำลังสร้างนวัตกรรมให้กับกระบวนการทำงานและการตัดสินใจทั่วทั้งองค์กร
  • Small Language Models (SLMs)
    • โมเดลภาษาขนาดเล็ก (Small Language Models, SLMs) กำลังได้รับความสนใจในด้านความคุ้มค่าด้านต้นทุนและความสามารถในการปรับตัว
    • SLM ที่ปรับให้เหมาะกับงานเฉพาะทาง กำลังแสดงประสิทธิภาพที่ดีกว่าโมเดลขนาดใหญ่ในขอบเขตที่จำกัด
    • ด้วยความต้องการด้านคอมพิวต์ที่ลดลงและความสะดวกในการนำไปใช้งานที่ดีขึ้น SLM จะทำให้การเข้าถึง AI เป็นประชาธิปไตยมากขึ้น ช่วยให้องค์กรทุกขนาดสามารถใช้ความสามารถด้านภาษาอันซับซ้อนได้ โดยไม่ต้องแบกรับภาระในการดูแลระบบที่ใช้ทรัพยากรสูง

3. AI orchestrator และการให้เหตุผลหลายขั้นตอน

  • AI orchestrator
    • เมื่อองค์กรต่าง ๆ นำ AI agent เฉพาะทางหลากหลายรูปแบบมาใช้มากขึ้น คาดว่า AI orchestrator จะกลายเป็นแกนหลักของ AI-driven data stack
    • orchestrator เหล่านี้ทำหน้าที่เป็น intelligent control plane โดยจะส่งต่องานไปยัง agent ที่เหมาะสมที่สุดแบบไดนามิก สังเคราะห์ผลลัพธ์ และให้ insight ที่นำไปปฏิบัติได้
    • ด้วยความสามารถในการเข้าใจเนื้อหาเชิงลึก การประมวลผลหลายภาษา และการรองรับข้อมูลหลายประเภท จึงสามารถรวม AI agent หลายตัวเข้าสู่ workflow ที่สอดคล้องกันได้
  • ความก้าวหน้าของการให้เหตุผลหลายขั้นตอน
    • โมเดล AI กำลังพัฒนาจากการตอบคำถามแบบง่าย ๆ ไปสู่การแก้ปัญหาซับซ้อนผ่านการให้เหตุผลหลายขั้นตอน
    • การแบ่งงานซับซ้อนออกเป็นลำดับขั้นตอนย่อย ๆ ทำให้สามารถวิเคราะห์ได้แม่นยำและลึกซึ้งยิ่งขึ้น
    • ความสามารถนี้จะทำให้ AI agent รองรับงาน automation แบบ long-tail ได้ในด้านการเขียนโค้ด การแพทย์ กฎหมาย และอุตสาหกรรมอื่น ๆ
  • การผสานกันของ AI orchestrator และการให้เหตุผลหลายขั้นตอน จะเปิดยุคใหม่ของ AI และขยายอิทธิพลของ AI ต่อการแก้ปัญหาและการตัดสินใจในหลากหลายสาขาอย่างมาก

4. สภาพแวดล้อมการพัฒนาแบบบูรณาการสำหรับการรวมข้อมูลยุคถัดไป (Data IDE)

  • แนวทางด้าน data engineering กำลังเปลี่ยนแปลงอย่างพื้นฐาน จากความต้องการด้าน insight จากข้อมูลที่เพิ่มขึ้นขององค์กร
  • ในปี 2025 คาดว่าจะมี integrated development environment (IDE) รูปแบบใหม่ที่ออกแบบมาเพื่อทำให้การเข้าถึงและจัดการข้อมูลเป็นประชาธิปไตยอย่างมีประสิทธิภาพ
  • เครื่องมืออย่าง lakebyte.ai กำลังแสดงให้เห็นจุดเริ่มต้นของนวัตกรรมนี้
  • คุณลักษณะสำคัญ
    • การรวมระบบอย่างไร้รอยต่อ
      • รวมทั้งวงจรชีวิตข้อมูลตั้งแต่การเก็บข้อมูลและการแปลงข้อมูล ไปจนถึงการวิเคราะห์ การทำ visualization และการ deploy ไว้ในสภาพแวดล้อมเดียวอย่างลื่นไหล
    • ความช่วยเหลืออัจฉริยะที่ขับเคลื่อนด้วย AI
      • จะมาพร้อมความสามารถ AI ที่ให้ intelligent code completion, การทำความสะอาดข้อมูลอัตโนมัติ และคำแนะนำอัจฉริยะสำหรับการปรับแต่ง pipeline
      • ไม่เพียงช่วยเขียนโค้ด แต่ยังเข้าใจความหมายของข้อมูลและแนะนำวิธีที่เหมาะสมที่สุดในการแปลงข้อมูล
    • อินเทอร์เฟซ Low-Code/No-Code
      • ผู้ใช้ที่มีประสบการณ์ด้านการเขียนโค้ดน้อยก็สามารถสร้างและจัดการ data pipeline ได้ผ่านอินเทอร์เฟซแบบ visual drag-and-drop
      • ขณะเดียวกันก็ยังให้ความยืดหยุ่นแก่ผู้ใช้ระดับสูงในการเขียนโค้ดแบบกำหนดเองเมื่อจำเป็น
    • ฟีเจอร์ด้านการทำงานร่วมกัน
      • ส่งเสริมการทำงานร่วมกันอย่างราบรื่นระหว่าง data engineer, data scientist, analyst และผู้ใช้ทางธุรกิจ
      • ช่วยให้ทำงานร่วมกันในโปรเจกต์ข้อมูลภายในสภาพแวดล้อมที่ใช้ร่วมกันได้
    • data governance ที่ฝังมาในตัว
      • การตรวจสอบคุณภาพข้อมูล, CI/CD pipeline, การรัน integration test ก่อน push ไป production, access control และการติดตาม lineage ถูกผสานเข้าใน workflow การพัฒนาโดยตรง
      • ช่วยให้มั่นใจว่า data governance จะไม่ถูกนำมาคิดภายหลัง
    • รองรับแหล่งข้อมูลและฟอร์แมตที่หลากหลาย
      • มี native connector สำหรับแหล่งข้อมูลหลากหลาย เช่น database, data lake, แพลตฟอร์มสตรีมมิง และ cloud storage
      • รองรับรูปแบบข้อมูลหลายประเภท ทั้งข้อมูลแบบมีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง
    • cloud-native และการขยายตัว
      • ออกแบบมาให้ทำงานบนคลาวด์ โดยใช้ประโยชน์จาก scalability และ elasticity ของโครงสร้างพื้นฐานคลาวด์
  • คาดว่าการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE ที่ทรงพลังและใช้งานง่าย จะทำให้เกิด 'Citizen Data Engineers'
    • ผู้เชี่ยวชาญในแต่ละโดเมนจะสามารถสร้างและจัดการ data workflow ได้ แม้ไม่ใช่นักเขียนโปรแกรมแบบดั้งเดิม
  • คาดว่าการขจัดกำแพงระหว่างทีมเทคนิคและทีมที่ไม่ใช่เทคนิค จะเร่งนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล
  • คาดว่าในปี 2025 Prompt Wrangling จะกลายเป็นทักษะที่สำคัญที่สุดสำหรับ data engineer

5. การมาของ LakeDB: เปลี่ยนฟอร์แมต lakehouse ให้กลายเป็น DB

  • เส้นแบ่งระหว่าง data lake, data warehouse และ database กำลังเลือนรางลงเรื่อย ๆ
  • ในปี 2025 คาดว่าจะเกิดกระบวนทัศน์ใหม่ที่เรียกว่า LakeDB
  • นี่คือวิวัฒนาการของแนวคิด LakeHouse โดยพัฒนาไปในทิศทางที่ผสานความสามารถของ database ที่ทรงพลังยิ่งขึ้นเข้าไปใน data lake โดยตรง
    • มอบทั้ง scalability และความยืดหยุ่นของ object storage พร้อมประสิทธิภาพและความง่ายในการใช้งานแบบ database ดั้งเดิม
  • มอบความสามารถขั้นสูงที่มากกว่าเพียงการ query object storage และ table format
    • จัดการ buffering, caching, index และงานเขียนแบบ native เพื่อให้ได้ประสิทธิภาพและความคุ้มค่าในระดับ LakeHouse
  • LakeHouse ในปัจจุบันยังพึ่งพา processing framework ภายนอกอย่าง Spark หรือ Flink สำหรับการเก็บข้อมูล การแปลงข้อมูล และงานเขียน
    • การพึ่งพาเช่นนี้เพิ่มความซับซ้อนและก่อให้เกิด latency
    • ประสิทธิภาพอาจไม่สม่ำเสมอตามวิธีการ implement และอาจเกิดปัญหาเรื่อง interoperability
  • LakeDB จะมีความสามารถเหล่านี้:
    • ความสามารถในการเขียนแบบ native
      • มอบเส้นทางการเขียนที่ปรับให้เหมาะกับ object storage พื้นฐานโดยตรง ช่วยลดความจำเป็นในการใช้ processing engine ภายนอกสำหรับงานทั่วไป
      • การเพิ่มความสามารถด้าน S3 conditional write เมื่อไม่นานมานี้ ทำให้คาดว่า cloud object storage จะรองรับ write path ของ LakeDB ได้
    • buffering และ caching อัจฉริยะ
      • จัดการ buffering และ caching ของข้อมูลอย่างชาญฉลาด เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน
    • การจัดการธุรกรรม
      • ใช้ S3 conditional write และเทคนิคการจัดการ metadata ขั้นสูง เพื่อมอบความสามารถด้าน transaction management ที่แข็งแกร่ง
      • มี mechanism ในตัวเพื่อรับประกันความสอดคล้องและความถูกต้องสมบูรณ์ของข้อมูล
    • ประสิทธิภาพการ query อัจฉริยะ
      • ผสาน in-process OLAP engine อย่าง DuckDB เพื่อเพิ่มประสิทธิภาพในการประมวลผลข้อมูลขนาดเล็ก
      • ปรับปรุงประสิทธิภาพการ query ผ่าน advanced indexing และ query optimization
      • เลือกกลยุทธ์ที่เหมาะสมที่สุดโดยอัตโนมัติตามขนาดข้อมูล โดยที่ผู้ใช้ไม่ต้องกำหนดกลยุทธ์การ query แยกเอง
    • การจัดการข้อมูลอัตโนมัติ
      • ทำ data tiering, การบีบอัด และฟังก์ชันการปรับแต่งอื่น ๆ แบบอัตโนมัติ เพื่อลดความซับซ้อนในการดำเนินงานและลดต้นทุน
    • ความสามารถด้าน vector search และการขยายตัว
      • มีการรองรับในตัวสำหรับ vector database และ similarity search
      • สามารถเลือกใช้เทคนิค indexing ที่เหมาะสมที่สุดสำหรับแต่ละคอลัมน์ เพื่อปรับประสิทธิภาพทั้งการอ่านและการเขียน
      • ฟีเจอร์อย่างการรองรับ secondary index ของ Hudi และ variable data type ของ Delta ได้เริ่มปรากฏในฟอร์แมต LakeHouse แล้ว
  • แม้แนวคิด LakeDB จะยังอยู่ในระยะเริ่มต้น แต่คาดว่าในปี 2025 จะมีนวัตกรรมสำคัญเกิดขึ้นมากในด้านนี้
  • ฟอร์แมต LakeHouse ที่มีอยู่เดิมอาจพัฒนาไปสู่การผสานความสามารถคล้าย LakeDB มากขึ้น และอาจมีโซลูชันใหม่ที่ถูกสร้างขึ้นโดยมีวิสัยทัศน์นี้ตั้งแต่แรก

6. Data Mesh และสถาปัตยกรรมแบบ federated กับ zero ETL ที่อิงสัญญา

  • แม้จะมีมุมมองเชิงกังขาต่อ data contract และ mesh แต่คาดว่าจะมีองค์กรจำนวนมากขึ้นนำสถาปัตยกรรม data mesh มาใช้
  • โดยเฉพาะในกรณีที่ต้องมีการแลกเปลี่ยนข้อมูลภายในองค์กร คาดว่าการใช้งาน data mesh จะเพิ่มขึ้น
  • zero ETL และสถาปัตยกรรม federated query กำลังเป็นแรงขับเคลื่อนการเปลี่ยนแปลงนี้
  • zero ETL
    • เทคโนโลยีกำลังพัฒนาไปในทิศทางที่ลดการเคลื่อนย้ายและการทำข้อมูลซ้ำให้น้อยที่สุด
    • เทคโนโลยีอย่าง data virtualization, federated query engine และ data sharing protocol ช่วยให้เข้าถึงและวิเคราะห์ข้อมูลได้โดยไม่ต้องผ่านกระบวนการ ETL ที่ซับซ้อน
    • คาดว่ากระบวนการ ETL แบบเดิมที่ซับซ้อนและใช้เวลามาก จะถูกทำให้ง่ายขึ้น
  • การแชร์ข้อมูลกำลังกลายเป็นประเด็นสำคัญ
    • โปรโตคอลและแพลตฟอร์มสำหรับการแชร์ข้อมูลที่ปลอดภัยและมีประสิทธิภาพ ทำให้สามารถทำงานร่วมกับพาร์ตเนอร์ ลูกค้า และคู่แข่งได้
    • คาดว่าการนำมาตรฐานอย่าง Delta Sharing ไปใช้จะเพิ่มขึ้นและพัฒนาอย่างต่อเนื่อง
  • แนวโน้มในอนาคต
    • คาดว่าทีมในแต่ละโดเมนจะสามารถเป็นเจ้าของ data pipeline ของตนเอง สร้าง data product และแชร์ข้อมูลข้ามขอบเขตองค์กรได้อย่างราบรื่น
    • เมื่อองค์กรต่าง ๆ เพิ่มสัดส่วนการฝึก LLM ด้วยข้อมูลของตนเอง ความสำคัญของการแชร์ข้อมูลก็จะยิ่งเพิ่มขึ้น
    • คาดว่าโมเดลการแชร์ข้อมูลจะช่วยเพิ่มความคล่องตัว ลดเวลาสู่การได้มาซึ่ง insight และทำให้เกิดแนวทางการจัดการข้อมูลที่กระจายศูนย์และขยายตัวได้มากขึ้น

บทสรุป

  • การเติบโตของ AI และการทำให้ข้อมูลเข้าถึงได้กว้างขึ้นผ่าน IDE รูปแบบใหม่กำลังเร่งตัวขึ้น
  • วิวัฒนาการของบทบาท data engineer และการมาของ LakeDB กำลังเปลี่ยนวิธีการจัดการข้อมูลอย่างพื้นฐาน
  • หลักการของ data mesh ที่ได้รับแรงหนุนจาก zero ETL และสถาปัตยกรรม federated กำลังกลายเป็นกระแสหลัก
  • ท่ามกลางสภาพแวดล้อมที่เปลี่ยนแปลงอย่างรวดเร็ว บทบาทของ data engineer กำลังสำคัญกว่าที่เคย
    • คาดว่าจะกลายเป็นผู้วางสถาปัตยกรรมของ insight ผู้พิทักษ์คุณภาพข้อมูล และแรงขับเคลื่อนของนวัตกรรม
    • พร้อมทั้งปรับตัวต่อความต้องการที่เปลี่ยนแปลงของโลกที่ขับเคลื่อนด้วยข้อมูล และสร้างคุณค่าใหม่ต่อไป

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น