เหตุใด Modern Data Stack จึงสำคัญในยุค AI

xguru · 2025-04-07T11:41:01+09:00

ตั้งแต่ปี 2021 ถึงต้นปี 2023 วงการเทคโนโลยีด้านข้อมูล โดยเฉพาะ Modern Data Stack เป็นหนึ่งในพื้นที่ที่คึกคักและได้รับความสนใจมากที่สุดในอุตสาหกรรมเทคโนโลยี ปลายปี 2023 เมื่อ ChatGPT ปรากฏขึ้น ความสนใจได้ย้ายไปที่ AI และการพูดคุยเกี่ยวกับโครงสร้างพื้นฐานด้านข้อมูลก็ถูกกลบไปบ้าง แต่เมื่อ AI เริ่มถูกผสานเข้ากับเวิร์กโฟลว์การทำงานจริง ก็มี 2 เรื่องที่ชัดเจนขึ้น: เวิร์กโฟลว์ AI ที่ซับซ้อนจำเป็นต้องนำ บทเรียนจาก data engineering มาใช้อย่างจริงจัง หากต้องการให้ LLM ทำงานได้อย่างถูกต้อง ก็ต้องสามารถเข้าถึง ข้อมูลที่สร้างจากเวิร์กโฟลว์การวิเคราะห์ ได้ จุดเชื่อมต่อจริงระหว่าง AI กับโครงสร้างพื้นฐานข้อมูล ต่อให้ LLM ฉลาดแค่ไหน หาก ไม่สามารถเข้าถึงข้อมูลที่ถูกต้องได้ ก็ไม่อาจให้คำตอบที่ถูกต้องได้ หากข้อมูลกระจัดกระจายอยู่ตามโพสต์บน Reddit เอกสารภายใน หรือ data warehouse ต่าง ๆ LLM ก็จะเข้าถึงไม่ได้ ข่าวดีก็คือ ตอนนี้เริ่มมี โปรโตคอลและมาตรฐานที่ช่วยให้ LLM เข้าถึงแหล่งข้อมูลหลากหลายประเภทได้ เกิดขึ้นแล้ว แต่คำถามว่า ควรให้ข้อมูลอะไร ข้อมูลนั้นถูกต้องหรือไม่ และควรกำหนดสิทธิ์การเข้าถึงอย่างไร ยังเป็นโจทย์ที่ต้องแก้ต่อไป ข้อดีและความท้าทายของการเชื่อม LLM กับแหล่งข้อมูลแต่ละประเภท LLMs + การค้นหาบนอินเทอร์เน็ต ข้อดี: ผสานข้อมูลสาธารณะบนเว็บเพื่อใช้งานข้อมูลโลกจริงที่อัปเดตล่าสุดได้ง่าย (เช่น ค้นหาร้านอาหารอร่อย) ปัญหา: คอนเทนต์ที่ทำ SEO มาอย่างดีมักทำงานได้ดีใน LLM ด้วย ทำให้ ข้อมูลที่ความน่าเชื่อถือต่ำถูกดันขึ้นมาอยู่ลำดับบน ตัวอย่าง: หากค้นหา “หมอนที่ดีที่สุดปี 2025” ก็หาคำตอบที่เชื่อถือได้ยาก → LLM ก็เจอปัญหาเดียวกัน LLMs + เอกสารภายใน (Notion, Slack ฯลฯ) ข้อดี: ในองค์กรที่ซับซ้อน สามารถมองเห็นข้อมูลการทำงานร่วมกันระหว่างทีม นโยบาย และแผนงานได้ในภาพรวม เครื่องมืออย่าง NotionAI เป็นตัวอย่างที่แสดงศักยภาพของ LLM ได้อย่างชัดเจน ปัญหา: ยากที่จะรู้ว่าเอกสารยังเป็นข้อมูลล่าสุดหรือไม่ คำถามเดียวกันอาจให้ผลลัพธ์ที่ขัดแย้งกันได้ ดังนั้นจึงต้องมีไม่เพียงแค่ตัวเอกสาร แต่รวมถึง metadata เกี่ยวกับความน่าเชื่อถือของเอกสาร ด้วย LLMs + ข้อมูลเชิงโครงสร้างและเมตริก ข้อดี: วิเคราะห์ข้อมูลที่ซับซ้อนได้ผ่านอินเทอร์เฟซแบบสนทนาโดยไม่ต้องใช้ SQL เมื่อทำงานกับข้อมูลที่คุ้นเคย จะให้ความรู้สึก เหมือนได้พลังพิเศษ ปัญหา: ทั้งองค์กรใช้คำจำกัดความที่สอดคล้องกันหรือไม่? ผู้บริหารเชื่อถือผลลัพธ์และสามารถใช้ในการตัดสินใจจริงได้หรือไม่? การควบคุมสิทธิ์เข้าถึงและ data governance ถูกตั้งค่าไว้อย่างเหมาะสมหรือไม่? แม้ Text-to-SQL จะพัฒนาไปมากขึ้นเรื่อย ๆ แต่ ความเป็นไปได้ในการใช้งานจริงและการสร้างความน่าเชื่อถือ ยังเป็นโจทย์สำคัญ ตัวอย่างการบูรณาการข้อมูล 3 แบบสำหรับ LLM ตัวอย่างเช่น หาก CEO ของเชนร้านอาหารแห่งหนึ่งกำลังพิจารณาขยายไปยังภูมิภาคใหม่ ก็สามารถใช้ข้อมูลทั้งหมดต่อไปนี้ร่วมกันได้: เอกสารภายใน: ทำความเข้าใจกลยุทธ์และแผนขององค์กร ข้อมูลเชิงโครงสร้าง: วิเคราะห์สถานะทางการเงินและข้อมูลลูกค้า การค้นหาบนอินเทอร์เน็ต: สำรวจข้อมูลตลาดและ benchmark ของพื้นที่นั้น ในทางทฤษฎี นี่เป็นแนวทางที่มีประโยชน์มาก แต่ในความเป็นจริง มักต้องเชื่อมหลายระบบเข้าด้วยกันแบบชั่วคราว และ ความผิดพลาดเล็กน้อยเพียงจุดเดียวก็อาจส่งผลต่อการตัดสินใจทั้งหมดได้ คุณค่าที่แท้จริงของ Modern Data Stack ก่อนที่ AI จะมาเป็นกระแส การที่ Modern Data Stack ได้รับความนิยมเพื่อการรวมศูนย์ข้อมูล การทำมาตรฐาน และ governance ไม่ใช่เรื่องบังเอิญ โครงสร้างพื้นฐานนี้เองคือฐานรากสำหรับยุคของ LLM Modern Data Stack ไม่ได้มีไว้แค่สร้างแดชบอร์ด แต่เป็น แพลตฟอร์มสำหรับเวิร์กโฟลว์ข้อมูลและอินเทอร์เฟซที่สม่ำเสมอและเชื่อถือได้ ตอนนี้เมื่อ AI เริ่มมีปฏิสัมพันธ์กับ ecosystem นี้ ความสำคัญของโครงสร้างพื้นฐานข้อมูลจึงกลับมาโดดเด่นอีกครั้ง บทบาทของผู้ปฏิบัติงานด้านข้อมูลในอนาคต จากนี้ไป ผู้ปฏิบัติงานด้านข้อมูลไม่ได้ทำเพียงการวิเคราะห์ข้อมูลเท่านั้น แต่ยังต้อง: สร้าง สภาพแวดล้อมข้อมูลที่เชื่อถือได้ ให้ LLM ใช้งานได้ ออกแบบ ระบบที่มี governance และการควบคุมสิทธิ์การเข้าถึง รับประกันเสถียรภาพและความน่าเชื่อถือ เมื่อมีการนำระบบ AI ไปใช้งานจริง พื้นที่นี้เป็นทั้ง โอกาสครั้งใหญ่ และมาพร้อมกับ ความรับผิดชอบอย่างมาก ขณะนี้หลายองค์กรกำลังนำระบบ LLM ไปใช้กับงานจริง และนี่คือ ช่วงเวลาที่สามารถสร้างผลกระทบเชิงรูปธรรมได้ สรุป Modern Data Stack ยังคงเป็นโครงสร้างพื้นฐานที่มีความหมายในยุค AI และตอนนี้กำลังเริ่มเชื่อมเข้ากับระบบ AI อย่างจริงจัง เวิร์กโฟลว์ AI ที่รวมข้อมูลเชิงโครงสร้าง เอกสารที่ไม่มีโครงสร้าง และข้อมูลจากโลกจริงเข้าด้วยกันนั้นเป็นสิ่งที่ทำได้จริงแล้ว และมีแนวโน้มจะพัฒนาไปอีก การออกแบบและเชื่อมระบบเหล่านี้ไปในทิศทางที่ถูกต้องคือ ภารกิจของชุมชนข้อมูล

(roundup.getdbt.com)

12 คะแนน โดย xguru 2025-04-07 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ตั้งแต่ปี 2021 ถึงต้นปี 2023 วงการเทคโนโลยีด้านข้อมูล โดยเฉพาะ Modern Data Stack เป็นหนึ่งในพื้นที่ที่คึกคักและได้รับความสนใจมากที่สุดในอุตสาหกรรมเทคโนโลยี
ปลายปี 2023 เมื่อ ChatGPT ปรากฏขึ้น ความสนใจได้ย้ายไปที่ AI และการพูดคุยเกี่ยวกับโครงสร้างพื้นฐานด้านข้อมูลก็ถูกกลบไปบ้าง
แต่เมื่อ AI เริ่มถูกผสานเข้ากับเวิร์กโฟลว์การทำงานจริง ก็มี 2 เรื่องที่ชัดเจนขึ้น:
- เวิร์กโฟลว์ AI ที่ซับซ้อนจำเป็นต้องนำ บทเรียนจาก data engineering มาใช้อย่างจริงจัง
- หากต้องการให้ LLM ทำงานได้อย่างถูกต้อง ก็ต้องสามารถเข้าถึง ข้อมูลที่สร้างจากเวิร์กโฟลว์การวิเคราะห์ ได้

จุดเชื่อมต่อจริงระหว่าง AI กับโครงสร้างพื้นฐานข้อมูล

ต่อให้ LLM ฉลาดแค่ไหน หาก ไม่สามารถเข้าถึงข้อมูลที่ถูกต้องได้ ก็ไม่อาจให้คำตอบที่ถูกต้องได้
หากข้อมูลกระจัดกระจายอยู่ตามโพสต์บน Reddit เอกสารภายใน หรือ data warehouse ต่าง ๆ LLM ก็จะเข้าถึงไม่ได้
ข่าวดีก็คือ ตอนนี้เริ่มมี โปรโตคอลและมาตรฐานที่ช่วยให้ LLM เข้าถึงแหล่งข้อมูลหลากหลายประเภทได้ เกิดขึ้นแล้ว
แต่คำถามว่า ควรให้ข้อมูลอะไร ข้อมูลนั้นถูกต้องหรือไม่ และควรกำหนดสิทธิ์การเข้าถึงอย่างไร ยังเป็นโจทย์ที่ต้องแก้ต่อไป

ข้อดีและความท้าทายของการเชื่อม LLM กับแหล่งข้อมูลแต่ละประเภท

LLMs + การค้นหาบนอินเทอร์เน็ต
- ข้อดี: ผสานข้อมูลสาธารณะบนเว็บเพื่อใช้งานข้อมูลโลกจริงที่อัปเดตล่าสุดได้ง่าย (เช่น ค้นหาร้านอาหารอร่อย)
- ปัญหา:
  - คอนเทนต์ที่ทำ SEO มาอย่างดีมักทำงานได้ดีใน LLM ด้วย ทำให้ ข้อมูลที่ความน่าเชื่อถือต่ำถูกดันขึ้นมาอยู่ลำดับบน
  - ตัวอย่าง: หากค้นหา “หมอนที่ดีที่สุดปี 2025” ก็หาคำตอบที่เชื่อถือได้ยาก → LLM ก็เจอปัญหาเดียวกัน
LLMs + เอกสารภายใน (Notion, Slack ฯลฯ)
- ข้อดี:
  - ในองค์กรที่ซับซ้อน สามารถมองเห็นข้อมูลการทำงานร่วมกันระหว่างทีม นโยบาย และแผนงานได้ในภาพรวม
  - เครื่องมืออย่าง NotionAI เป็นตัวอย่างที่แสดงศักยภาพของ LLM ได้อย่างชัดเจน
- ปัญหา:
  - ยากที่จะรู้ว่าเอกสารยังเป็นข้อมูลล่าสุดหรือไม่
  - คำถามเดียวกันอาจให้ผลลัพธ์ที่ขัดแย้งกันได้
  - ดังนั้นจึงต้องมีไม่เพียงแค่ตัวเอกสาร แต่รวมถึง metadata เกี่ยวกับความน่าเชื่อถือของเอกสาร ด้วย
LLMs + ข้อมูลเชิงโครงสร้างและเมตริก
- ข้อดี:
  - วิเคราะห์ข้อมูลที่ซับซ้อนได้ผ่านอินเทอร์เฟซแบบสนทนาโดยไม่ต้องใช้ SQL
  - เมื่อทำงานกับข้อมูลที่คุ้นเคย จะให้ความรู้สึก เหมือนได้พลังพิเศษ
- ปัญหา:
  - ทั้งองค์กรใช้คำจำกัดความที่สอดคล้องกันหรือไม่?
  - ผู้บริหารเชื่อถือผลลัพธ์และสามารถใช้ในการตัดสินใจจริงได้หรือไม่?
  - การควบคุมสิทธิ์เข้าถึงและ data governance ถูกตั้งค่าไว้อย่างเหมาะสมหรือไม่?
  - แม้ Text-to-SQL จะพัฒนาไปมากขึ้นเรื่อย ๆ แต่ ความเป็นไปได้ในการใช้งานจริงและการสร้างความน่าเชื่อถือ ยังเป็นโจทย์สำคัญ

ตัวอย่างการบูรณาการข้อมูล 3 แบบสำหรับ LLM

ตัวอย่างเช่น หาก CEO ของเชนร้านอาหารแห่งหนึ่งกำลังพิจารณาขยายไปยังภูมิภาคใหม่ ก็สามารถใช้ข้อมูลทั้งหมดต่อไปนี้ร่วมกันได้:
- เอกสารภายใน: ทำความเข้าใจกลยุทธ์และแผนขององค์กร
- ข้อมูลเชิงโครงสร้าง: วิเคราะห์สถานะทางการเงินและข้อมูลลูกค้า
- การค้นหาบนอินเทอร์เน็ต: สำรวจข้อมูลตลาดและ benchmark ของพื้นที่นั้น
ในทางทฤษฎี นี่เป็นแนวทางที่มีประโยชน์มาก แต่ในความเป็นจริง มักต้องเชื่อมหลายระบบเข้าด้วยกันแบบชั่วคราว และ ความผิดพลาดเล็กน้อยเพียงจุดเดียวก็อาจส่งผลต่อการตัดสินใจทั้งหมดได้

คุณค่าที่แท้จริงของ Modern Data Stack

ก่อนที่ AI จะมาเป็นกระแส การที่ Modern Data Stack ได้รับความนิยมเพื่อการรวมศูนย์ข้อมูล การทำมาตรฐาน และ governance ไม่ใช่เรื่องบังเอิญ
โครงสร้างพื้นฐานนี้เองคือฐานรากสำหรับยุคของ LLM
Modern Data Stack ไม่ได้มีไว้แค่สร้างแดชบอร์ด แต่เป็น แพลตฟอร์มสำหรับเวิร์กโฟลว์ข้อมูลและอินเทอร์เฟซที่สม่ำเสมอและเชื่อถือได้
ตอนนี้เมื่อ AI เริ่มมีปฏิสัมพันธ์กับ ecosystem นี้ ความสำคัญของโครงสร้างพื้นฐานข้อมูลจึงกลับมาโดดเด่นอีกครั้ง

บทบาทของผู้ปฏิบัติงานด้านข้อมูลในอนาคต

จากนี้ไป ผู้ปฏิบัติงานด้านข้อมูลไม่ได้ทำเพียงการวิเคราะห์ข้อมูลเท่านั้น แต่ยังต้อง:
- สร้าง สภาพแวดล้อมข้อมูลที่เชื่อถือได้ ให้ LLM ใช้งานได้
- ออกแบบ ระบบที่มี governance และการควบคุมสิทธิ์การเข้าถึง
- รับประกันเสถียรภาพและความน่าเชื่อถือ เมื่อมีการนำระบบ AI ไปใช้งานจริง
พื้นที่นี้เป็นทั้ง โอกาสครั้งใหญ่ และมาพร้อมกับ ความรับผิดชอบอย่างมาก
ขณะนี้หลายองค์กรกำลังนำระบบ LLM ไปใช้กับงานจริง และนี่คือ ช่วงเวลาที่สามารถสร้างผลกระทบเชิงรูปธรรมได้

สรุป

Modern Data Stack ยังคงเป็นโครงสร้างพื้นฐานที่มีความหมายในยุค AI และตอนนี้กำลังเริ่มเชื่อมเข้ากับระบบ AI อย่างจริงจัง
เวิร์กโฟลว์ AI ที่รวมข้อมูลเชิงโครงสร้าง เอกสารที่ไม่มีโครงสร้าง และข้อมูลจากโลกจริงเข้าด้วยกันนั้นเป็นสิ่งที่ทำได้จริงแล้ว และมีแนวโน้มจะพัฒนาไปอีก
การออกแบบและเชื่อมระบบเหล่านี้ไปในทิศทางที่ถูกต้องคือ ภารกิจของชุมชนข้อมูล

เหตุใด Modern Data Stack จึงสำคัญในยุค AI

จุดเชื่อมต่อจริงระหว่าง AI กับโครงสร้างพื้นฐานข้อมูล

ข้อดีและความท้าทายของการเชื่อม LLM กับแหล่งข้อมูลแต่ละประเภท

LLMs + การค้นหาบนอินเทอร์เน็ต

LLMs + เอกสารภายใน (Notion, Slack ฯลฯ)

LLMs + ข้อมูลเชิงโครงสร้างและเมตริก

ตัวอย่างการบูรณาการข้อมูล 3 แบบสำหรับ LLM

คุณค่าที่แท้จริงของ Modern Data Stack

บทบาทของผู้ปฏิบัติงานด้านข้อมูลในอนาคต

สรุป

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น