เหตุใด Modern Data Stack จึงสำคัญในยุค AI
(roundup.getdbt.com)- ตั้งแต่ปี 2021 ถึงต้นปี 2023 วงการเทคโนโลยีด้านข้อมูล โดยเฉพาะ Modern Data Stack เป็นหนึ่งในพื้นที่ที่คึกคักและได้รับความสนใจมากที่สุดในอุตสาหกรรมเทคโนโลยี
- ปลายปี 2023 เมื่อ ChatGPT ปรากฏขึ้น ความสนใจได้ย้ายไปที่ AI และการพูดคุยเกี่ยวกับโครงสร้างพื้นฐานด้านข้อมูลก็ถูกกลบไปบ้าง
- แต่เมื่อ AI เริ่มถูกผสานเข้ากับเวิร์กโฟลว์การทำงานจริง ก็มี 2 เรื่องที่ชัดเจนขึ้น:
- เวิร์กโฟลว์ AI ที่ซับซ้อนจำเป็นต้องนำ บทเรียนจาก data engineering มาใช้อย่างจริงจัง
- หากต้องการให้ LLM ทำงานได้อย่างถูกต้อง ก็ต้องสามารถเข้าถึง ข้อมูลที่สร้างจากเวิร์กโฟลว์การวิเคราะห์ ได้
จุดเชื่อมต่อจริงระหว่าง AI กับโครงสร้างพื้นฐานข้อมูล
- ต่อให้ LLM ฉลาดแค่ไหน หาก ไม่สามารถเข้าถึงข้อมูลที่ถูกต้องได้ ก็ไม่อาจให้คำตอบที่ถูกต้องได้
- หากข้อมูลกระจัดกระจายอยู่ตามโพสต์บน Reddit เอกสารภายใน หรือ data warehouse ต่าง ๆ LLM ก็จะเข้าถึงไม่ได้
- ข่าวดีก็คือ ตอนนี้เริ่มมี โปรโตคอลและมาตรฐานที่ช่วยให้ LLM เข้าถึงแหล่งข้อมูลหลากหลายประเภทได้ เกิดขึ้นแล้ว
- แต่คำถามว่า ควรให้ข้อมูลอะไร ข้อมูลนั้นถูกต้องหรือไม่ และควรกำหนดสิทธิ์การเข้าถึงอย่างไร ยังเป็นโจทย์ที่ต้องแก้ต่อไป
ข้อดีและความท้าทายของการเชื่อม LLM กับแหล่งข้อมูลแต่ละประเภท
-
LLMs + การค้นหาบนอินเทอร์เน็ต
- ข้อดี: ผสานข้อมูลสาธารณะบนเว็บเพื่อใช้งานข้อมูลโลกจริงที่อัปเดตล่าสุดได้ง่าย (เช่น ค้นหาร้านอาหารอร่อย)
- ปัญหา:
- คอนเทนต์ที่ทำ SEO มาอย่างดีมักทำงานได้ดีใน LLM ด้วย ทำให้ ข้อมูลที่ความน่าเชื่อถือต่ำถูกดันขึ้นมาอยู่ลำดับบน
- ตัวอย่าง: หากค้นหา “หมอนที่ดีที่สุดปี 2025” ก็หาคำตอบที่เชื่อถือได้ยาก → LLM ก็เจอปัญหาเดียวกัน
-
LLMs + เอกสารภายใน (Notion, Slack ฯลฯ)
- ข้อดี:
- ในองค์กรที่ซับซ้อน สามารถมองเห็นข้อมูลการทำงานร่วมกันระหว่างทีม นโยบาย และแผนงานได้ในภาพรวม
- เครื่องมืออย่าง NotionAI เป็นตัวอย่างที่แสดงศักยภาพของ LLM ได้อย่างชัดเจน
- ปัญหา:
- ยากที่จะรู้ว่าเอกสารยังเป็นข้อมูลล่าสุดหรือไม่
- คำถามเดียวกันอาจให้ผลลัพธ์ที่ขัดแย้งกันได้
- ดังนั้นจึงต้องมีไม่เพียงแค่ตัวเอกสาร แต่รวมถึง metadata เกี่ยวกับความน่าเชื่อถือของเอกสาร ด้วย
- ข้อดี:
-
LLMs + ข้อมูลเชิงโครงสร้างและเมตริก
- ข้อดี:
- วิเคราะห์ข้อมูลที่ซับซ้อนได้ผ่านอินเทอร์เฟซแบบสนทนาโดยไม่ต้องใช้ SQL
- เมื่อทำงานกับข้อมูลที่คุ้นเคย จะให้ความรู้สึก เหมือนได้พลังพิเศษ
- ปัญหา:
- ทั้งองค์กรใช้คำจำกัดความที่สอดคล้องกันหรือไม่?
- ผู้บริหารเชื่อถือผลลัพธ์และสามารถใช้ในการตัดสินใจจริงได้หรือไม่?
- การควบคุมสิทธิ์เข้าถึงและ data governance ถูกตั้งค่าไว้อย่างเหมาะสมหรือไม่?
- แม้ Text-to-SQL จะพัฒนาไปมากขึ้นเรื่อย ๆ แต่ ความเป็นไปได้ในการใช้งานจริงและการสร้างความน่าเชื่อถือ ยังเป็นโจทย์สำคัญ
- ข้อดี:
ตัวอย่างการบูรณาการข้อมูล 3 แบบสำหรับ LLM
- ตัวอย่างเช่น หาก CEO ของเชนร้านอาหารแห่งหนึ่งกำลังพิจารณาขยายไปยังภูมิภาคใหม่ ก็สามารถใช้ข้อมูลทั้งหมดต่อไปนี้ร่วมกันได้:
- เอกสารภายใน: ทำความเข้าใจกลยุทธ์และแผนขององค์กร
- ข้อมูลเชิงโครงสร้าง: วิเคราะห์สถานะทางการเงินและข้อมูลลูกค้า
- การค้นหาบนอินเทอร์เน็ต: สำรวจข้อมูลตลาดและ benchmark ของพื้นที่นั้น
- ในทางทฤษฎี นี่เป็นแนวทางที่มีประโยชน์มาก แต่ในความเป็นจริง มักต้องเชื่อมหลายระบบเข้าด้วยกันแบบชั่วคราว และ ความผิดพลาดเล็กน้อยเพียงจุดเดียวก็อาจส่งผลต่อการตัดสินใจทั้งหมดได้
คุณค่าที่แท้จริงของ Modern Data Stack
- ก่อนที่ AI จะมาเป็นกระแส การที่ Modern Data Stack ได้รับความนิยมเพื่อการรวมศูนย์ข้อมูล การทำมาตรฐาน และ governance ไม่ใช่เรื่องบังเอิญ
- โครงสร้างพื้นฐานนี้เองคือฐานรากสำหรับยุคของ LLM
- Modern Data Stack ไม่ได้มีไว้แค่สร้างแดชบอร์ด แต่เป็น แพลตฟอร์มสำหรับเวิร์กโฟลว์ข้อมูลและอินเทอร์เฟซที่สม่ำเสมอและเชื่อถือได้
- ตอนนี้เมื่อ AI เริ่มมีปฏิสัมพันธ์กับ ecosystem นี้ ความสำคัญของโครงสร้างพื้นฐานข้อมูลจึงกลับมาโดดเด่นอีกครั้ง
บทบาทของผู้ปฏิบัติงานด้านข้อมูลในอนาคต
- จากนี้ไป ผู้ปฏิบัติงานด้านข้อมูลไม่ได้ทำเพียงการวิเคราะห์ข้อมูลเท่านั้น แต่ยังต้อง:
- สร้าง สภาพแวดล้อมข้อมูลที่เชื่อถือได้ ให้ LLM ใช้งานได้
- ออกแบบ ระบบที่มี governance และการควบคุมสิทธิ์การเข้าถึง
- รับประกันเสถียรภาพและความน่าเชื่อถือ เมื่อมีการนำระบบ AI ไปใช้งานจริง
- พื้นที่นี้เป็นทั้ง โอกาสครั้งใหญ่ และมาพร้อมกับ ความรับผิดชอบอย่างมาก
- ขณะนี้หลายองค์กรกำลังนำระบบ LLM ไปใช้กับงานจริง และนี่คือ ช่วงเวลาที่สามารถสร้างผลกระทบเชิงรูปธรรมได้
สรุป
- Modern Data Stack ยังคงเป็นโครงสร้างพื้นฐานที่มีความหมายในยุค AI และตอนนี้กำลังเริ่มเชื่อมเข้ากับระบบ AI อย่างจริงจัง
- เวิร์กโฟลว์ AI ที่รวมข้อมูลเชิงโครงสร้าง เอกสารที่ไม่มีโครงสร้าง และข้อมูลจากโลกจริงเข้าด้วยกันนั้นเป็นสิ่งที่ทำได้จริงแล้ว และมีแนวโน้มจะพัฒนาไปอีก
- การออกแบบและเชื่อมระบบเหล่านี้ไปในทิศทางที่ถูกต้องคือ ภารกิจของชุมชนข้อมูล
ยังไม่มีความคิดเห็น