• ตั้งแต่ปี 2021 ถึงต้นปี 2023 วงการเทคโนโลยีด้านข้อมูล โดยเฉพาะ Modern Data Stack เป็นหนึ่งในพื้นที่ที่คึกคักและได้รับความสนใจมากที่สุดในอุตสาหกรรมเทคโนโลยี
  • ปลายปี 2023 เมื่อ ChatGPT ปรากฏขึ้น ความสนใจได้ย้ายไปที่ AI และการพูดคุยเกี่ยวกับโครงสร้างพื้นฐานด้านข้อมูลก็ถูกกลบไปบ้าง
  • แต่เมื่อ AI เริ่มถูกผสานเข้ากับเวิร์กโฟลว์การทำงานจริง ก็มี 2 เรื่องที่ชัดเจนขึ้น:
    • เวิร์กโฟลว์ AI ที่ซับซ้อนจำเป็นต้องนำ บทเรียนจาก data engineering มาใช้อย่างจริงจัง
    • หากต้องการให้ LLM ทำงานได้อย่างถูกต้อง ก็ต้องสามารถเข้าถึง ข้อมูลที่สร้างจากเวิร์กโฟลว์การวิเคราะห์ ได้

จุดเชื่อมต่อจริงระหว่าง AI กับโครงสร้างพื้นฐานข้อมูล

  • ต่อให้ LLM ฉลาดแค่ไหน หาก ไม่สามารถเข้าถึงข้อมูลที่ถูกต้องได้ ก็ไม่อาจให้คำตอบที่ถูกต้องได้
  • หากข้อมูลกระจัดกระจายอยู่ตามโพสต์บน Reddit เอกสารภายใน หรือ data warehouse ต่าง ๆ LLM ก็จะเข้าถึงไม่ได้
  • ข่าวดีก็คือ ตอนนี้เริ่มมี โปรโตคอลและมาตรฐานที่ช่วยให้ LLM เข้าถึงแหล่งข้อมูลหลากหลายประเภทได้ เกิดขึ้นแล้ว
  • แต่คำถามว่า ควรให้ข้อมูลอะไร ข้อมูลนั้นถูกต้องหรือไม่ และควรกำหนดสิทธิ์การเข้าถึงอย่างไร ยังเป็นโจทย์ที่ต้องแก้ต่อไป

ข้อดีและความท้าทายของการเชื่อม LLM กับแหล่งข้อมูลแต่ละประเภท

  • LLMs + การค้นหาบนอินเทอร์เน็ต

    • ข้อดี: ผสานข้อมูลสาธารณะบนเว็บเพื่อใช้งานข้อมูลโลกจริงที่อัปเดตล่าสุดได้ง่าย (เช่น ค้นหาร้านอาหารอร่อย)
    • ปัญหา:
      • คอนเทนต์ที่ทำ SEO มาอย่างดีมักทำงานได้ดีใน LLM ด้วย ทำให้ ข้อมูลที่ความน่าเชื่อถือต่ำถูกดันขึ้นมาอยู่ลำดับบน
      • ตัวอย่าง: หากค้นหา “หมอนที่ดีที่สุดปี 2025” ก็หาคำตอบที่เชื่อถือได้ยาก → LLM ก็เจอปัญหาเดียวกัน
  • LLMs + เอกสารภายใน (Notion, Slack ฯลฯ)

    • ข้อดี:
      • ในองค์กรที่ซับซ้อน สามารถมองเห็นข้อมูลการทำงานร่วมกันระหว่างทีม นโยบาย และแผนงานได้ในภาพรวม
      • เครื่องมืออย่าง NotionAI เป็นตัวอย่างที่แสดงศักยภาพของ LLM ได้อย่างชัดเจน
    • ปัญหา:
      • ยากที่จะรู้ว่าเอกสารยังเป็นข้อมูลล่าสุดหรือไม่
      • คำถามเดียวกันอาจให้ผลลัพธ์ที่ขัดแย้งกันได้
      • ดังนั้นจึงต้องมีไม่เพียงแค่ตัวเอกสาร แต่รวมถึง metadata เกี่ยวกับความน่าเชื่อถือของเอกสาร ด้วย
  • LLMs + ข้อมูลเชิงโครงสร้างและเมตริก

    • ข้อดี:
      • วิเคราะห์ข้อมูลที่ซับซ้อนได้ผ่านอินเทอร์เฟซแบบสนทนาโดยไม่ต้องใช้ SQL
      • เมื่อทำงานกับข้อมูลที่คุ้นเคย จะให้ความรู้สึก เหมือนได้พลังพิเศษ
    • ปัญหา:
      • ทั้งองค์กรใช้คำจำกัดความที่สอดคล้องกันหรือไม่?
      • ผู้บริหารเชื่อถือผลลัพธ์และสามารถใช้ในการตัดสินใจจริงได้หรือไม่?
      • การควบคุมสิทธิ์เข้าถึงและ data governance ถูกตั้งค่าไว้อย่างเหมาะสมหรือไม่?
      • แม้ Text-to-SQL จะพัฒนาไปมากขึ้นเรื่อย ๆ แต่ ความเป็นไปได้ในการใช้งานจริงและการสร้างความน่าเชื่อถือ ยังเป็นโจทย์สำคัญ

ตัวอย่างการบูรณาการข้อมูล 3 แบบสำหรับ LLM

  • ตัวอย่างเช่น หาก CEO ของเชนร้านอาหารแห่งหนึ่งกำลังพิจารณาขยายไปยังภูมิภาคใหม่ ก็สามารถใช้ข้อมูลทั้งหมดต่อไปนี้ร่วมกันได้:
    • เอกสารภายใน: ทำความเข้าใจกลยุทธ์และแผนขององค์กร
    • ข้อมูลเชิงโครงสร้าง: วิเคราะห์สถานะทางการเงินและข้อมูลลูกค้า
    • การค้นหาบนอินเทอร์เน็ต: สำรวจข้อมูลตลาดและ benchmark ของพื้นที่นั้น
  • ในทางทฤษฎี นี่เป็นแนวทางที่มีประโยชน์มาก แต่ในความเป็นจริง มักต้องเชื่อมหลายระบบเข้าด้วยกันแบบชั่วคราว และ ความผิดพลาดเล็กน้อยเพียงจุดเดียวก็อาจส่งผลต่อการตัดสินใจทั้งหมดได้

คุณค่าที่แท้จริงของ Modern Data Stack

  • ก่อนที่ AI จะมาเป็นกระแส การที่ Modern Data Stack ได้รับความนิยมเพื่อการรวมศูนย์ข้อมูล การทำมาตรฐาน และ governance ไม่ใช่เรื่องบังเอิญ
  • โครงสร้างพื้นฐานนี้เองคือฐานรากสำหรับยุคของ LLM
  • Modern Data Stack ไม่ได้มีไว้แค่สร้างแดชบอร์ด แต่เป็น แพลตฟอร์มสำหรับเวิร์กโฟลว์ข้อมูลและอินเทอร์เฟซที่สม่ำเสมอและเชื่อถือได้
  • ตอนนี้เมื่อ AI เริ่มมีปฏิสัมพันธ์กับ ecosystem นี้ ความสำคัญของโครงสร้างพื้นฐานข้อมูลจึงกลับมาโดดเด่นอีกครั้ง

บทบาทของผู้ปฏิบัติงานด้านข้อมูลในอนาคต

  • จากนี้ไป ผู้ปฏิบัติงานด้านข้อมูลไม่ได้ทำเพียงการวิเคราะห์ข้อมูลเท่านั้น แต่ยังต้อง:
    • สร้าง สภาพแวดล้อมข้อมูลที่เชื่อถือได้ ให้ LLM ใช้งานได้
    • ออกแบบ ระบบที่มี governance และการควบคุมสิทธิ์การเข้าถึง
    • รับประกันเสถียรภาพและความน่าเชื่อถือ เมื่อมีการนำระบบ AI ไปใช้งานจริง
  • พื้นที่นี้เป็นทั้ง โอกาสครั้งใหญ่ และมาพร้อมกับ ความรับผิดชอบอย่างมาก
  • ขณะนี้หลายองค์กรกำลังนำระบบ LLM ไปใช้กับงานจริง และนี่คือ ช่วงเวลาที่สามารถสร้างผลกระทบเชิงรูปธรรมได้

สรุป

  • Modern Data Stack ยังคงเป็นโครงสร้างพื้นฐานที่มีความหมายในยุค AI และตอนนี้กำลังเริ่มเชื่อมเข้ากับระบบ AI อย่างจริงจัง
  • เวิร์กโฟลว์ AI ที่รวมข้อมูลเชิงโครงสร้าง เอกสารที่ไม่มีโครงสร้าง และข้อมูลจากโลกจริงเข้าด้วยกันนั้นเป็นสิ่งที่ทำได้จริงแล้ว และมีแนวโน้มจะพัฒนาไปอีก
  • การออกแบบและเชื่อมระบบเหล่านี้ไปในทิศทางที่ถูกต้องคือ ภารกิจของชุมชนข้อมูล

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น