> "ขณะนี้เราอยู่ในช่วงเริ่มต้นของการปฏิวัติอุตสาหกรรมครั้งใหม่ แทนที่จะผลิตไฟฟ้า เรากำลังสร้างปัญญาประดิษฐ์.. [โอเพนซอร์ส] ทำให้ทุกบริษัทสามารถกลายเป็นบริษัท AI ได้" - Jensen Huang

  • การดึงข้อมูลจากเอกสารไม่ใช่แนวคิดใหม่ แต่ Generative AI (GenAI) ต้องการข้อมูลคุณภาพสูงจำนวนมหาศาล
  • ข้อมูลมีความสำคัญทั้งต่อการฝึกและการอนุมาน และไม่ใช่แค่ขนาดของข้อมูลเท่านั้น แต่ยังขยายจากข้อความและข้อมูลตารางไปสู่วิดีโอ ภาพ และเสียง
  • ยังสังเกตเห็นการเพิ่มขึ้นของข้อมูลเชิงพื้นที่ เช่น ภาพถ่ายดาวเทียมและข้อมูลเซ็นเซอร์จากหุ่นยนต์
  • ในชั้นข้อมูล มีพื้นที่ใหม่ใดบ้างที่ AI สามารถเข้ามาพลิกโฉมได้อย่างฉับพลันมากที่สุด?
    • การดึงข้อมูลและไปป์ไลน์สำหรับข้อมูลไม่มีโครงสร้าง, Retrieval-Augmented Generation (RAG), การคัดสรรข้อมูล, การจัดเก็บข้อมูล, หน่วยความจำ AI
  • จุดประสงค์ของบทความนี้คือการวิเคราะห์ภูมิทัศน์ของโครงสร้างพื้นฐานข้อมูล AI แบ่งปันเทรนด์ล่าสุด และพูดถึงพื้นที่นวัตกรรมที่มีศักยภาพมากที่สุด

สถานะปัจจุบันของโครงสร้างพื้นฐานข้อมูล AI

  • ต้องการแสดงภาพรวมแบบง่ายของการไหลของข้อมูลในห่วงโซ่คุณค่าของข้อมูล AI และอธิบายการไหลของข้อมูลในกระบวนการฝึกและการอนุมาน
  • แบ่งห่วงโซ่คุณค่าของโครงสร้างพื้นฐานข้อมูลออกเป็น 6 ด้านหลัก
    • แหล่งข้อมูล (Sources)
    • การนำเข้าข้อมูลและการแปลงข้อมูล (Ingestion & Transformation)
    • การจัดเก็บ (Storage)
    • การฝึก (Training)
    • การอนุมาน (Inference)
    • บริการข้อมูล (Data Services)

แหล่งข้อมูล

  • ข้อมูลจากแอป: ดึงมาจาก Salesforce, ServiceNow เป็นต้น
  • ข้อมูลเรียลไทม์: ข้อมูลจากเซ็นเซอร์ การผลิต และการแพทย์
  • ฐานข้อมูล OLTP: ข้อมูลธุรกรรม เช่น Oracle, MongoDB
  • ข้อมูลสังเคราะห์: ข้อมูลที่สร้างขึ้นแบบเทียมและไม่ได้เก็บจากโลกจริง (e.g., Mostly AI, Datagen, Tonic)
    • คุ้มค่าในเชิงต้นทุนและได้เปรียบด้านการปฏิบัติตามข้อกำหนดของข้อมูล
    • อย่างไรก็ตาม ยังมีข้อจำกัดในการเพิ่มประสิทธิภาพของโมเดล เนื่องจากแสดงข้อมูลค่าผิดปกติทางสถิติได้ไม่ดีพอ
  • ข้อมูลเว็บ: เก็บข้อมูลสาธารณะผ่าน web scraping (e.g., Browse AI, Apify)
    • จำเป็นต่อการฝึกโมเดลข้อมูลขนาดใหญ่ แต่มีความเป็นไปได้ที่ข้อมูลสาธารณะจะหมดลง (คาดการณ์ช่วงปี 2026~2032)

การนำเข้าข้อมูลและการแปลงข้อมูล

  • ไปป์ไลน์ข้อมูลคือกระบวนการส่งข้อมูลจากต้นทางไปยังปลายทาง และแปลงให้อยู่ในสภาพที่พร้อมสำหรับการวิเคราะห์
    • ETL/ELT: วิธีการแบบดั้งเดิม (ประมวลผลแบบแบตช์, ประมวลผลแบบสตรีม)
    • Feature engineering/ไปป์ไลน์: ใน ML ใช้หลักๆ กับการประมวลผลข้อมูลตาราง
    • ไปป์ไลน์ข้อมูลไม่มีโครงสร้าง: รวมกระบวนการดึง แปลง และจัดเก็บข้อมูลเข้าด้วยกัน เพื่อจัดระเบียบและจัดเก็บข้อมูลไม่มีโครงสร้าง
  • ประเภทของไปป์ไลน์
    • การประมวลผลแบบแบตช์: ดึงและโหลดข้อมูลตามช่วงเวลาที่กำหนด
    • การประมวลผลแบบสตรีม: โหลดข้อมูลแบบเรียลไทม์ (Kafka, Flink เป็นต้น)
  • เครื่องมือและเฟรมเวิร์ก
    • สตรีมมิง (Kafka, Confluent), เอนจินประมวลผล (Databricks, Flink), เครื่องมือ orchestration (Astronomer, Dagster, Airflow, Prefect เป็นต้น)
    • เครื่องมือทำป้ายกำกับ: LabelBox, Scale AI เป็นต้น (การทำป้ายกำกับข้อมูลทดสอบมีความสำคัญ)
      • แบทช์: ETL(Airbyte, Fivetran), transform(dbt,coalesce)
      • การประมวลผลข้อมูลไม่มีโครงสร้าง: Datavolo, Unstructured, LlamaIndex เป็นต้น

การจัดเก็บข้อมูล

  • แนวทางแบบดั้งเดิม: จัดเก็บใน data warehouse
  • ข้อมูลสำหรับใช้งาน AI:
    • ใช้โครงสร้าง data lake และ lakehouse
    • จัดเก็บ embedding ของข้อมูลผ่าน vector database
  • เครื่องมือหลัก:
    • data lake : Databricks, Onehouse, Tabular, Amazon S3, GCS เป็นต้น
      • vector DB: Pinecone, Chroma, Milvus, Weaviete เป็นต้น

การฝึกโมเดล

  • รูปแบบการเรียนรู้:
    • การเรียนรู้แบบมีผู้สอน, การเรียนรู้แบบไม่มีผู้สอน, การเรียนรู้แบบเสริมกำลัง
  • กระบวนการฝึก Large Language Model (LLM):
    • การพรีเทรน: เรียนรู้แบบไม่มีผู้สอนเพื่อรับรู้รูปแบบของข้อมูล
    • การเรียนรู้แบบมีผู้สอน: ปรับประสิทธิภาพให้เหมาะสม
    • การเรียนรู้แบบเสริมกำลัง (RLHF): เพิ่มประสิทธิภาพผ่านฟีดแบ็กจากมนุษย์
  • การตรวจสอบและประเมินผล:
    • ประเมินความเหมาะสมของโมเดลจากความถูกต้อง ความแม่นยำ การลด loss เป็นต้น
  • ขั้นตอนสุดท้าย:
    • ทดสอบความปลอดภัย กำกับดูแล และตรวจสอบ compliance
  • เครื่องมือหลัก:
    • Training: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

การอนุมานของโมเดล

  • กระบวนการ:
    • ป้อนพรอมป์ต์ → tokenization/vectorization → ประมวลผลข้อมูล → สร้างผลลัพธ์
  • การปรับให้เหมาะกับผู้ใช้:
    • เชื่อมต่อ vector database กับ LLM
    • สร้างผลลัพธ์เฉพาะที่สะท้อนบริบทของผู้ใช้
  • สิ่งที่ต้องคำนึงถึง:
    • ความปลอดภัยของข้อมูล คุณภาพของโมเดล และ compliance
  • เครื่องมือหลัก:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

บริการข้อมูล

  • หมวดหมู่:
    • ความปลอดภัยของข้อมูล: การควบคุมการเข้าถึง การป้องกันข้อมูลรั่วไหล (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • การมองเห็นข้อมูล: มอนิเตอร์คุณภาพและประสิทธิภาพของไปป์ไลน์ข้อมูล (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • แคตตาล็อกข้อมูล: รวมศูนย์ metadata และจัดระเบียบสินทรัพย์ข้อมูล (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • บทสรุป:
    • ยิ่งข้อมูลถูกจัดระเบียบดีเท่าไร ความปลอดภัย การมองเห็น และการจัดการก็ยิ่งมีประสิทธิภาพมากขึ้น

[การปรับโครงสร้างข้อมูลจาก AI]

มีการสังเกตเห็นนวัตกรรมในพื้นที่ต่อไปนี้ของโครงสร้างพื้นฐานข้อมูลอันเป็นผลจาก AI:

1. ไปป์ไลน์ข้อมูลไม่มีโครงสร้างสำหรับ AI agent และแอปพลิเคชัน

  • การผงาดขึ้นของไปป์ไลน์ข้อมูลไม่มีโครงสร้าง:
    • ความต้องการใช้ข้อมูลภายในที่ไม่มีโครงสร้างสำหรับแอปพลิเคชัน conversational AI และ agent เพิ่มขึ้น
    • ไปป์ไลน์ข้อมูลไม่มีโครงสร้างมีขั้นตอนคล้ายกับไปป์ไลน์ข้อมูลแบบดั้งเดิม ได้แก่ การดึงข้อมูล การแปลงข้อมูล การทำดัชนี และการจัดเก็บ
  • แหล่งข้อมูลหลัก:
    • ข้อความจาก PDF, knowledge base, รูปภาพ เป็นต้น
    • ส่วนใหญ่เป็นข้อมูลที่รองรับกรณีใช้งานของ conversational AI
  • จุดแตกต่าง:
    • ความแตกต่างจากไปป์ไลน์เดิมเกิดขึ้นในขั้นตอนการแปลงข้อมูล:
      • การแบ่งข้อมูลเป็นชิ้น (chunking): แบ่งข้อมูลออกเป็นหน่วยย่อย
      • การดึง metadata: สร้างข้อมูลที่จำเป็นสำหรับการทำดัชนี
      • การทำ embedding: แปลงแต่ละชิ้นข้อมูลเป็นเวกเตอร์เพื่อจัดเก็บ
  • ปัจจัยสู่ความสำเร็จ:
    • การเลือกกลยุทธ์ chunking และโมเดล embedding มีผลสำคัญต่อความแม่นยำในการค้นคืนข้อมูล
    • การเกิดขึ้นของโมเดล embedding เฉพาะโดเมน: เช่น โมเดลที่เชี่ยวชาญด้านโค้ดหรือเนื้อหากฎหมาย
  • การใช้ฐานข้อมูลที่รองรับเวกเตอร์:
    • จัดเก็บข้อมูลไม่มีโครงสร้างและแปลงให้อยู่ในรูปแบบที่สืบค้นได้
    • ทำให้ปรับ LLM ให้เป็นส่วนบุคคลได้ผ่าน RAG(Retrieval-Augmented Generation) และ agent
  • ข้อสังเกตหลัก
    • ทีมต่างๆ กำลังทดลองใช้กลยุทธ์ chunking ที่หลากหลาย
    • โมเดล embedding ที่เฉพาะตามโดเมนเพิ่มขึ้นอย่างต่อเนื่อง และช่วยปรับปรุงความแม่นยำกับประสิทธิภาพ
    • องค์กรกำลังมองหาเครื่องมือที่ช่วยแปลงข้อมูลให้อยู่ในรูปแบบที่ตั้งคำถามได้ง่าย

2. Retrieval-Augmented Generation (RAG)

  • ภาพรวมของ RAG:
    • RAG คือเวิร์กโฟลว์เชิงสถาปัตยกรรมที่ใช้ข้อมูลแบบกำหนดเองเพื่อเพิ่มประสิทธิภาพของแอปพลิเคชัน LLM
    • วิธีการทำงาน:
      • โหลดข้อมูลและทำ "ดัชนี" เพื่อใช้ประมวลผลคำถาม
      • คำถามจะใช้ดัชนีเพื่อคัดกรองข้อมูลที่เกี่ยวข้องมากที่สุด
      • บริบทที่คัดกรองแล้วและคำถามจะถูกส่งไปยัง LLM ในรูปแบบพรอมป์ต์เพื่อสร้างคำตอบ
    • ทำให้สามารถเปิดใช้งานข้อมูลเป็นส่วนหนึ่งของประสบการณ์ในผลิตภัณฑ์ได้
  • ข้อดีสำคัญของ RAG:
    • ให้ข้อมูลที่อัปเดต:
      • LLM มีข้อจำกัดจากข้อมูลพรีเทรน จึงอาจให้คำตอบที่ล้าสมัยหรือไม่ถูกต้อง
      • RAG เข้าถึงแหล่งข้อมูลภายนอกเพื่อให้คำตอบที่ทันสมัยกว่า
    • เสริมความเป็นข้อเท็จจริง:
      • RAG ช่วยชดเชยปัญหาที่ LLM อาจไม่สามารถให้ข้อมูลที่แม่นยำได้
      • ใช้ knowledge base ที่คัดสรรแล้วเพื่อให้ข้อมูลที่น่าเชื่อถือสูง
    • ระบุแหล่งที่มาได้:
      • สามารถเพิ่ม citation และ annotation ให้กับคำตอบของ LLM
      • ช่วยเพิ่มความเชื่อมั่นของผู้ใช้

3. การคัดสรรข้อมูลเพื่อเพิ่มประสิทธิภาพการฝึกและการอนุมาน

  • การคัดสรรข้อมูล: กระบวนการกรองและจัดองค์ประกอบของชุดข้อมูลเพื่อให้ได้ประสิทธิภาพสูงสุดในการฝึกและการอนุมาน
    • งานหลัก:
      • การจัดประเภทข้อความ
      • การใช้ตัวกรอง NSFW
      • การลบข้อมูลซ้ำ
      • การปรับขนาด batch ให้เหมาะสม
      • การเพิ่มประสิทธิภาพแหล่งข้อมูลตามผลลัพธ์
      • การเพิ่มข้อมูลด้วยข้อมูลสังเคราะห์
  • อินไซต์จากการเปิดตัว Meta Llama-3:
    • การคัดสรรข้อมูลฝึก:
      • "การคัดสรรชุดข้อมูลขนาดใหญ่คุณภาพสูงเป็นสิ่งสำคัญต่อการฝึก language model ที่ดีที่สุด"
      • Meta ได้พัฒนาไปป์ไลน์การกรองข้อมูลดังต่อไปนี้:
        • ตัวกรองแบบ heuristic
        • ตัวกรอง NSFW
        • การลบข้อมูลซ้ำเชิงความหมาย
        • ตัวจำแนกข้อความเพื่อคาดการณ์คุณภาพข้อมูล
    • การคัดสรรข้อมูลสำหรับ fine-tuning:
      • "การปรับปรุงคุณภาพของโมเดลครั้งใหญ่ที่สุดเกิดจากการคัดสรรข้อมูลอย่างรอบคอบ และการตรวจทานคำอธิบายประกอบของผู้ให้ annotation โดยผ่านขั้นตอนประกันคุณภาพหลายชั้น"
  • ผลของการคัดสรรข้อมูล:
    • ตามข้อมูลจากทีมวิจัย Meta AI:
      • การคัดสรรช่วยลดเวลาในการฝึกได้สูงสุด 20%
      • ปรับปรุงความแม่นยำของงาน downstream
      • เปิดเส้นทางสู่การเพิ่มประสิทธิภาพของโมเดล แม้ในภาวะที่ข้อมูลอินเทอร์เน็ตเริ่มขาดแคลน
  • ทิศทางในอนาคต:
    • ตัวกรองข้อมูลคุณภาพสูงอัตโนมัติ การลบข้อมูลซ้ำ และตัวจำแนก จะมีความสำคัญต่อการฝึกและ fine-tuning โมเดล
    • บริษัทอย่าง Datology AI กำลังพยายามทำให้สิ่งนี้เกิดขึ้นจริง

4. การจัดเก็บข้อมูลสำหรับ AI

  • มี 3 เทรนด์หลักของวิธีจัดเก็บข้อมูล AI:
    • vector database
    • การผงาดขึ้นของ data lake
    • การลงทุนใน lakehouse ที่เพิ่มขึ้น
  • ความสำคัญของ vector database:
    • vector database ได้รับความสนใจว่าเป็นหนึ่งในเทคโนโลยีแกนกลางของกระแส AI บูม
    • เหมาะสำหรับจัดเก็บ embedding ของข้อมูล (การแทนค่าเป็นตัวเลข):
      • แปลงข้อมูลไม่มีโครงสร้าง (ภาพ เสียง วิดีโอ เป็นต้น) ให้เป็นตัวเลขแล้วจัดเก็บ
      • รองรับการค้นหาเชิงความหมาย (เช่น ค้นหา "dog" แล้วได้ "wolf" หรือ "puppy")
    • รูปแบบของ vector database:
      • vector database แบบเนทีฟ: ออกแบบมาเฉพาะเพื่อจัดเก็บเวกเตอร์
      • แบบขยายจากฐานข้อมูลเดิม: เพิ่มความสามารถรองรับเวกเตอร์ให้ฐานข้อมูลที่มีอยู่
    • กรณีใช้งาน: การปรับ LLM ให้เป็นส่วนบุคคล
      • จัดเก็บและค้นคืนข้อมูลแบบกำหนดเองขององค์กรในรูป embedding เวกเตอร์ได้
      • AI agent สามารถใช้โครงสร้างนี้เพื่อมอบประสบการณ์ที่ปรับแต่งเฉพาะได้
  • data lake และ lakehouse
    • การผงาดขึ้นของ data lake:
      • องค์กรส่วนใหญ่จัดเก็บข้อมูลขนาดใหญ่ไว้ใน data lake
      • การใช้ data lake เป็นสิ่งจำเป็นสำหรับการพัฒนา AI แบบกำหนดเอง
    • สถาปัตยกรรม lakehouse:
      • มอบสถาปัตยกรรมสำหรับจัดการและสืบค้น data lake ได้อย่างมีประสิทธิภาพ
      • จัดโครงสร้างข้อมูลด้วย open table format:
        • ใช้ Iceberg, Delta Lake, Hudi เป็นต้น
      • ช่วยจัดระเบียบข้อมูลและเพิ่มประสิทธิภาพการคิวรี
    • บทบาทของ Databricks:
      • Databricks เข้าซื้อ Tabular และรวมทีมพัฒนา Delta Lake กับ Iceberg
      • ทำให้คู่แข่งเข้าสู่ตลาดได้ยากขึ้น และเป็นผู้นำการพัฒนาเทคโนโลยี lakehouse

5. หน่วยความจำ AI

  • การผงาดขึ้นของหน่วยความจำ AI:
    • หลังการประกาศฟีเจอร์ memory ของ ChatGPT หน่วยความจำ AI ก็กลายเป็นหัวข้อหลักของการพูดถึง
    • ระบบ AI มาตรฐานยังขาด episodic memory ที่แข็งแรงและความต่อเนื่องระหว่างปฏิสัมพันธ์:
      • ระบบปัจจุบันอยู่ในสภาวะคล้ายความจำเสื่อมระยะสั้นรูปแบบหนึ่ง
      • มีข้อจำกัดต่อการให้เหตุผลเชิงลำดับที่ซับซ้อนและการแบ่งปันความรู้ในระบบหลาย agent
  • หน่วยความจำในระบบหลาย agent
    • เมื่อพัฒนาไปสู่ระบบหลาย agent ก็จำเป็นต้องมีระบบจัดการหน่วยความจำระหว่าง agent
    • ข้อกำหนดด้านความสามารถ:
      • รองรับการเก็บความทรงจำแยกตาม agent และการเข้าถึงข้ามเซสชัน
      • มีการควบคุมการเข้าถึงและความเป็นส่วนตัว
      • การรวมหน่วยความจำระหว่าง agent:
        • agent หนึ่งสามารถใช้ประสบการณ์ของอีก agent ได้
        • เพิ่มความสามารถในการตัดสินใจ
    • ต้องการหน่วยความจำแบบลำดับชั้น:
      • จัดเก็บหน่วยความจำเป็นลำดับชั้นตามความถี่ในการเข้าถึง ความสำคัญ และต้นทุน
  • MemGPT: เฟรมเวิร์กชั้นนำด้านการจัดการหน่วยความจำ AI
    • วิสัยทัศน์ของ MemGPT: มุ่งให้ LLM เป็นผู้ขับเคลื่อนวิวัฒนาการของระบบปฏิบัติการ (OS) ยุคถัดไป
    • ภาพรวมสถาปัตยกรรม:
      • ประเภทของหน่วยความจำ:
        • หน่วยความจำบริบทหลัก: คล้ายหน่วยความจำหลัก (RAM)
        • หน่วยความจำบริบทภายนอก: คล้ายหน่วยความจำดิสก์/พื้นที่เก็บข้อมูลบนดิสก์
  • ความสำคัญของหน่วยความจำ AI
    • รองรับ personalization การเรียนรู้ และ reflection และเป็นสิ่งจำเป็นต่อการพัฒนาแอปพลิเคชัน AI
    • ยกระดับความสามารถในการแก้งานซับซ้อนผ่านการร่วมมือและการแบ่งปันความทรงจำระหว่าง agent

โอกาสของ AI workload

  • AI workload และโครงสร้างพื้นฐานข้อมูล:
    • แม้การผงาดขึ้นของ GenAI จะไม่ได้เปลี่ยนทุกแง่มุมของโครงสร้างพื้นฐานข้อมูล แต่การเกิดขึ้นของเทคโนโลยีต่อไปนี้ถือเป็นพัฒนาการที่น่าตื่นเต้นมาก:
      • การดึงข้อมูลและการทำไปป์ไลน์สำหรับข้อมูลไม่มีโครงสร้าง
      • Retrieval-Augmented Generation (RAG)
      • การคัดสรรข้อมูล
      • การจัดเก็บข้อมูล
      • หน่วยความจำ AI
  • กลยุทธ์การลงทุนของ Felicis
    • มุ่งเน้นอนาคตของ AI และโครงสร้างพื้นฐานข้อมูล:
      • ลงทุนในสตาร์ตอัปที่เกี่ยวข้องกับชั้นข้อมูลและโครงสร้างพื้นฐาน
      • ตัวอย่างการลงทุนหลัก:
        • Datology: การคัดสรรข้อมูล
        • Metaplane: data observability
        • MotherDuck: serverless data warehouse
        • Weights & Biases: เครื่องมือติดตามการทดลอง
  • ศักยภาพการเติบโตของตลาด AI
    • ความสามารถในการขยายตัว:
      • ตลาด AI กำลังขยายตัวอย่างกว้างขวางจากแชตบอตไปสู่เวิร์กโฟลว์หลาย agent
      • ปัจจุบันยังเป็นเพียงจุดเริ่มต้น และยังมีโอกาสพัฒนาอีกมากในอนาคต
    • ความสำคัญของโซลูชันข้อมูล:
      • โซลูชันข้อมูลคือหัวใจสำคัญของแอปพลิเคชัน AI ที่ประสบความสำเร็จ
      • คาดว่าจะมีการสร้างธุรกิจข้อมูลขนาดใหญ่เพื่อรองรับ AI workload

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น