การผงาดขึ้นของโครงสร้างพื้นฐานข้อมูลสำหรับ AI

(felicis.com)

16 คะแนน โดย xguru 2024-11-25 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

"ขณะนี้เราอยู่ในช่วงเริ่มต้นของการปฏิวัติอุตสาหกรรมครั้งใหม่ แทนที่จะผลิตไฟฟ้า เรากำลังสร้างปัญญาประดิษฐ์.. [โอเพนซอร์ส] ทำให้ทุกบริษัทสามารถกลายเป็นบริษัท AI ได้" - Jensen Huang

การดึงข้อมูลจากเอกสารไม่ใช่แนวคิดใหม่ แต่ Generative AI (GenAI) ต้องการข้อมูลคุณภาพสูงจำนวนมหาศาล
ข้อมูลมีความสำคัญทั้งต่อการฝึกและการอนุมาน และไม่ใช่แค่ขนาดของข้อมูลเท่านั้น แต่ยังขยายจากข้อความและข้อมูลตารางไปสู่วิดีโอ ภาพ และเสียง
ยังสังเกตเห็นการเพิ่มขึ้นของข้อมูลเชิงพื้นที่ เช่น ภาพถ่ายดาวเทียมและข้อมูลเซ็นเซอร์จากหุ่นยนต์
ในชั้นข้อมูล มีพื้นที่ใหม่ใดบ้างที่ AI สามารถเข้ามาพลิกโฉมได้อย่างฉับพลันมากที่สุด?
- การดึงข้อมูลและไปป์ไลน์สำหรับข้อมูลไม่มีโครงสร้าง, Retrieval-Augmented Generation (RAG), การคัดสรรข้อมูล, การจัดเก็บข้อมูล, หน่วยความจำ AI
จุดประสงค์ของบทความนี้คือการวิเคราะห์ภูมิทัศน์ของโครงสร้างพื้นฐานข้อมูล AI แบ่งปันเทรนด์ล่าสุด และพูดถึงพื้นที่นวัตกรรมที่มีศักยภาพมากที่สุด

สถานะปัจจุบันของโครงสร้างพื้นฐานข้อมูล AI

ต้องการแสดงภาพรวมแบบง่ายของการไหลของข้อมูลในห่วงโซ่คุณค่าของข้อมูล AI และอธิบายการไหลของข้อมูลในกระบวนการฝึกและการอนุมาน
แบ่งห่วงโซ่คุณค่าของโครงสร้างพื้นฐานข้อมูลออกเป็น 6 ด้านหลัก
- แหล่งข้อมูล (Sources)
- การนำเข้าข้อมูลและการแปลงข้อมูล (Ingestion & Transformation)
- การจัดเก็บ (Storage)
- การฝึก (Training)
- การอนุมาน (Inference)
- บริการข้อมูล (Data Services)

แหล่งข้อมูล

ข้อมูลจากแอป: ดึงมาจาก Salesforce, ServiceNow เป็นต้น
ข้อมูลเรียลไทม์: ข้อมูลจากเซ็นเซอร์ การผลิต และการแพทย์
ฐานข้อมูล OLTP: ข้อมูลธุรกรรม เช่น Oracle, MongoDB
ข้อมูลสังเคราะห์: ข้อมูลที่สร้างขึ้นแบบเทียมและไม่ได้เก็บจากโลกจริง (e.g., Mostly AI, Datagen, Tonic)
- คุ้มค่าในเชิงต้นทุนและได้เปรียบด้านการปฏิบัติตามข้อกำหนดของข้อมูล
- อย่างไรก็ตาม ยังมีข้อจำกัดในการเพิ่มประสิทธิภาพของโมเดล เนื่องจากแสดงข้อมูลค่าผิดปกติทางสถิติได้ไม่ดีพอ
ข้อมูลเว็บ: เก็บข้อมูลสาธารณะผ่าน web scraping (e.g., Browse AI, Apify)
- จำเป็นต่อการฝึกโมเดลข้อมูลขนาดใหญ่ แต่มีความเป็นไปได้ที่ข้อมูลสาธารณะจะหมดลง (คาดการณ์ช่วงปี 2026~2032)

การนำเข้าข้อมูลและการแปลงข้อมูล

ไปป์ไลน์ข้อมูลคือกระบวนการส่งข้อมูลจากต้นทางไปยังปลายทาง และแปลงให้อยู่ในสภาพที่พร้อมสำหรับการวิเคราะห์
- ETL/ELT: วิธีการแบบดั้งเดิม (ประมวลผลแบบแบตช์, ประมวลผลแบบสตรีม)
- Feature engineering/ไปป์ไลน์: ใน ML ใช้หลักๆ กับการประมวลผลข้อมูลตาราง
- ไปป์ไลน์ข้อมูลไม่มีโครงสร้าง: รวมกระบวนการดึง แปลง และจัดเก็บข้อมูลเข้าด้วยกัน เพื่อจัดระเบียบและจัดเก็บข้อมูลไม่มีโครงสร้าง
ประเภทของไปป์ไลน์
- การประมวลผลแบบแบตช์: ดึงและโหลดข้อมูลตามช่วงเวลาที่กำหนด
- การประมวลผลแบบสตรีม: โหลดข้อมูลแบบเรียลไทม์ (Kafka, Flink เป็นต้น)
เครื่องมือและเฟรมเวิร์ก
- สตรีมมิง (Kafka, Confluent), เอนจินประมวลผล (Databricks, Flink), เครื่องมือ orchestration (Astronomer, Dagster, Airflow, Prefect เป็นต้น)
- เครื่องมือทำป้ายกำกับ: LabelBox, Scale AI เป็นต้น (การทำป้ายกำกับข้อมูลทดสอบมีความสำคัญ)
  - แบทช์: ETL(Airbyte, Fivetran), transform(dbt,coalesce)
  - การประมวลผลข้อมูลไม่มีโครงสร้าง: Datavolo, Unstructured, LlamaIndex เป็นต้น

การจัดเก็บข้อมูล

แนวทางแบบดั้งเดิม: จัดเก็บใน data warehouse
ข้อมูลสำหรับใช้งาน AI:
- ใช้โครงสร้าง data lake และ lakehouse
- จัดเก็บ embedding ของข้อมูลผ่าน vector database
เครื่องมือหลัก:
- data lake : Databricks, Onehouse, Tabular, Amazon S3, GCS เป็นต้น
  - vector DB: Pinecone, Chroma, Milvus, Weaviete เป็นต้น

การฝึกโมเดล

รูปแบบการเรียนรู้:
- การเรียนรู้แบบมีผู้สอน, การเรียนรู้แบบไม่มีผู้สอน, การเรียนรู้แบบเสริมกำลัง
กระบวนการฝึก Large Language Model (LLM):
- การพรีเทรน: เรียนรู้แบบไม่มีผู้สอนเพื่อรับรู้รูปแบบของข้อมูล
- การเรียนรู้แบบมีผู้สอน: ปรับประสิทธิภาพให้เหมาะสม
- การเรียนรู้แบบเสริมกำลัง (RLHF): เพิ่มประสิทธิภาพผ่านฟีดแบ็กจากมนุษย์
การตรวจสอบและประเมินผล:
- ประเมินความเหมาะสมของโมเดลจากความถูกต้อง ความแม่นยำ การลด loss เป็นต้น
ขั้นตอนสุดท้าย:
- ทดสอบความปลอดภัย กำกับดูแล และตรวจสอบ compliance
เครื่องมือหลัก:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

การอนุมานของโมเดล

กระบวนการ:
- ป้อนพรอมป์ต์ → tokenization/vectorization → ประมวลผลข้อมูล → สร้างผลลัพธ์
การปรับให้เหมาะกับผู้ใช้:
- เชื่อมต่อ vector database กับ LLM
- สร้างผลลัพธ์เฉพาะที่สะท้อนบริบทของผู้ใช้
สิ่งที่ต้องคำนึงถึง:
- ความปลอดภัยของข้อมูล คุณภาพของโมเดล และ compliance
เครื่องมือหลัก:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

บริการข้อมูล

หมวดหมู่:
- ความปลอดภัยของข้อมูล: การควบคุมการเข้าถึง การป้องกันข้อมูลรั่วไหล (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- การมองเห็นข้อมูล: มอนิเตอร์คุณภาพและประสิทธิภาพของไปป์ไลน์ข้อมูล (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- แคตตาล็อกข้อมูล: รวมศูนย์ metadata และจัดระเบียบสินทรัพย์ข้อมูล (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
บทสรุป:
- ยิ่งข้อมูลถูกจัดระเบียบดีเท่าไร ความปลอดภัย การมองเห็น และการจัดการก็ยิ่งมีประสิทธิภาพมากขึ้น

[การปรับโครงสร้างข้อมูลจาก AI]

มีการสังเกตเห็นนวัตกรรมในพื้นที่ต่อไปนี้ของโครงสร้างพื้นฐานข้อมูลอันเป็นผลจาก AI:

1. ไปป์ไลน์ข้อมูลไม่มีโครงสร้างสำหรับ AI agent และแอปพลิเคชัน

การผงาดขึ้นของไปป์ไลน์ข้อมูลไม่มีโครงสร้าง:
- ความต้องการใช้ข้อมูลภายในที่ไม่มีโครงสร้างสำหรับแอปพลิเคชัน conversational AI และ agent เพิ่มขึ้น
- ไปป์ไลน์ข้อมูลไม่มีโครงสร้างมีขั้นตอนคล้ายกับไปป์ไลน์ข้อมูลแบบดั้งเดิม ได้แก่ การดึงข้อมูล การแปลงข้อมูล การทำดัชนี และการจัดเก็บ
แหล่งข้อมูลหลัก:
- ข้อความจาก PDF, knowledge base, รูปภาพ เป็นต้น
- ส่วนใหญ่เป็นข้อมูลที่รองรับกรณีใช้งานของ conversational AI
จุดแตกต่าง:
- ความแตกต่างจากไปป์ไลน์เดิมเกิดขึ้นในขั้นตอนการแปลงข้อมูล:
  - การแบ่งข้อมูลเป็นชิ้น (chunking): แบ่งข้อมูลออกเป็นหน่วยย่อย
  - การดึง metadata: สร้างข้อมูลที่จำเป็นสำหรับการทำดัชนี
  - การทำ embedding: แปลงแต่ละชิ้นข้อมูลเป็นเวกเตอร์เพื่อจัดเก็บ
ปัจจัยสู่ความสำเร็จ:
- การเลือกกลยุทธ์ chunking และโมเดล embedding มีผลสำคัญต่อความแม่นยำในการค้นคืนข้อมูล
- การเกิดขึ้นของโมเดล embedding เฉพาะโดเมน: เช่น โมเดลที่เชี่ยวชาญด้านโค้ดหรือเนื้อหากฎหมาย
การใช้ฐานข้อมูลที่รองรับเวกเตอร์:
- จัดเก็บข้อมูลไม่มีโครงสร้างและแปลงให้อยู่ในรูปแบบที่สืบค้นได้
- ทำให้ปรับ LLM ให้เป็นส่วนบุคคลได้ผ่าน RAG(Retrieval-Augmented Generation) และ agent
ข้อสังเกตหลัก
- ทีมต่างๆ กำลังทดลองใช้กลยุทธ์ chunking ที่หลากหลาย
- โมเดล embedding ที่เฉพาะตามโดเมนเพิ่มขึ้นอย่างต่อเนื่อง และช่วยปรับปรุงความแม่นยำกับประสิทธิภาพ
- องค์กรกำลังมองหาเครื่องมือที่ช่วยแปลงข้อมูลให้อยู่ในรูปแบบที่ตั้งคำถามได้ง่าย

2. Retrieval-Augmented Generation (RAG)

ภาพรวมของ RAG:
- RAG คือเวิร์กโฟลว์เชิงสถาปัตยกรรมที่ใช้ข้อมูลแบบกำหนดเองเพื่อเพิ่มประสิทธิภาพของแอปพลิเคชัน LLM
- วิธีการทำงาน:
  - โหลดข้อมูลและทำ "ดัชนี" เพื่อใช้ประมวลผลคำถาม
  - คำถามจะใช้ดัชนีเพื่อคัดกรองข้อมูลที่เกี่ยวข้องมากที่สุด
  - บริบทที่คัดกรองแล้วและคำถามจะถูกส่งไปยัง LLM ในรูปแบบพรอมป์ต์เพื่อสร้างคำตอบ
- ทำให้สามารถเปิดใช้งานข้อมูลเป็นส่วนหนึ่งของประสบการณ์ในผลิตภัณฑ์ได้
ข้อดีสำคัญของ RAG:
- ให้ข้อมูลที่อัปเดต:
  - LLM มีข้อจำกัดจากข้อมูลพรีเทรน จึงอาจให้คำตอบที่ล้าสมัยหรือไม่ถูกต้อง
  - RAG เข้าถึงแหล่งข้อมูลภายนอกเพื่อให้คำตอบที่ทันสมัยกว่า
- เสริมความเป็นข้อเท็จจริง:
  - RAG ช่วยชดเชยปัญหาที่ LLM อาจไม่สามารถให้ข้อมูลที่แม่นยำได้
  - ใช้ knowledge base ที่คัดสรรแล้วเพื่อให้ข้อมูลที่น่าเชื่อถือสูง
- ระบุแหล่งที่มาได้:
  - สามารถเพิ่ม citation และ annotation ให้กับคำตอบของ LLM
  - ช่วยเพิ่มความเชื่อมั่นของผู้ใช้

3. การคัดสรรข้อมูลเพื่อเพิ่มประสิทธิภาพการฝึกและการอนุมาน

การคัดสรรข้อมูล: กระบวนการกรองและจัดองค์ประกอบของชุดข้อมูลเพื่อให้ได้ประสิทธิภาพสูงสุดในการฝึกและการอนุมาน
- งานหลัก:
  - การจัดประเภทข้อความ
  - การใช้ตัวกรอง NSFW
  - การลบข้อมูลซ้ำ
  - การปรับขนาด batch ให้เหมาะสม
  - การเพิ่มประสิทธิภาพแหล่งข้อมูลตามผลลัพธ์
  - การเพิ่มข้อมูลด้วยข้อมูลสังเคราะห์
อินไซต์จากการเปิดตัว Meta Llama-3:
- การคัดสรรข้อมูลฝึก:
  - "การคัดสรรชุดข้อมูลขนาดใหญ่คุณภาพสูงเป็นสิ่งสำคัญต่อการฝึก language model ที่ดีที่สุด"
  - Meta ได้พัฒนาไปป์ไลน์การกรองข้อมูลดังต่อไปนี้:
    - ตัวกรองแบบ heuristic
    - ตัวกรอง NSFW
    - การลบข้อมูลซ้ำเชิงความหมาย
    - ตัวจำแนกข้อความเพื่อคาดการณ์คุณภาพข้อมูล
- การคัดสรรข้อมูลสำหรับ fine-tuning:
  - "การปรับปรุงคุณภาพของโมเดลครั้งใหญ่ที่สุดเกิดจากการคัดสรรข้อมูลอย่างรอบคอบ และการตรวจทานคำอธิบายประกอบของผู้ให้ annotation โดยผ่านขั้นตอนประกันคุณภาพหลายชั้น"
ผลของการคัดสรรข้อมูล:
- ตามข้อมูลจากทีมวิจัย Meta AI:
  - การคัดสรรช่วยลดเวลาในการฝึกได้สูงสุด 20%
  - ปรับปรุงความแม่นยำของงาน downstream
  - เปิดเส้นทางสู่การเพิ่มประสิทธิภาพของโมเดล แม้ในภาวะที่ข้อมูลอินเทอร์เน็ตเริ่มขาดแคลน
ทิศทางในอนาคต:
- ตัวกรองข้อมูลคุณภาพสูงอัตโนมัติ การลบข้อมูลซ้ำ และตัวจำแนก จะมีความสำคัญต่อการฝึกและ fine-tuning โมเดล
- บริษัทอย่าง Datology AI กำลังพยายามทำให้สิ่งนี้เกิดขึ้นจริง

4. การจัดเก็บข้อมูลสำหรับ AI

มี 3 เทรนด์หลักของวิธีจัดเก็บข้อมูล AI:
- vector database
- การผงาดขึ้นของ data lake
- การลงทุนใน lakehouse ที่เพิ่มขึ้น
ความสำคัญของ vector database:
- vector database ได้รับความสนใจว่าเป็นหนึ่งในเทคโนโลยีแกนกลางของกระแส AI บูม
- เหมาะสำหรับจัดเก็บ embedding ของข้อมูล (การแทนค่าเป็นตัวเลข):
  - แปลงข้อมูลไม่มีโครงสร้าง (ภาพ เสียง วิดีโอ เป็นต้น) ให้เป็นตัวเลขแล้วจัดเก็บ
  - รองรับการค้นหาเชิงความหมาย (เช่น ค้นหา "dog" แล้วได้ "wolf" หรือ "puppy")
- รูปแบบของ vector database:
  - vector database แบบเนทีฟ: ออกแบบมาเฉพาะเพื่อจัดเก็บเวกเตอร์
  - แบบขยายจากฐานข้อมูลเดิม: เพิ่มความสามารถรองรับเวกเตอร์ให้ฐานข้อมูลที่มีอยู่
- กรณีใช้งาน: การปรับ LLM ให้เป็นส่วนบุคคล
  - จัดเก็บและค้นคืนข้อมูลแบบกำหนดเองขององค์กรในรูป embedding เวกเตอร์ได้
  - AI agent สามารถใช้โครงสร้างนี้เพื่อมอบประสบการณ์ที่ปรับแต่งเฉพาะได้
data lake และ lakehouse
- การผงาดขึ้นของ data lake:
  - องค์กรส่วนใหญ่จัดเก็บข้อมูลขนาดใหญ่ไว้ใน data lake
  - การใช้ data lake เป็นสิ่งจำเป็นสำหรับการพัฒนา AI แบบกำหนดเอง
- สถาปัตยกรรม lakehouse:
  - มอบสถาปัตยกรรมสำหรับจัดการและสืบค้น data lake ได้อย่างมีประสิทธิภาพ
  - จัดโครงสร้างข้อมูลด้วย open table format:
    - ใช้ Iceberg, Delta Lake, Hudi เป็นต้น
  - ช่วยจัดระเบียบข้อมูลและเพิ่มประสิทธิภาพการคิวรี
- บทบาทของ Databricks:
  - Databricks เข้าซื้อ Tabular และรวมทีมพัฒนา Delta Lake กับ Iceberg
  - ทำให้คู่แข่งเข้าสู่ตลาดได้ยากขึ้น และเป็นผู้นำการพัฒนาเทคโนโลยี lakehouse

5. หน่วยความจำ AI

การผงาดขึ้นของหน่วยความจำ AI:
- หลังการประกาศฟีเจอร์ memory ของ ChatGPT หน่วยความจำ AI ก็กลายเป็นหัวข้อหลักของการพูดถึง
- ระบบ AI มาตรฐานยังขาด episodic memory ที่แข็งแรงและความต่อเนื่องระหว่างปฏิสัมพันธ์:
  - ระบบปัจจุบันอยู่ในสภาวะคล้ายความจำเสื่อมระยะสั้นรูปแบบหนึ่ง
  - มีข้อจำกัดต่อการให้เหตุผลเชิงลำดับที่ซับซ้อนและการแบ่งปันความรู้ในระบบหลาย agent
หน่วยความจำในระบบหลาย agent
- เมื่อพัฒนาไปสู่ระบบหลาย agent ก็จำเป็นต้องมีระบบจัดการหน่วยความจำระหว่าง agent
- ข้อกำหนดด้านความสามารถ:
  - รองรับการเก็บความทรงจำแยกตาม agent และการเข้าถึงข้ามเซสชัน
  - มีการควบคุมการเข้าถึงและความเป็นส่วนตัว
  - การรวมหน่วยความจำระหว่าง agent:
    - agent หนึ่งสามารถใช้ประสบการณ์ของอีก agent ได้
    - เพิ่มความสามารถในการตัดสินใจ
- ต้องการหน่วยความจำแบบลำดับชั้น:
  - จัดเก็บหน่วยความจำเป็นลำดับชั้นตามความถี่ในการเข้าถึง ความสำคัญ และต้นทุน
MemGPT: เฟรมเวิร์กชั้นนำด้านการจัดการหน่วยความจำ AI
- วิสัยทัศน์ของ MemGPT: มุ่งให้ LLM เป็นผู้ขับเคลื่อนวิวัฒนาการของระบบปฏิบัติการ (OS) ยุคถัดไป
- ภาพรวมสถาปัตยกรรม:
  - ประเภทของหน่วยความจำ:
    - หน่วยความจำบริบทหลัก: คล้ายหน่วยความจำหลัก (RAM)
    - หน่วยความจำบริบทภายนอก: คล้ายหน่วยความจำดิสก์/พื้นที่เก็บข้อมูลบนดิสก์
ความสำคัญของหน่วยความจำ AI
- รองรับ personalization การเรียนรู้ และ reflection และเป็นสิ่งจำเป็นต่อการพัฒนาแอปพลิเคชัน AI
- ยกระดับความสามารถในการแก้งานซับซ้อนผ่านการร่วมมือและการแบ่งปันความทรงจำระหว่าง agent

โอกาสของ AI workload

AI workload และโครงสร้างพื้นฐานข้อมูล:
- แม้การผงาดขึ้นของ GenAI จะไม่ได้เปลี่ยนทุกแง่มุมของโครงสร้างพื้นฐานข้อมูล แต่การเกิดขึ้นของเทคโนโลยีต่อไปนี้ถือเป็นพัฒนาการที่น่าตื่นเต้นมาก:
  - การดึงข้อมูลและการทำไปป์ไลน์สำหรับข้อมูลไม่มีโครงสร้าง
  - Retrieval-Augmented Generation (RAG)
  - การคัดสรรข้อมูล
  - การจัดเก็บข้อมูล
  - หน่วยความจำ AI
กลยุทธ์การลงทุนของ Felicis
- มุ่งเน้นอนาคตของ AI และโครงสร้างพื้นฐานข้อมูล:
  - ลงทุนในสตาร์ตอัปที่เกี่ยวข้องกับชั้นข้อมูลและโครงสร้างพื้นฐาน
  - ตัวอย่างการลงทุนหลัก:
    - Datology: การคัดสรรข้อมูล
    - Metaplane: data observability
    - MotherDuck: serverless data warehouse
    - Weights & Biases: เครื่องมือติดตามการทดลอง
ศักยภาพการเติบโตของตลาด AI
- ความสามารถในการขยายตัว:
  - ตลาด AI กำลังขยายตัวอย่างกว้างขวางจากแชตบอตไปสู่เวิร์กโฟลว์หลาย agent
  - ปัจจุบันยังเป็นเพียงจุดเริ่มต้น และยังมีโอกาสพัฒนาอีกมากในอนาคต
- ความสำคัญของโซลูชันข้อมูล:
  - โซลูชันข้อมูลคือหัวใจสำคัญของแอปพลิเคชัน AI ที่ประสบความสำเร็จ
  - คาดว่าจะมีการสร้างธุรกิจข้อมูลขนาดใหญ่เพื่อรองรับ AI workload

การผงาดขึ้นของโครงสร้างพื้นฐานข้อมูลสำหรับ AI

สถานะปัจจุบันของโครงสร้างพื้นฐานข้อมูล AI

แหล่งข้อมูล

การนำเข้าข้อมูลและการแปลงข้อมูล

การจัดเก็บข้อมูล

การฝึกโมเดล

การอนุมานของโมเดล

บริการข้อมูล

[การปรับโครงสร้างข้อมูลจาก AI]

1. ไปป์ไลน์ข้อมูลไม่มีโครงสร้างสำหรับ AI agent และแอปพลิเคชัน

2. Retrieval-Augmented Generation (RAG)

3. การคัดสรรข้อมูลเพื่อเพิ่มประสิทธิภาพการฝึกและการอนุมาน

4. การจัดเก็บข้อมูลสำหรับ AI

5. หน่วยความจำ AI

โอกาสของ AI workload

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น