• แอปพลิเคชัน AI พึ่งพา Vector Embeddings
    • Embedding ถูกสร้างโดยโมเดล AI และจัดการได้ยากเพราะมีคุณลักษณะ/ฟีเจอร์จำนวนมาก
    • ใน AI และ ML ฟีเจอร์เหล่านี้แสดงมิติต่าง ๆ ของข้อมูลที่จำเป็นต่อการทำความเข้าใจรูปแบบ ความสัมพันธ์ และโครงสร้างพื้นฐาน
  • Vector DB อย่าง Pinecone เป็นฐานข้อมูลที่ออกแบบมาเฉพาะเพื่อจัดเก็บและคิวรีข้อมูล embedding เหล่านี้อย่างมีประสิทธิภาพ
  • ผ่าน Vector DB สามารถเพิ่มความสามารถขั้นสูงให้ AI ได้ เช่น semantic search และ long-term memory
    • สร้าง vector embedding ของคอนเทนต์ที่จะทำดัชนีผ่านโมเดล embedding
    • นำ vector embedding เข้าไปเก็บใน Vector DB โดยรวม reference ไปยังคอนเทนต์ต้นฉบับว่า embedding ถูกสร้างมาจากที่ใด
    • เมื่อแอปพลิเคชันทำคิวรี ก็จะใช้โมเดล embedding เดียวกันสร้าง embedding สำหรับคิวรีนั้น แล้วใช้ embedding นี้ค้นหาใน DB เพื่อหา vector embedding ที่คล้ายกัน
    • embedding เหล่านี้เชื่อมโยงกับคอนเทนต์ต้นฉบับ

ความแตกต่างระหว่าง Vector Index กับ Vector DB

  • Vector index อย่าง FAISS(Facebook AI Similarity Search) ก็ช่วยปรับปรุงการค้นหา vector embedding ได้เช่นกัน แต่ไม่มีความสามารถแบบฐานข้อมูล
  • Vector DB มีข้อดีหลายอย่าง
    • ความสามารถในการจัดการข้อมูล: แทรก ลบ และอัปเดตข้อมูลได้ง่าย
    • การจัดเก็บและการกรอง metadata: สามารถเก็บ metadata ของแต่ละเวกเตอร์ได้
    • การขยายระบบ: รองรับการประมวลผลแบบกระจายและขนาน
    • รองรับการอัปเดตแบบเรียลไทม์
    • ความสามารถด้านการสำรองข้อมูลและ collection (เลือกสำรองเฉพาะบาง index)
    • การเชื่อมต่อกับ ecosystem: เชื่อมกับ ETL(Spark), เครื่องมือวิเคราะห์(Tableau, Segment), การแสดงผล(Grafana) และการเชื่อมต่อกับเครื่องมือ AI (LangChain, LlamaIndex, ChatGPT Plugins)
    • ความปลอดภัยของข้อมูลและการจัดการสิทธิ์การเข้าถึง

Vector DB ทำงานอย่างไร? (แปลเฉพาะหัวข้อย่อย)

  • อัลกอริทึม : ANN, Random Projection, Product Quantization, Locality-sensitive hashing, Hierarchical Navigable Small World (HSNW)
  • การวัดความคล้ายคลึง
  • การกรอง
  • การดำเนินการฐานข้อมูล

สรุป

  • การเติบโตอย่างรวดเร็วของ vector embedding ใน NLP, computer vision และแอปพลิเคชัน AI อื่น ๆ ทำให้เกิด vector database ขึ้นมา
  • Vector database ถูกสร้างขึ้นมาโดยเฉพาะเพื่อแก้ปัญหาที่เกิดขึ้นเมื่อต้องจัดการ vector embedding ใน production scenario
  • ให้ข้อได้เปรียบอย่างมากเมื่อเทียบกับฐานข้อมูลแบบ scalar ดั้งเดิมและ standalone vector index

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น