Vector Database คืออะไร?

xguru · 2023-05-10T11:03:01+09:00

แอปพลิเคชัน AI พึ่งพา Vector Embeddings Embedding ถูกสร้างโดยโมเดล AI และจัดการได้ยากเพราะมีคุณลักษณะ/ฟีเจอร์จำนวนมาก ใน AI และ ML ฟีเจอร์เหล่านี้แสดงมิติต่าง ๆ ของข้อมูลที่จำเป็นต่อการทำความเข้าใจรูปแบบ ความสัมพันธ์ และโครงสร้างพื้นฐาน Vector DB อย่าง Pinecone เป็นฐานข้อมูลที่ออกแบบมาเฉพาะเพื่อจัดเก็บและคิวรีข้อมูล embedding เหล่านี้อย่างมีประสิทธิภาพ ผ่าน Vector DB สามารถเพิ่มความสามารถขั้นสูงให้ AI ได้ เช่น semantic search และ long-term memory สร้าง vector embedding ของคอนเทนต์ที่จะทำดัชนีผ่านโมเดล embedding นำ vector embedding เข้าไปเก็บใน Vector DB โดยรวม reference ไปยังคอนเทนต์ต้นฉบับว่า embedding ถูกสร้างมาจากที่ใด เมื่อแอปพลิเคชันทำคิวรี ก็จะใช้โมเดล embedding เดียวกันสร้าง embedding สำหรับคิวรีนั้น แล้วใช้ embedding นี้ค้นหาใน DB เพื่อหา vector embedding ที่คล้ายกัน embedding เหล่านี้เชื่อมโยงกับคอนเทนต์ต้นฉบับ ความแตกต่างระหว่าง Vector Index กับ Vector DB Vector index อย่าง FAISS(Facebook AI Similarity Search) ก็ช่วยปรับปรุงการค้นหา vector embedding ได้เช่นกัน แต่ไม่มีความสามารถแบบฐานข้อมูล Vector DB มีข้อดีหลายอย่าง ความสามารถในการจัดการข้อมูล: แทรก ลบ และอัปเดตข้อมูลได้ง่าย การจัดเก็บและการกรอง metadata: สามารถเก็บ metadata ของแต่ละเวกเตอร์ได้ การขยายระบบ: รองรับการประมวลผลแบบกระจายและขนาน รองรับการอัปเดตแบบเรียลไทม์ ความสามารถด้านการสำรองข้อมูลและ collection (เลือกสำรองเฉพาะบาง index) การเชื่อมต่อกับ ecosystem: เชื่อมกับ ETL(Spark), เครื่องมือวิเคราะห์(Tableau, Segment), การแสดงผล(Grafana) และการเชื่อมต่อกับเครื่องมือ AI (LangChain, LlamaIndex, ChatGPT Plugins) ความปลอดภัยของข้อมูลและการจัดการสิทธิ์การเข้าถึง Vector DB ทำงานอย่างไร? (แปลเฉพาะหัวข้อย่อย) อัลกอริทึม : ANN, Random Projection, Product Quantization, Locality-sensitive hashing, Hierarchical Navigable Small World (HSNW) การวัดความคล้ายคลึง การกรอง การดำเนินการฐานข้อมูล สรุป การเติบโตอย่างรวดเร็วของ vector embedding ใน NLP, computer vision และแอปพลิเคชัน AI อื่น ๆ ทำให้เกิด vector database ขึ้นมา Vector database ถูกสร้างขึ้นมาโดยเฉพาะเพื่อแก้ปัญหาที่เกิดขึ้นเมื่อต้องจัดการ vector embedding ใน production scenario ให้ข้อได้เปรียบอย่างมากเมื่อเทียบกับฐานข้อมูลแบบ scalar ดั้งเดิมและ standalone vector index

(pinecone.io)

21 คะแนน โดย xguru 2023-05-10 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

แอปพลิเคชัน AI พึ่งพา Vector Embeddings
- Embedding ถูกสร้างโดยโมเดล AI และจัดการได้ยากเพราะมีคุณลักษณะ/ฟีเจอร์จำนวนมาก
- ใน AI และ ML ฟีเจอร์เหล่านี้แสดงมิติต่าง ๆ ของข้อมูลที่จำเป็นต่อการทำความเข้าใจรูปแบบ ความสัมพันธ์ และโครงสร้างพื้นฐาน
Vector DB อย่าง Pinecone เป็นฐานข้อมูลที่ออกแบบมาเฉพาะเพื่อจัดเก็บและคิวรีข้อมูล embedding เหล่านี้อย่างมีประสิทธิภาพ
ผ่าน Vector DB สามารถเพิ่มความสามารถขั้นสูงให้ AI ได้ เช่น semantic search และ long-term memory
- สร้าง vector embedding ของคอนเทนต์ที่จะทำดัชนีผ่านโมเดล embedding
- นำ vector embedding เข้าไปเก็บใน Vector DB โดยรวม reference ไปยังคอนเทนต์ต้นฉบับว่า embedding ถูกสร้างมาจากที่ใด
- เมื่อแอปพลิเคชันทำคิวรี ก็จะใช้โมเดล embedding เดียวกันสร้าง embedding สำหรับคิวรีนั้น แล้วใช้ embedding นี้ค้นหาใน DB เพื่อหา vector embedding ที่คล้ายกัน
- embedding เหล่านี้เชื่อมโยงกับคอนเทนต์ต้นฉบับ

ความแตกต่างระหว่าง Vector Index กับ Vector DB

Vector index อย่าง FAISS(Facebook AI Similarity Search) ก็ช่วยปรับปรุงการค้นหา vector embedding ได้เช่นกัน แต่ไม่มีความสามารถแบบฐานข้อมูล
Vector DB มีข้อดีหลายอย่าง
- ความสามารถในการจัดการข้อมูล: แทรก ลบ และอัปเดตข้อมูลได้ง่าย
- การจัดเก็บและการกรอง metadata: สามารถเก็บ metadata ของแต่ละเวกเตอร์ได้
- การขยายระบบ: รองรับการประมวลผลแบบกระจายและขนาน
- รองรับการอัปเดตแบบเรียลไทม์
- ความสามารถด้านการสำรองข้อมูลและ collection (เลือกสำรองเฉพาะบาง index)
- การเชื่อมต่อกับ ecosystem: เชื่อมกับ ETL(Spark), เครื่องมือวิเคราะห์(Tableau, Segment), การแสดงผล(Grafana) และการเชื่อมต่อกับเครื่องมือ AI (LangChain, LlamaIndex, ChatGPT Plugins)
- ความปลอดภัยของข้อมูลและการจัดการสิทธิ์การเข้าถึง

Vector DB ทำงานอย่างไร? (แปลเฉพาะหัวข้อย่อย)

อัลกอริทึม : ANN, Random Projection, Product Quantization, Locality-sensitive hashing, Hierarchical Navigable Small World (HSNW)
การวัดความคล้ายคลึง
การกรอง
การดำเนินการฐานข้อมูล

สรุป

การเติบโตอย่างรวดเร็วของ vector embedding ใน NLP, computer vision และแอปพลิเคชัน AI อื่น ๆ ทำให้เกิด vector database ขึ้นมา
Vector database ถูกสร้างขึ้นมาโดยเฉพาะเพื่อแก้ปัญหาที่เกิดขึ้นเมื่อต้องจัดการ vector embedding ใน production scenario
ให้ข้อได้เปรียบอย่างมากเมื่อเทียบกับฐานข้อมูลแบบ scalar ดั้งเดิมและ standalone vector index

Vector Database คืออะไร?

ความแตกต่างระหว่าง Vector Index กับ Vector DB

Vector DB ทำงานอย่างไร? (แปลเฉพาะหัวข้อย่อย)

สรุป

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น