ทำไมเราถึงลงเอยด้วยการเก็บเวกเตอร์ 2 มิติสำหรับการค้นหาแบบเวกเตอร์?

finnchoi · 2024-07-19T07:21:48+09:00

ปัญหา สำหรับการค้นหาเชิงความหมาย/ภาษาธรรมชาติและ RAG จำเป็นต้องทำเวกเตอร์เอ็มเบดดิง โมเดลเอ็มเบดดิงส่วนใหญ่มีข้อจำกัดด้านความยาวอินพุต การกำหนดความยาวอินพุตให้เหมาะสมเชื่อมโยงกับคุณภาพการค้นหา ด้วยข้อจำกัดของความยาวอินพุต จึงมักต้องแยกย่อหน้าแล้วจัดเก็บ เมื่อแยกต้นฉบับเพื่อจัดเก็บ เอกสารหนึ่งฉบับก็จะถูกแยกออกเป็นหลายเอกสาร เอกสารส่วนใหญ่ไม่ได้ประกอบด้วยข้อมูลข้อความเพียงชุดเดียว แต่มีเมทาดาทาและฟิลด์อื่นที่มีเนื้อหายาวร่วมอยู่ด้วย เพื่อจัดเก็บข้อมูลที่ถูกแยกออกมา ต้องเก็บต้นฉบับที่แยกแล้วและข้อมูลเสริมแบบซ้ำซ้อน หรือไม่ก็แยกเก็บเป็นคนละคอลเลกชัน (หรือตาราง) การเก็บซ้ำทำให้ใช้พื้นที่จัดเก็บเพิ่มขึ้นอย่างไม่มีประสิทธิภาพ และการแยกคอลเลกชันทำให้กระบวนการค้นหาซับซ้อนขึ้น เช่น การ join การคำนวณคะแนน และการนับจำนวนเอกสาร นี่เป็นปัญหาที่มักพบได้บ่อยเมื่อใช้งานเวกเตอร์สโตร์ส่วนใหญ่ วิธีแก้ จึงมองหาวิธีอื่นที่ไม่ต้องแยกต้นฉบับ ปรับแก้ DB และไลบรารีที่เกี่ยวข้อง เพื่อให้ฟิลด์ที่เก็บข้อมูลเอ็มเบดดิงรับข้อมูลแบบ 2 มิติได้ ทำให้สามารถเก็บข้อมูลเวกเตอร์ที่มีความยาวแปรผันตามเอกสาร ซึ่งอาจถูกแบ่งเป็นตั้งแต่หนึ่งส่วนขึ้นไป โดยที่ต้นฉบับไม่ถูกแยก ด้วยวิธีนี้ ต้นฉบับและข้อมูลเวกเตอร์ที่แยกออกมาสามารถอยู่ร่วมกันได้โดยไม่ต้องแยกคอลเลกชัน ทำให้การจัดการข้อมูลและการคิวรีกระชับขึ้น

(aeca.ai)

4 คะแนน โดย finnchoi 2024-07-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ปัญหา

สำหรับการค้นหาเชิงความหมาย/ภาษาธรรมชาติและ RAG จำเป็นต้องทำเวกเตอร์เอ็มเบดดิง
โมเดลเอ็มเบดดิงส่วนใหญ่มีข้อจำกัดด้านความยาวอินพุต
- การกำหนดความยาวอินพุตให้เหมาะสมเชื่อมโยงกับคุณภาพการค้นหา
- ด้วยข้อจำกัดของความยาวอินพุต จึงมักต้องแยกย่อหน้าแล้วจัดเก็บ
เมื่อแยกต้นฉบับเพื่อจัดเก็บ เอกสารหนึ่งฉบับก็จะถูกแยกออกเป็นหลายเอกสาร
- เอกสารส่วนใหญ่ไม่ได้ประกอบด้วยข้อมูลข้อความเพียงชุดเดียว แต่มีเมทาดาทาและฟิลด์อื่นที่มีเนื้อหายาวร่วมอยู่ด้วย
- เพื่อจัดเก็บข้อมูลที่ถูกแยกออกมา ต้องเก็บต้นฉบับที่แยกแล้วและข้อมูลเสริมแบบซ้ำซ้อน หรือไม่ก็แยกเก็บเป็นคนละคอลเลกชัน (หรือตาราง)
  - การเก็บซ้ำทำให้ใช้พื้นที่จัดเก็บเพิ่มขึ้นอย่างไม่มีประสิทธิภาพ และการแยกคอลเลกชันทำให้กระบวนการค้นหาซับซ้อนขึ้น เช่น การ join การคำนวณคะแนน และการนับจำนวนเอกสาร
- นี่เป็นปัญหาที่มักพบได้บ่อยเมื่อใช้งานเวกเตอร์สโตร์ส่วนใหญ่
โฆษณา

วิธีแก้

จึงมองหาวิธีอื่นที่ไม่ต้องแยกต้นฉบับ
ปรับแก้ DB และไลบรารีที่เกี่ยวข้อง เพื่อให้ฟิลด์ที่เก็บข้อมูลเอ็มเบดดิงรับข้อมูลแบบ 2 มิติได้
- ทำให้สามารถเก็บข้อมูลเวกเตอร์ที่มีความยาวแปรผันตามเอกสาร ซึ่งอาจถูกแบ่งเป็นตั้งแต่หนึ่งส่วนขึ้นไป โดยที่ต้นฉบับไม่ถูกแยก
- ด้วยวิธีนี้ ต้นฉบับและข้อมูลเวกเตอร์ที่แยกออกมาสามารถอยู่ร่วมกันได้โดยไม่ต้องแยกคอลเลกชัน ทำให้การจัดการข้อมูลและการคิวรีกระชับขึ้น

ทำไมเราถึงลงเอยด้วยการเก็บเวกเตอร์ 2 มิติสำหรับการค้นหาแบบเวกเตอร์?

ปัญหา

วิธีแก้

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น