ปัญหา
- สำหรับการค้นหาเชิงความหมาย/ภาษาธรรมชาติและ RAG จำเป็นต้องทำเวกเตอร์เอ็มเบดดิง
- โมเดลเอ็มเบดดิงส่วนใหญ่มีข้อจำกัดด้านความยาวอินพุต
- การกำหนดความยาวอินพุตให้เหมาะสมเชื่อมโยงกับคุณภาพการค้นหา
- ด้วยข้อจำกัดของความยาวอินพุต จึงมักต้องแยกย่อหน้าแล้วจัดเก็บ
- เมื่อแยกต้นฉบับเพื่อจัดเก็บ เอกสารหนึ่งฉบับก็จะถูกแยกออกเป็นหลายเอกสาร
- เอกสารส่วนใหญ่ไม่ได้ประกอบด้วยข้อมูลข้อความเพียงชุดเดียว แต่มีเมทาดาทาและฟิลด์อื่นที่มีเนื้อหายาวร่วมอยู่ด้วย
- เพื่อจัดเก็บข้อมูลที่ถูกแยกออกมา ต้องเก็บต้นฉบับที่แยกแล้วและข้อมูลเสริมแบบซ้ำซ้อน หรือไม่ก็แยกเก็บเป็นคนละคอลเลกชัน (หรือตาราง)
- การเก็บซ้ำทำให้ใช้พื้นที่จัดเก็บเพิ่มขึ้นอย่างไม่มีประสิทธิภาพ และการแยกคอลเลกชันทำให้กระบวนการค้นหาซับซ้อนขึ้น เช่น การ join การคำนวณคะแนน และการนับจำนวนเอกสาร
- นี่เป็นปัญหาที่มักพบได้บ่อยเมื่อใช้งานเวกเตอร์สโตร์ส่วนใหญ่
วิธีแก้
- จึงมองหาวิธีอื่นที่ไม่ต้องแยกต้นฉบับ
- ปรับแก้ DB และไลบรารีที่เกี่ยวข้อง เพื่อให้ฟิลด์ที่เก็บข้อมูลเอ็มเบดดิงรับข้อมูลแบบ 2 มิติได้
- ทำให้สามารถเก็บข้อมูลเวกเตอร์ที่มีความยาวแปรผันตามเอกสาร ซึ่งอาจถูกแบ่งเป็นตั้งแต่หนึ่งส่วนขึ้นไป โดยที่ต้นฉบับไม่ถูกแยก
- ด้วยวิธีนี้ ต้นฉบับและข้อมูลเวกเตอร์ที่แยกออกมาสามารถอยู่ร่วมกันได้โดยไม่ต้องแยกคอลเลกชัน ทำให้การจัดการข้อมูลและการคิวรีกระชับขึ้น
ยังไม่มีความคิดเห็น