ปัญหา

  • สำหรับการค้นหาเชิงความหมาย/ภาษาธรรมชาติและ RAG จำเป็นต้องทำเวกเตอร์เอ็มเบดดิง
  • โมเดลเอ็มเบดดิงส่วนใหญ่มีข้อจำกัดด้านความยาวอินพุต
    • การกำหนดความยาวอินพุตให้เหมาะสมเชื่อมโยงกับคุณภาพการค้นหา
    • ด้วยข้อจำกัดของความยาวอินพุต จึงมักต้องแยกย่อหน้าแล้วจัดเก็บ
  • เมื่อแยกต้นฉบับเพื่อจัดเก็บ เอกสารหนึ่งฉบับก็จะถูกแยกออกเป็นหลายเอกสาร
    • เอกสารส่วนใหญ่ไม่ได้ประกอบด้วยข้อมูลข้อความเพียงชุดเดียว แต่มีเมทาดาทาและฟิลด์อื่นที่มีเนื้อหายาวร่วมอยู่ด้วย
    • เพื่อจัดเก็บข้อมูลที่ถูกแยกออกมา ต้องเก็บต้นฉบับที่แยกแล้วและข้อมูลเสริมแบบซ้ำซ้อน หรือไม่ก็แยกเก็บเป็นคนละคอลเลกชัน (หรือตาราง)
      • การเก็บซ้ำทำให้ใช้พื้นที่จัดเก็บเพิ่มขึ้นอย่างไม่มีประสิทธิภาพ และการแยกคอลเลกชันทำให้กระบวนการค้นหาซับซ้อนขึ้น เช่น การ join การคำนวณคะแนน และการนับจำนวนเอกสาร
    • นี่เป็นปัญหาที่มักพบได้บ่อยเมื่อใช้งานเวกเตอร์สโตร์ส่วนใหญ่

วิธีแก้

  • จึงมองหาวิธีอื่นที่ไม่ต้องแยกต้นฉบับ
  • ปรับแก้ DB และไลบรารีที่เกี่ยวข้อง เพื่อให้ฟิลด์ที่เก็บข้อมูลเอ็มเบดดิงรับข้อมูลแบบ 2 มิติได้
    • ทำให้สามารถเก็บข้อมูลเวกเตอร์ที่มีความยาวแปรผันตามเอกสาร ซึ่งอาจถูกแบ่งเป็นตั้งแต่หนึ่งส่วนขึ้นไป โดยที่ต้นฉบับไม่ถูกแยก
    • ด้วยวิธีนี้ ต้นฉบับและข้อมูลเวกเตอร์ที่แยกออกมาสามารถอยู่ร่วมกันได้โดยไม่ต้องแยกคอลเลกชัน ทำให้การจัดการข้อมูลและการคิวรีกระชับขึ้น

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น