RAG สำหรับงานวิจัย PDF แค่ข้อความอย่างเดียวพอจริงหรือ? - ทดลองค้นหาด้วยการฝังข้อมูล Gemini embedding 002
(brunch.co.kr/@230kimi)สรุปผลการทดลองเปรียบเทียบการฝังข้อมูลข้อความและการฝังข้อมูลภาพของไฟล์ PDF งานวิชาการด้วย Gemini embedding-2-preview (เนทีฟมัลติโหมดอลเอ็มเบดดิง)
∙ เมื่อวัดค่า cosine similarity ระหว่างข้อความ↔ภาพในหน้าเดียวกัน ได้ค่าเฉลี่ย 0.642 ข้อมูลเชิงภาพอย่างภาพถ่าย SEM เส้นโค้งของกราฟ การจัดวางเชิงพื้นที่ ฯลฯ ราว 36% ไม่ได้สะท้อนอยู่ในการฝังข้อมูลข้อความ
∙ เมื่อลองค้นหาด้วยข้อความคิวรี 18 รายการ ดัชนีภาพ (MRR 0.719) ทำได้ดีกว่าดัชนีข้อความ (0.631) เนื่องจากในงานวิจัยมักมีคำสำคัญซ้ำกันหลายหน้า จึงกลายเป็นว่าภาพมีความสามารถในการแยกหน้าสูงกว่า
∙ การฝังข้อมูลแบบ Multi ที่รวมข้อความ+ภาพเข้าด้วยกัน (MRR 0.650) กลับต่ำกว่าการใช้ภาพอย่างเดียว เป็นผลจากการที่ลักษณะเด่นของทั้งสองโมดาลิตีถูกเจือจาง
∙ การค้นหาแบบข้ามโมดาลิตีภายในเอกสารเดียวกัน (ข้อความ→ภาพ) ล้มเหลว โดย Hit@5 เท่ากับ 0% เพราะความคล้ายกันของข้อความระหว่างหน้าต่าง ๆ สูงกว่าความคล้ายกันระหว่างข้อความ↔ภาพในหน้าเดียวกัน
สำหรับเอกสารที่มี Figure จำนวนมาก การทำดัชนีภาพจะได้เปรียบ และจึงสรุปได้ว่าจำเป็นต้องทบทวนค่าตั้งต้นของ RAG ที่ว่า “ดึงข้อความออกมาก่อนแล้วค่อยแปลงเป็นเวกเตอร์”
2 ความคิดเห็น
เมื่อเทียบกับ ColPali แล้วเป็นอย่างไรบ้าง?
สำหรับภาษาอังกฤษ ดูเหมือนว่า colpali จะดีกว่าอย่างชัดเจนครับ แต่พอเป็นภาษาเกาหลีหรือภาษาที่ไม่ใช่อังกฤษ ความแม่นยำจะตกลงอย่างมากเลยครับ ฮือๆ