5 คะแนน โดย 230kimi 2026-03-31 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปผลการทดลองเปรียบเทียบการฝังข้อมูลข้อความและการฝังข้อมูลภาพของไฟล์ PDF งานวิชาการด้วย Gemini embedding-2-preview (เนทีฟมัลติโหมดอลเอ็มเบดดิง)

∙	เมื่อวัดค่า cosine similarity ระหว่างข้อความ↔ภาพในหน้าเดียวกัน ได้ค่าเฉลี่ย 0.642 ข้อมูลเชิงภาพอย่างภาพถ่าย SEM เส้นโค้งของกราฟ การจัดวางเชิงพื้นที่ ฯลฯ ราว 36% ไม่ได้สะท้อนอยู่ในการฝังข้อมูลข้อความ  
∙	เมื่อลองค้นหาด้วยข้อความคิวรี 18 รายการ ดัชนีภาพ (MRR 0.719) ทำได้ดีกว่าดัชนีข้อความ (0.631) เนื่องจากในงานวิจัยมักมีคำสำคัญซ้ำกันหลายหน้า จึงกลายเป็นว่าภาพมีความสามารถในการแยกหน้าสูงกว่า  
∙	การฝังข้อมูลแบบ Multi ที่รวมข้อความ+ภาพเข้าด้วยกัน (MRR 0.650) กลับต่ำกว่าการใช้ภาพอย่างเดียว เป็นผลจากการที่ลักษณะเด่นของทั้งสองโมดาลิตีถูกเจือจาง  
∙	การค้นหาแบบข้ามโมดาลิตีภายในเอกสารเดียวกัน (ข้อความ→ภาพ) ล้มเหลว โดย Hit@5 เท่ากับ 0% เพราะความคล้ายกันของข้อความระหว่างหน้าต่าง ๆ สูงกว่าความคล้ายกันระหว่างข้อความ↔ภาพในหน้าเดียวกัน  

สำหรับเอกสารที่มี Figure จำนวนมาก การทำดัชนีภาพจะได้เปรียบ และจึงสรุปได้ว่าจำเป็นต้องทบทวนค่าตั้งต้นของ RAG ที่ว่า “ดึงข้อความออกมาก่อนแล้วค่อยแปลงเป็นเวกเตอร์”

2 ความคิดเห็น

 
mammal 29 일 전

เมื่อเทียบกับ ColPali แล้วเป็นอย่างไรบ้าง?

 
230kimi 29 일 전

สำหรับภาษาอังกฤษ ดูเหมือนว่า colpali จะดีกว่าอย่างชัดเจนครับ แต่พอเป็นภาษาเกาหลีหรือภาษาที่ไม่ใช่อังกฤษ ความแม่นยำจะตกลงอย่างมากเลยครับ ฮือๆ