voyage-multimodal-3: โมเดล embedding แบบ all-in-one สำหรับข้อความ รูปภาพ และสกรีนช็อต
(blog.voyageai.com)-
voyage-multimodal-3 เป็นโมเดลล้ำสมัยที่สามารถแปลงคุณลักษณะทั้งด้านภาพและข้อความเป็นเวกเตอร์ได้จากเอกสารที่มีทั้งข้อความและรูปภาพปะปนกัน
- สามารถจับคุณลักษณะสำคัญด้านภาพจากสกรีนช็อตของ PDF, สไลด์, ตาราง, รูปภาพ เป็นต้น ช่วยให้ไม่จำเป็นต้องทำ document parsing ที่ซับซ้อน
- ในงานค้นหาแบบมัลติโหมด 3 ประเภทที่ใช้ชุดข้อมูล 20 ชุด แสดงการปรับปรุงความแม่นยำในการค้นหาเฉลี่ย 19.63%
-
เปรียบเทียบกับโมเดลเดิม
- voyage-multimodal-3 ทำผลงานด้านการค้นหาตาราง/รูปภาพได้ดีกว่า OpenAI CLIP large และ Cohere multimodal v3 อยู่ 41.44% และ 43.37% ตามลำดับ
- ในการค้นหาสกรีนช็อตเอกสาร ทำได้ดีกว่าอยู่ 26.54% และ 25.84% ตามลำดับ
- ในการค้นหาแบบข้อความ-ภาพถ่าย ทำได้ดีกว่าอยู่ 6.55% และ 5.86% ตามลำดับ
-
รองรับการผสมกันของข้อความและรูปภาพ
- โมเดล multimodal embedding เดิมมักประมวลผลข้อความและรูปภาพด้วยเครือข่ายแยกกัน แต่ voyage-multimodal-3 แปลงทั้งสองโหมดเป็นเวกเตอร์โดยตรงผ่าน transformer encoder ตัวเดียวกัน
- ทำให้สามารถคงความสัมพันธ์เชิงบริบทระหว่างข้อมูลภาพและข้อความไว้ได้ และรองรับการแปลงเป็นเวกเตอร์สำหรับข้อความและรูปภาพที่ผสมกัน, สกรีนช็อตเอกสาร, PDF ที่มีเลย์เอาต์ซับซ้อน เป็นต้น
-
การค้นหาแบบโหมดผสมผ่านสกรีนช็อต
- โมเดลตระกูล CLIP ที่คล้ายกันมีประสิทธิภาพลดลงในการค้นหาแบบโหมดผสม เนื่องจากมีช่องว่างระหว่างโหมด
- voyage-multimodal-3 แสดงประสิทธิภาพดีที่สุดในทุกสัดส่วนของสกรีนช็อต และจับความหมายเชิง semantic ของสกรีนช็อตได้อย่างแท้จริง
-
รายละเอียดการประเมิน
- voyage-multimodal-3 ถูกประเมินบนชุดข้อมูลมัลติโหมด 20 ชุด และชุดข้อมูลการค้นหาข้อความ 34 ชุด
- สำหรับแต่ละงาน ใช้โมเดลที่เคยทำผลงานดีที่สุดก่อนหน้าเป็นเกณฑ์อ้างอิงในการประเมิน
-
ผลลัพธ์
- ในการค้นหาแบบมัลติโหมด voyage-multimodal-3 ทำผลงานได้ดีกว่า OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M และ ColQwen2 v0.1
- ในการค้นหาข้อความแบบมาตรฐาน ทำได้ดีกว่า OpenAI v3 large และ Cohere multimodal/English1 v3 อยู่ 5.13% และ 13.70% ตามลำดับ
-
แนวทางการใช้งาน
- voyage-multimodal-3 พร้อมใช้งานแล้วในขณะนี้ และ 200 ล้านโทเค็นแรกเปิดให้ใช้ฟรี
- สามารถเริ่มต้นได้ผ่าน sample notebook หรืออ้างอิงเอกสารเพื่อดูข้อมูลเพิ่มเติม
1 ความคิดเห็น
ความคิดเห็นบน Hacker News