4 คะแนน โดย GN⁺ 2024-11-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • voyage-multimodal-3 เป็นโมเดลล้ำสมัยที่สามารถแปลงคุณลักษณะทั้งด้านภาพและข้อความเป็นเวกเตอร์ได้จากเอกสารที่มีทั้งข้อความและรูปภาพปะปนกัน

    • สามารถจับคุณลักษณะสำคัญด้านภาพจากสกรีนช็อตของ PDF, สไลด์, ตาราง, รูปภาพ เป็นต้น ช่วยให้ไม่จำเป็นต้องทำ document parsing ที่ซับซ้อน
    • ในงานค้นหาแบบมัลติโหมด 3 ประเภทที่ใช้ชุดข้อมูล 20 ชุด แสดงการปรับปรุงความแม่นยำในการค้นหาเฉลี่ย 19.63%
  • เปรียบเทียบกับโมเดลเดิม

    • voyage-multimodal-3 ทำผลงานด้านการค้นหาตาราง/รูปภาพได้ดีกว่า OpenAI CLIP large และ Cohere multimodal v3 อยู่ 41.44% และ 43.37% ตามลำดับ
    • ในการค้นหาสกรีนช็อตเอกสาร ทำได้ดีกว่าอยู่ 26.54% และ 25.84% ตามลำดับ
    • ในการค้นหาแบบข้อความ-ภาพถ่าย ทำได้ดีกว่าอยู่ 6.55% และ 5.86% ตามลำดับ
  • รองรับการผสมกันของข้อความและรูปภาพ

    • โมเดล multimodal embedding เดิมมักประมวลผลข้อความและรูปภาพด้วยเครือข่ายแยกกัน แต่ voyage-multimodal-3 แปลงทั้งสองโหมดเป็นเวกเตอร์โดยตรงผ่าน transformer encoder ตัวเดียวกัน
    • ทำให้สามารถคงความสัมพันธ์เชิงบริบทระหว่างข้อมูลภาพและข้อความไว้ได้ และรองรับการแปลงเป็นเวกเตอร์สำหรับข้อความและรูปภาพที่ผสมกัน, สกรีนช็อตเอกสาร, PDF ที่มีเลย์เอาต์ซับซ้อน เป็นต้น
  • การค้นหาแบบโหมดผสมผ่านสกรีนช็อต

    • โมเดลตระกูล CLIP ที่คล้ายกันมีประสิทธิภาพลดลงในการค้นหาแบบโหมดผสม เนื่องจากมีช่องว่างระหว่างโหมด
    • voyage-multimodal-3 แสดงประสิทธิภาพดีที่สุดในทุกสัดส่วนของสกรีนช็อต และจับความหมายเชิง semantic ของสกรีนช็อตได้อย่างแท้จริง
  • รายละเอียดการประเมิน

    • voyage-multimodal-3 ถูกประเมินบนชุดข้อมูลมัลติโหมด 20 ชุด และชุดข้อมูลการค้นหาข้อความ 34 ชุด
    • สำหรับแต่ละงาน ใช้โมเดลที่เคยทำผลงานดีที่สุดก่อนหน้าเป็นเกณฑ์อ้างอิงในการประเมิน
  • ผลลัพธ์

    • ในการค้นหาแบบมัลติโหมด voyage-multimodal-3 ทำผลงานได้ดีกว่า OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M และ ColQwen2 v0.1
    • ในการค้นหาข้อความแบบมาตรฐาน ทำได้ดีกว่า OpenAI v3 large และ Cohere multimodal/English1 v3 อยู่ 5.13% และ 13.70% ตามลำดับ
  • แนวทางการใช้งาน

    • voyage-multimodal-3 พร้อมใช้งานแล้วในขณะนี้ และ 200 ล้านโทเค็นแรกเปิดให้ใช้ฟรี
    • สามารถเริ่มต้นได้ผ่าน sample notebook หรืออ้างอิงเอกสารเพื่อดูข้อมูลเพิ่มเติม

1 ความคิดเห็น

 
GN⁺ 2024-11-18
ความคิดเห็นบน Hacker News
  • โมเดล CLIP มีแนวโน้มที่ประสิทธิภาพจะลดลงในการค้นหาแบบผสมหลายโมดาลิตี สาเหตุมาจาก modality gap ซึ่งทำให้เวกเตอร์ข้อความไปอยู่ใกล้กับข้อความที่ไม่เกี่ยวข้องมากกว่า
    • Gemini ของ Google ถูกออกแบบมาให้เป็นมัลติโหมดตั้งแต่ต้น จึงช่วยปรับปรุงปัญหานี้ได้ โดยผ่านการพรีเทรนด้วยโมดาลิตีที่หลากหลาย ทำให้เข้าใจและให้เหตุผลกับอินพุตทุกประเภทได้อย่างมีประสิทธิภาพ
  • โปรเจ็กต์ ColiVara ใช้ ColPali ในการสร้างโมเดลมัลติโหมด และอยากเปรียบเทียบประสิทธิภาพของ VoyageAI บนกระดานจัดอันดับ Vidore
  • น่าเสียดายที่โมเดลเชิงพาณิชย์ถูกให้ใช้งานแบบ API เท่านั้น
  • ควรมีมุมมองเชิงวิพากษ์ต่อโมเดลที่ให้ใช้ผ่าน API เท่านั้น โดยเฉพาะจำเป็นต้องมีการประเมินกับข้อความที่ไม่ใช่ภาษาอังกฤษ
  • การทำการวิเคราะห์เชิงคุณภาพด้วยชุดข้อมูลจริงเป็นเรื่องสำคัญ เบนช์มาร์กเชิงปริมาณมีประโยชน์ แต่ในทางปฏิบัติกลับถูกใช้น้อย
  • นี่เป็นวิธีที่น่าสนใจในการมองมัลติโหมดเอ็มเบดดิง โดยประเมินประสิทธิภาพจากอัตราที่อินพุตเปลี่ยนจากโมดาลิตีหนึ่งไปสู่อีกโมดาลิตีหนึ่ง
  • เอนจิน Voyage ทำงานใน Python API แบบดั้งเดิมโดยโทเคไนซ์บล็อกข้อความแล้วส่งออกเป็นสตริงตัวอักษร ส่วนโมเดลนี้ทำสิ่งนั้นผ่านการแปลงภาพเป็นเวกเตอร์
    • คำอย่าง 'you' และ 'apple' จะถูกจัดการเป็นโทเคนเดี่ยว ขณะที่คำที่ซับซ้อนอย่าง 'pikachu' อาจถูกแยกเป็น 'pik-a-chu'
  • ใน Colab มีการอธิบายค่า dot product 0.428 และ 0.498 ว่าเป็น "ค่าความคล้ายที่ค่อนข้างสูง" จึงมีข้อสงสัยว่าสามารถออกแบบระบบที่ติดป้ายกำกับข้อมูลได้อย่างมั่นใจด้วยค่า threshold 0.4 หรือไม่