• โมเดลสถาปัตยกรรม vision-language ที่สามารถวิเคราะห์ภาพความละเอียดสูงโดยแบ่งออกเป็นหลายพื้นที่ย่อย ทำให้เข้าใจและให้เหตุผลในรายละเอียดได้
  • เปิดตัวโมเดลโอเพนซอร์ส 2 รุ่น ได้แก่ Llama-3-8b-Dragonfly-v1 (โดเมนทั่วไป) และ Llama-3-8b-Dragonfly-Med-v1 (โดเมนการแพทย์)
  • Llama-3-8b-Dragonfly-v1 ฝึกด้วยคู่ข้อมูลภาพ-คำสั่ง 5.5 ล้านคู่ และ Llama-3-8b-Dragonfly-Med-v1 ถูก fine-tune เพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่
  • Dragonfly แสดงประสิทธิภาพที่ยอดเยี่ยมในเบนช์มาร์กอย่างการให้เหตุผลเชิงสามัญสำนึกด้านภาพและ image captioning
  • Dragonfly-Med เหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในด้านความเข้าใจภาพทางการแพทย์

สถาปัตยกรรม Dragonfly

  • การเข้ารหัสภาพหลายความละเอียด (Multi-resolution Visual Encoding):

    • ประมวลผลภาพด้วยความละเอียดต่ำ/กลาง/สูง
    • แบ่งภาพแต่ละภาพออกเป็นหลายภาพย่อยตามความละเอียด แล้วเข้ารหัสเป็น visual token
    • ทำ projection ของ token ที่เข้ารหัสแล้วไปยัง language space และนำลำดับที่ concatenate กันแล้วป้อนเป็นอินพุตให้ LLM
    • วิธีนี้ช่วยให้ประมวลผลภาพขนาดใหญ่ได้อย่างมีประสิทธิภาพ และเพิ่ม granularity ในการประมวลผลข้อมูลภาพ
  • Zoom-in Patch Selection:

    • แนวทางแบบ selective เพื่อโฟกัสรายละเอียดภาพสำคัญในภาพความละเอียดสูง
    • ใช้กลยุทธ์ zoom-in patch selection แบบใหม่ที่คัดเลือกเฉพาะภาพย่อยความละเอียดสูงที่มีความสำคัญเท่านั้น
    • เลือกเฉพาะแพตช์ที่เกี่ยวข้องมากที่สุดโดยเปรียบเทียบ summary embedding ของภาพย่อยความละเอียดกลาง/สูง
    • ช่วยลดความซ้ำซ้อนและโฟกัสพื้นที่เนื้อหาหลัก ส่งผลให้ทั้งประสิทธิภาพโดยรวมของโมเดลและความสามารถในการเข้าใจรายละเอียดดีขึ้น
  • สองกลยุทธ์นี้ช่วยให้โฟกัสรายละเอียดของพื้นที่ในภาพได้มากขึ้น และเพิ่มความสามารถในการให้เหตุผลเชิงสามัญสำนึก

  • แม้จะถูกปรับให้เหมาะกับการจับรายละเอียด แต่ก็ยังให้ประสิทธิภาพแบบ zero-shot ที่ดีในเบนช์มาร์กความเข้าใจภาพทั่วไปอย่าง VQA และ image captioning

การประเมินประสิทธิภาพของโมเดล Dragonfly

  • ประเมินบน 5 เบนช์มาร์ก vision-language ได้แก่ AI2D, ScienceQA, MMMU, MMVet และ POPE
    • AI2D, ScienceQA: ประเมินการให้เหตุผลเชิงสามัญสำนึกด้านภาพในโดเมนวิทยาศาสตร์
    • MMMU, MMVet: ประเมินความสามารถ vision-language แบบครอบคลุม
    • POPE: ประเมิน hallucination ในระดับวัตถุ
  • แสดงประสิทธิภาพยอดเยี่ยมที่สามารถเทียบชั้นกับโมเดล vision-language ชื่อดังอื่น ๆ ได้

ประสิทธิภาพของ Dragonfly-Med

  • เวอร์ชันที่ร่วมมือกับ Stanford Medicine เพื่อนำ Dragonfly ไปฝึกเพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่
  • ทำผลงานเหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในเบนช์มาร์ก visual question answering เช่น VQA-RAD, SLAKE และ Path-VQA
  • ยังแสดงประสิทธิภาพระดับใกล้เคียง SOTA ในเบนช์มาร์ก medical image captioning เช่น IU X-Ray, Peir Gross, ROCO และ MIMIC CXR

แผนในอนาคต

  • มีแผนจะใช้ LLaMA3-8B-Instruct เป็น backbone เพื่อสำรวจสถาปัตยกรรมใหม่และกลยุทธ์ visual encoding เพิ่มเติม
  • ต้องการขยายการประยุกต์ใช้ไปยังสาขาวิทยาศาสตร์ที่หลากหลายขึ้น เพื่อมีส่วนร่วมต่อการวิจัย multimodal แบบโอเพนซอร์ส

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น