- โมเดลสถาปัตยกรรม vision-language ที่สามารถวิเคราะห์ภาพความละเอียดสูงโดยแบ่งออกเป็นหลายพื้นที่ย่อย ทำให้เข้าใจและให้เหตุผลในรายละเอียดได้
- เปิดตัวโมเดลโอเพนซอร์ส 2 รุ่น ได้แก่ Llama-3-8b-Dragonfly-v1 (โดเมนทั่วไป) และ Llama-3-8b-Dragonfly-Med-v1 (โดเมนการแพทย์)
- Llama-3-8b-Dragonfly-v1 ฝึกด้วยคู่ข้อมูลภาพ-คำสั่ง 5.5 ล้านคู่ และ Llama-3-8b-Dragonfly-Med-v1 ถูก fine-tune เพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่
- Dragonfly แสดงประสิทธิภาพที่ยอดเยี่ยมในเบนช์มาร์กอย่างการให้เหตุผลเชิงสามัญสำนึกด้านภาพและ image captioning
- Dragonfly-Med เหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในด้านความเข้าใจภาพทางการแพทย์
สถาปัตยกรรม Dragonfly
-
การเข้ารหัสภาพหลายความละเอียด (Multi-resolution Visual Encoding):
- ประมวลผลภาพด้วยความละเอียดต่ำ/กลาง/สูง
- แบ่งภาพแต่ละภาพออกเป็นหลายภาพย่อยตามความละเอียด แล้วเข้ารหัสเป็น visual token
- ทำ projection ของ token ที่เข้ารหัสแล้วไปยัง language space และนำลำดับที่ concatenate กันแล้วป้อนเป็นอินพุตให้ LLM
- วิธีนี้ช่วยให้ประมวลผลภาพขนาดใหญ่ได้อย่างมีประสิทธิภาพ และเพิ่ม granularity ในการประมวลผลข้อมูลภาพ
-
Zoom-in Patch Selection:
- แนวทางแบบ selective เพื่อโฟกัสรายละเอียดภาพสำคัญในภาพความละเอียดสูง
- ใช้กลยุทธ์ zoom-in patch selection แบบใหม่ที่คัดเลือกเฉพาะภาพย่อยความละเอียดสูงที่มีความสำคัญเท่านั้น
- เลือกเฉพาะแพตช์ที่เกี่ยวข้องมากที่สุดโดยเปรียบเทียบ summary embedding ของภาพย่อยความละเอียดกลาง/สูง
- ช่วยลดความซ้ำซ้อนและโฟกัสพื้นที่เนื้อหาหลัก ส่งผลให้ทั้งประสิทธิภาพโดยรวมของโมเดลและความสามารถในการเข้าใจรายละเอียดดีขึ้น
-
สองกลยุทธ์นี้ช่วยให้โฟกัสรายละเอียดของพื้นที่ในภาพได้มากขึ้น และเพิ่มความสามารถในการให้เหตุผลเชิงสามัญสำนึก
-
แม้จะถูกปรับให้เหมาะกับการจับรายละเอียด แต่ก็ยังให้ประสิทธิภาพแบบ zero-shot ที่ดีในเบนช์มาร์กความเข้าใจภาพทั่วไปอย่าง VQA และ image captioning
การประเมินประสิทธิภาพของโมเดล Dragonfly
- ประเมินบน 5 เบนช์มาร์ก vision-language ได้แก่ AI2D, ScienceQA, MMMU, MMVet และ POPE
- AI2D, ScienceQA: ประเมินการให้เหตุผลเชิงสามัญสำนึกด้านภาพในโดเมนวิทยาศาสตร์
- MMMU, MMVet: ประเมินความสามารถ vision-language แบบครอบคลุม
- POPE: ประเมิน hallucination ในระดับวัตถุ
- แสดงประสิทธิภาพยอดเยี่ยมที่สามารถเทียบชั้นกับโมเดล vision-language ชื่อดังอื่น ๆ ได้
ประสิทธิภาพของ Dragonfly-Med
- เวอร์ชันที่ร่วมมือกับ Stanford Medicine เพื่อนำ Dragonfly ไปฝึกเพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่
- ทำผลงานเหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในเบนช์มาร์ก visual question answering เช่น VQA-RAD, SLAKE และ Path-VQA
- ยังแสดงประสิทธิภาพระดับใกล้เคียง SOTA ในเบนช์มาร์ก medical image captioning เช่น IU X-Ray, Peir Gross, ROCO และ MIMIC CXR
แผนในอนาคต
- มีแผนจะใช้ LLaMA3-8B-Instruct เป็น backbone เพื่อสำรวจสถาปัตยกรรมใหม่และกลยุทธ์ visual encoding เพิ่มเติม
- ต้องการขยายการประยุกต์ใช้ไปยังสาขาวิทยาศาสตร์ที่หลากหลายขึ้น เพื่อมีส่วนร่วมต่อการวิจัย multimodal แบบโอเพนซอร์ส
ยังไม่มีความคิดเห็น