Dragonfly - โมเดล vision-language ขนาดใหญ่ที่ซูมได้หลายความละเอียด

xguru · 2024-06-10T10:10:02+09:00

โมเดลสถาปัตยกรรม vision-language ที่สามารถวิเคราะห์ภาพความละเอียดสูงโดยแบ่งออกเป็นหลายพื้นที่ย่อย ทำให้เข้าใจและให้เหตุผลในรายละเอียดได้ เปิดตัวโมเดลโอเพนซอร์ส 2 รุ่น ได้แก่ Llama-3-8b-Dragonfly-v1 (โดเมนทั่วไป) และ Llama-3-8b-Dragonfly-Med-v1 (โดเมนการแพทย์) Llama-3-8b-Dragonfly-v1 ฝึกด้วยคู่ข้อมูลภาพ-คำสั่ง 5.5 ล้านคู่ และ Llama-3-8b-Dragonfly-Med-v1 ถูก fine-tune เพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่ Dragonfly แสดงประสิทธิภาพที่ยอดเยี่ยมในเบนช์มาร์กอย่างการให้เหตุผลเชิงสามัญสำนึกด้านภาพและ image captioning Dragonfly-Med เหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในด้านความเข้าใจภาพทางการแพทย์ สถาปัตยกรรม Dragonfly การเข้ารหัสภาพหลายความละเอียด (Multi-resolution Visual Encoding): ประมวลผลภาพด้วยความละเอียดต่ำ/กลาง/สูง แบ่งภาพแต่ละภาพออกเป็นหลายภาพย่อยตามความละเอียด แล้วเข้ารหัสเป็น visual token ทำ projection ของ token ที่เข้ารหัสแล้วไปยัง language space และนำลำดับที่ concatenate กันแล้วป้อนเป็นอินพุตให้ LLM วิธีนี้ช่วยให้ประมวลผลภาพขนาดใหญ่ได้อย่างมีประสิทธิภาพ และเพิ่ม granularity ในการประมวลผลข้อมูลภาพ Zoom-in Patch Selection: แนวทางแบบ selective เพื่อโฟกัสรายละเอียดภาพสำคัญในภาพความละเอียดสูง ใช้กลยุทธ์ zoom-in patch selection แบบใหม่ที่คัดเลือกเฉพาะภาพย่อยความละเอียดสูงที่มีความสำคัญเท่านั้น เลือกเฉพาะแพตช์ที่เกี่ยวข้องมากที่สุดโดยเปรียบเทียบ summary embedding ของภาพย่อยความละเอียดกลาง/สูง ช่วยลดความซ้ำซ้อนและโฟกัสพื้นที่เนื้อหาหลัก ส่งผลให้ทั้งประสิทธิภาพโดยรวมของโมเดลและความสามารถในการเข้าใจรายละเอียดดีขึ้น สองกลยุทธ์นี้ช่วยให้โฟกัสรายละเอียดของพื้นที่ในภาพได้มากขึ้น และเพิ่มความสามารถในการให้เหตุผลเชิงสามัญสำนึก แม้จะถูกปรับให้เหมาะกับการจับรายละเอียด แต่ก็ยังให้ประสิทธิภาพแบบ zero-shot ที่ดีในเบนช์มาร์กความเข้าใจภาพทั่วไปอย่าง VQA และ image captioning การประเมินประสิทธิภาพของโมเดล Dragonfly ประเมินบน 5 เบนช์มาร์ก vision-language ได้แก่ AI2D, ScienceQA, MMMU, MMVet และ POPE AI2D, ScienceQA: ประเมินการให้เหตุผลเชิงสามัญสำนึกด้านภาพในโดเมนวิทยาศาสตร์ MMMU, MMVet: ประเมินความสามารถ vision-language แบบครอบคลุม POPE: ประเมิน hallucination ในระดับวัตถุ แสดงประสิทธิภาพยอดเยี่ยมที่สามารถเทียบชั้นกับโมเดล vision-language ชื่อดังอื่น ๆ ได้ ประสิทธิภาพของ Dragonfly-Med เวอร์ชันที่ร่วมมือกับ Stanford Medicine เพื่อนำ Dragonfly ไปฝึกเพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่ ทำผลงานเหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในเบนช์มาร์ก visual question answering เช่น VQA-RAD, SLAKE และ Path-VQA ยังแสดงประสิทธิภาพระดับใกล้เคียง SOTA ในเบนช์มาร์ก medical image captioning เช่น IU X-Ray, Peir Gross, ROCO และ MIMIC CXR แผนในอนาคต มีแผนจะใช้ LLaMA3-8B-Instruct เป็น backbone เพื่อสำรวจสถาปัตยกรรมใหม่และกลยุทธ์ visual encoding เพิ่มเติม ต้องการขยายการประยุกต์ใช้ไปยังสาขาวิทยาศาสตร์ที่หลากหลายขึ้น เพื่อมีส่วนร่วมต่อการวิจัย multimodal แบบโอเพนซอร์ส

(together.ai)

4 คะแนน โดย xguru 2024-06-10 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดลสถาปัตยกรรม vision-language ที่สามารถวิเคราะห์ภาพความละเอียดสูงโดยแบ่งออกเป็นหลายพื้นที่ย่อย ทำให้เข้าใจและให้เหตุผลในรายละเอียดได้
เปิดตัวโมเดลโอเพนซอร์ส 2 รุ่น ได้แก่ Llama-3-8b-Dragonfly-v1 (โดเมนทั่วไป) และ Llama-3-8b-Dragonfly-Med-v1 (โดเมนการแพทย์)
Llama-3-8b-Dragonfly-v1 ฝึกด้วยคู่ข้อมูลภาพ-คำสั่ง 5.5 ล้านคู่ และ Llama-3-8b-Dragonfly-Med-v1 ถูก fine-tune เพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่
Dragonfly แสดงประสิทธิภาพที่ยอดเยี่ยมในเบนช์มาร์กอย่างการให้เหตุผลเชิงสามัญสำนึกด้านภาพและ image captioning
Dragonfly-Med เหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในด้านความเข้าใจภาพทางการแพทย์

สถาปัตยกรรม Dragonfly

การเข้ารหัสภาพหลายความละเอียด (Multi-resolution Visual Encoding):
- ประมวลผลภาพด้วยความละเอียดต่ำ/กลาง/สูง
- แบ่งภาพแต่ละภาพออกเป็นหลายภาพย่อยตามความละเอียด แล้วเข้ารหัสเป็น visual token
- ทำ projection ของ token ที่เข้ารหัสแล้วไปยัง language space และนำลำดับที่ concatenate กันแล้วป้อนเป็นอินพุตให้ LLM
- วิธีนี้ช่วยให้ประมวลผลภาพขนาดใหญ่ได้อย่างมีประสิทธิภาพ และเพิ่ม granularity ในการประมวลผลข้อมูลภาพ
Zoom-in Patch Selection:
โฆษณา
- แนวทางแบบ selective เพื่อโฟกัสรายละเอียดภาพสำคัญในภาพความละเอียดสูง
- ใช้กลยุทธ์ zoom-in patch selection แบบใหม่ที่คัดเลือกเฉพาะภาพย่อยความละเอียดสูงที่มีความสำคัญเท่านั้น
- เลือกเฉพาะแพตช์ที่เกี่ยวข้องมากที่สุดโดยเปรียบเทียบ summary embedding ของภาพย่อยความละเอียดกลาง/สูง
- ช่วยลดความซ้ำซ้อนและโฟกัสพื้นที่เนื้อหาหลัก ส่งผลให้ทั้งประสิทธิภาพโดยรวมของโมเดลและความสามารถในการเข้าใจรายละเอียดดีขึ้น
สองกลยุทธ์นี้ช่วยให้โฟกัสรายละเอียดของพื้นที่ในภาพได้มากขึ้น และเพิ่มความสามารถในการให้เหตุผลเชิงสามัญสำนึก
แม้จะถูกปรับให้เหมาะกับการจับรายละเอียด แต่ก็ยังให้ประสิทธิภาพแบบ zero-shot ที่ดีในเบนช์มาร์กความเข้าใจภาพทั่วไปอย่าง VQA และ image captioning

การประเมินประสิทธิภาพของโมเดล Dragonfly

ประเมินบน 5 เบนช์มาร์ก vision-language ได้แก่ AI2D, ScienceQA, MMMU, MMVet และ POPE
- AI2D, ScienceQA: ประเมินการให้เหตุผลเชิงสามัญสำนึกด้านภาพในโดเมนวิทยาศาสตร์
- MMMU, MMVet: ประเมินความสามารถ vision-language แบบครอบคลุม
- POPE: ประเมิน hallucination ในระดับวัตถุ
แสดงประสิทธิภาพยอดเยี่ยมที่สามารถเทียบชั้นกับโมเดล vision-language ชื่อดังอื่น ๆ ได้

ประสิทธิภาพของ Dragonfly-Med

เวอร์ชันที่ร่วมมือกับ Stanford Medicine เพื่อนำ Dragonfly ไปฝึกเพิ่มเติมด้วยข้อมูลภาพทางการแพทย์-คำสั่ง 1.4 ล้านคู่
ทำผลงานเหนือกว่าโมเดลเดิมอย่าง Med-Gemini ในเบนช์มาร์ก visual question answering เช่น VQA-RAD, SLAKE และ Path-VQA
ยังแสดงประสิทธิภาพระดับใกล้เคียง SOTA ในเบนช์มาร์ก medical image captioning เช่น IU X-Ray, Peir Gross, ROCO และ MIMIC CXR

แผนในอนาคต

มีแผนจะใช้ LLaMA3-8B-Instruct เป็น backbone เพื่อสำรวจสถาปัตยกรรมใหม่และกลยุทธ์ visual encoding เพิ่มเติม
ต้องการขยายการประยุกต์ใช้ไปยังสาขาวิทยาศาสตร์ที่หลากหลายขึ้น เพื่อมีส่วนร่วมต่อการวิจัย multimodal แบบโอเพนซอร์ส