- มีเป้าหมายเพื่อพัฒนาระบบมัลติโหมดที่สามารถประมวลผลอินพุตภาพ/ข้อความร่วมกันได้เหมือน GPT-4
- เพื่อสิ่งนี้ จึงได้ทำโมเดล Flamingo ของ DeepMind ซึ่งเป็น LMM (Large Multimodal Model) ที่ประมวลผลและให้เหตุผลกับภาพ/วิดีโอ/ข้อความ ในรูปแบบโอเพนซอร์ส
- สิ่งที่รวมอยู่ในการรีลีสแรก
- เฟรมเวิร์ก Python สำหรับฝึก LMM สไตล์ Flamingo
- ชุดข้อมูลมัลติโหมดขนาดใหญ่ที่มีภาพ/ข้อความแบบสลับกัน
- เบนช์มาร์กประเมินผลการเรียนรู้ในบริบทสำหรับงานด้านวิชัน-ภาษา
- โมเดล OpenFlamingo-9B ที่อิงจาก LLaMA
- เนื่องจากชุดข้อมูลฝึกของ Flamingo ไม่ได้เปิดเผยสู่สาธารณะ จึงใช้ชุดข้อมูล Multimodal C4 ของ LAION-2B และดึงตัวอย่าง 5 ล้านรายการจากชุดตัวอย่าง 10 ล้านรายการมาใช้ฝึก
1 ความคิดเห็น
Flamingo: โมเดลภาษาเชิงภาพสำหรับการเรียนรู้แบบ Few-Shot