11 คะแนน โดย xguru 2023-03-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีเป้าหมายเพื่อพัฒนาระบบมัลติโหมดที่สามารถประมวลผลอินพุตภาพ/ข้อความร่วมกันได้เหมือน GPT-4
  • เพื่อสิ่งนี้ จึงได้ทำโมเดล Flamingo ของ DeepMind ซึ่งเป็น LMM (Large Multimodal Model) ที่ประมวลผลและให้เหตุผลกับภาพ/วิดีโอ/ข้อความ ในรูปแบบโอเพนซอร์ส
  • สิ่งที่รวมอยู่ในการรีลีสแรก
    • เฟรมเวิร์ก Python สำหรับฝึก LMM สไตล์ Flamingo
    • ชุดข้อมูลมัลติโหมดขนาดใหญ่ที่มีภาพ/ข้อความแบบสลับกัน
    • เบนช์มาร์กประเมินผลการเรียนรู้ในบริบทสำหรับงานด้านวิชัน-ภาษา
    • โมเดล OpenFlamingo-9B ที่อิงจาก LLaMA
  • เนื่องจากชุดข้อมูลฝึกของ Flamingo ไม่ได้เปิดเผยสู่สาธารณะ จึงใช้ชุดข้อมูล Multimodal C4 ของ LAION-2B และดึงตัวอย่าง 5 ล้านรายการจากชุดตัวอย่าง 10 ล้านรายการมาใช้ฝึก