• เพื่อให้ LLM มีประสิทธิภาพแบบ zero-shot ที่ดี จำเป็นต้องมีชุด instruction คุณภาพสูง และ VLM (โมเดลภาพ-ภาษา) ก็เช่นกัน
  • แต่ในปัจจุบัน ชุด instruction สำหรับ vision-language ยังมีข้อจำกัดอย่างมากในด้านปริมาณ/ความหลากหลาย/ความคิดสร้างสรรค์
  • นำเสนอ MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • ชุดข้อมูลที่ประกอบด้วยคำสั่งเฉพาะ 2.2 ล้านรายการที่นำมาจากภาพและวิดีโอ และคู่คำสั่ง-คำตอบแบบมัลติโหมด 2.8 ล้านคู่
  • Otter คือ VLM ขนาดใหญ่ที่ฝึกด้วยชุดข้อมูล MIMIC-IT
  • รองรับ 8 ภาษา: อังกฤษ จีน เกาหลี ญี่ปุ่น เยอรมัน ฝรั่งเศส สเปน และอาหรับ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น