- เพื่อให้ LLM มีประสิทธิภาพแบบ zero-shot ที่ดี จำเป็นต้องมีชุด instruction คุณภาพสูง และ VLM (โมเดลภาพ-ภาษา) ก็เช่นกัน
- แต่ในปัจจุบัน ชุด instruction สำหรับ vision-language ยังมีข้อจำกัดอย่างมากในด้านปริมาณ/ความหลากหลาย/ความคิดสร้างสรรค์
- นำเสนอ MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- ชุดข้อมูลที่ประกอบด้วยคำสั่งเฉพาะ 2.2 ล้านรายการที่นำมาจากภาพและวิดีโอ และคู่คำสั่ง-คำตอบแบบมัลติโหมด 2.8 ล้านคู่
- Otter คือ VLM ขนาดใหญ่ที่ฝึกด้วยชุดข้อมูล MIMIC-IT
- รองรับ 8 ภาษา: อังกฤษ จีน เกาหลี ญี่ปุ่น เยอรมัน ฝรั่งเศส สเปน และอาหรับ
ยังไม่มีความคิดเห็น