Otter: โมเดลมัลติโหมดที่ปรับแต่งคำสั่งได้ภายในคอนเท็กซ์

xguru · 2023-06-14T10:16:01+09:00

เพื่อให้ LLM มีประสิทธิภาพแบบ zero-shot ที่ดี จำเป็นต้องมีชุด instruction คุณภาพสูง และ VLM (โมเดลภาพ-ภาษา) ก็เช่นกัน แต่ในปัจจุบัน ชุด instruction สำหรับ vision-language ยังมีข้อจำกัดอย่างมากในด้านปริมาณ/ความหลากหลาย/ความคิดสร้างสรรค์ นำเสนอ MIMIC-IT (MultI-Modal In-Context Instruction Tuning) ชุดข้อมูลที่ประกอบด้วยคำสั่งเฉพาะ 2.2 ล้านรายการที่นำมาจากภาพและวิดีโอ และคู่คำสั่ง-คำตอบแบบมัลติโหมด 2.8 ล้านคู่ Otter คือ VLM ขนาดใหญ่ที่ฝึกด้วยชุดข้อมูล MIMIC-IT รองรับ 8 ภาษา: อังกฤษ จีน เกาหลี ญี่ปุ่น เยอรมัน ฝรั่งเศส สเปน และอาหรับ

(github.com/Luodian)

6 คะแนน โดย xguru 2023-06-14 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เพื่อให้ LLM มีประสิทธิภาพแบบ zero-shot ที่ดี จำเป็นต้องมีชุด instruction คุณภาพสูง และ VLM (โมเดลภาพ-ภาษา) ก็เช่นกัน
แต่ในปัจจุบัน ชุด instruction สำหรับ vision-language ยังมีข้อจำกัดอย่างมากในด้านปริมาณ/ความหลากหลาย/ความคิดสร้างสรรค์
นำเสนอ MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
ชุดข้อมูลที่ประกอบด้วยคำสั่งเฉพาะ 2.2 ล้านรายการที่นำมาจากภาพและวิดีโอ และคู่คำสั่ง-คำตอบแบบมัลติโหมด 2.8 ล้านคู่
Otter คือ VLM ขนาดใหญ่ที่ฝึกด้วยชุดข้อมูล MIMIC-IT
รองรับ 8 ภาษา: อังกฤษ จีน เกาหลี ญี่ปุ่น เยอรมัน ฝรั่งเศส สเปน และอาหรับ

Otter: โมเดลมัลติโหมดที่ปรับแต่งคำสั่งได้ภายในคอนเท็กซ์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น