- Multimodal Large Language Model (MLLM) ที่สามารถรู้จำรูปแบบทั่วไป เรียนรู้จากบริบท (few-shot) และทำตามคำสั่งได้ (zero-shot)
- โมเดลที่ฝึกด้วยข้อความ รูปภาพ และคู่ภาพพร้อมคำบรรยาย ซึ่งแสดงประสิทธิภาพที่น่าประทับใจในงานต่อไปนี้
- ความเข้าใจและการสร้างภาษา รวมถึง NLP ที่ไม่ต้องใช้ OCR (รู้จำโดยตรงจากภาพเอกสาร)
- การสนทนาแบบหลายโมดัล การสร้างคำบรรยายภาพ และการตอบคำถามเชิงภาพ
- งานด้านวิสัยทัศน์ เช่น การรู้จำภาพที่มีคำอธิบายกำกับ (กำหนดการจัดหมวดหมู่ผ่านคำสั่งข้อความ)
- MLLM สามารถได้รับประโยชน์ผ่านการถ่ายทอดข้ามโมดัล (ถ่ายทอดความรู้จากภาษาไปยังหลายโมดัล และจากหลายโมดัลกลับมายังภาษา)
1 ความคิดเห็น
Repo : https://github.com/microsoft/unilm