Microsoft Kosmos-1: MLLM แบบหลายโมดัล

xguru · 2023-03-02T09:56:41+09:00

Multimodal Large Language Model (MLLM) ที่สามารถรู้จำรูปแบบทั่วไป เรียนรู้จากบริบท (few-shot) และทำตามคำสั่งได้ (zero-shot) โมเดลที่ฝึกด้วยข้อความ รูปภาพ และคู่ภาพพร้อมคำบรรยาย ซึ่งแสดงประสิทธิภาพที่น่าประทับใจในงานต่อไปนี้ ความเข้าใจและการสร้างภาษา รวมถึง NLP ที่ไม่ต้องใช้ OCR (รู้จำโดยตรงจากภาพเอกสาร) การสนทนาแบบหลายโมดัล การสร้างคำบรรยายภาพ และการตอบคำถามเชิงภาพ งานด้านวิสัยทัศน์ เช่น การรู้จำภาพที่มีคำอธิบายกำกับ (กำหนดการจัดหมวดหมู่ผ่านคำสั่งข้อความ) MLLM สามารถได้รับประโยชน์ผ่านการถ่ายทอดข้ามโมดัล (ถ่ายทอดความรู้จากภาษาไปยังหลายโมดัล และจากหลายโมดัลกลับมายังภาษา)

(arxiv.org)

9 คะแนน โดย xguru 2023-03-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Multimodal Large Language Model (MLLM) ที่สามารถรู้จำรูปแบบทั่วไป เรียนรู้จากบริบท (few-shot) และทำตามคำสั่งได้ (zero-shot)
โมเดลที่ฝึกด้วยข้อความ รูปภาพ และคู่ภาพพร้อมคำบรรยาย ซึ่งแสดงประสิทธิภาพที่น่าประทับใจในงานต่อไปนี้
1. ความเข้าใจและการสร้างภาษา รวมถึง NLP ที่ไม่ต้องใช้ OCR (รู้จำโดยตรงจากภาพเอกสาร)
2. การสนทนาแบบหลายโมดัล การสร้างคำบรรยายภาพ และการตอบคำถามเชิงภาพ
3. งานด้านวิสัยทัศน์ เช่น การรู้จำภาพที่มีคำอธิบายกำกับ (กำหนดการจัดหมวดหมู่ผ่านคำสั่งข้อความ)
MLLM สามารถได้รับประโยชน์ผ่านการถ่ายทอดข้ามโมดัล (ถ่ายทอดความรู้จากภาษาไปยังหลายโมดัล และจากหลายโมดัลกลับมายังภาษา)

1 ความคิดเห็น

xguru 2023-03-02

Repo : https://github.com/microsoft/unilm

Microsoft Kosmos-1: MLLM แบบหลายโมดัล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น