9 คะแนน โดย xguru 2023-03-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Multimodal Large Language Model (MLLM) ที่สามารถรู้จำรูปแบบทั่วไป เรียนรู้จากบริบท (few-shot) และทำตามคำสั่งได้ (zero-shot)
  • โมเดลที่ฝึกด้วยข้อความ รูปภาพ และคู่ภาพพร้อมคำบรรยาย ซึ่งแสดงประสิทธิภาพที่น่าประทับใจในงานต่อไปนี้
    1. ความเข้าใจและการสร้างภาษา รวมถึง NLP ที่ไม่ต้องใช้ OCR (รู้จำโดยตรงจากภาพเอกสาร)
    2. การสนทนาแบบหลายโมดัล การสร้างคำบรรยายภาพ และการตอบคำถามเชิงภาพ
    3. งานด้านวิสัยทัศน์ เช่น การรู้จำภาพที่มีคำอธิบายกำกับ (กำหนดการจัดหมวดหมู่ผ่านคำสั่งข้อความ)
  • MLLM สามารถได้รับประโยชน์ผ่านการถ่ายทอดข้ามโมดัล (ถ่ายทอดความรู้จากภาษาไปยังหลายโมดัล และจากหลายโมดัลกลับมายังภาษา)

1 ความคิดเห็น