11 คะแนน โดย xguru 2023-05-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • General Representation Model ที่ครอบคลุมทั้งวิชัน, ออดิโอ และภาษา
  • ให้ผลลัพธ์ที่ยอดเยี่ยมกับงานแบบบูรณาการได้แม้ไม่มีโมเดลที่พรีเทรนไว้ล่วงหน้า
  • สามารถจัดแนวโมดัลลิตีที่ไม่ได้ถูกจับคู่กันในข้อมูลฝึกได้ด้วย Emergent Zero-shot Retrieval ที่ทรงพลัง
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 ความคิดเห็น

 
dbs0829 2023-05-24

ดูเหมือนว่าจะทำลายสถิติ SOTA ได้ในหลายงานเลยนะ