• "LLaVA : Large Language and Vision Assistant"
  • โมเดลมัลติโหมดขนาดใหญ่ที่ผสานวิชันเอนโค้ดเดอร์และ Vicuna เพื่อความเข้าใจด้านภาพและภาษาแบบทั่วไป
  • มุ่งสู่ความสามารถระดับ Multimodal GPT-4 และความแม่นยำระดับ SOTA ในงานถาม-ตอบเชิงวิทยาศาสตร์
  • เปิดเผยทั้งงานวิจัย โค้ด และเดโม

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น