LLaVA: การปรับแต่งตามคำสั่งสำหรับภาพ
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- โมเดลมัลติโหมดขนาดใหญ่ที่ผสานวิชันเอนโค้ดเดอร์และ Vicuna เพื่อความเข้าใจด้านภาพและภาษาแบบทั่วไป
- มุ่งสู่ความสามารถระดับ Multimodal GPT-4 และความแม่นยำระดับ SOTA ในงานถาม-ตอบเชิงวิทยาศาสตร์
- เปิดเผยทั้งงานวิจัย โค้ด และเดโม
ยังไม่มีความคิดเห็น