- เวอร์ชันขนาดเล็กของโมเดลมัลติโหมด (ภาพ+ข้อความ) ที่พวกเขาใช้ในผลิตภัณฑ์ของตน
- สถาปัตยกรรมและกระบวนการฝึกเรียบง่ายมาก (ไม่มี image encoder)
- ออกแบบมาสำหรับดิจิทัลเอเจนต์ รองรับความละเอียดของภาพได้ตามต้องการ และสามารถตอบคำถามเกี่ยวกับกราฟและไดอะแกรม รวมถึงคำถามที่อิงกับ UI ได้
- เร็วพอที่จะสร้างคำตอบได้ภายใน 100ms แม้กับภาพขนาดใหญ่
- แม้จะถูกปรับให้เหมาะกับยูสเคสของตนเอง แต่ก็ยังทำผลงานได้ยอดเยี่ยมบนเบนช์มาร์กมาตรฐานด้านความเข้าใจภาพ
- เผยแพร่ภายใต้ไลเซนส์ CC-BY-NC
ยังไม่มีความคิดเห็น