• เวอร์ชันขนาดเล็กของโมเดลมัลติโหมด (ภาพ+ข้อความ) ที่พวกเขาใช้ในผลิตภัณฑ์ของตน
  • สถาปัตยกรรมและกระบวนการฝึกเรียบง่ายมาก (ไม่มี image encoder)
  • ออกแบบมาสำหรับดิจิทัลเอเจนต์ รองรับความละเอียดของภาพได้ตามต้องการ และสามารถตอบคำถามเกี่ยวกับกราฟและไดอะแกรม รวมถึงคำถามที่อิงกับ UI ได้
  • เร็วพอที่จะสร้างคำตอบได้ภายใน 100ms แม้กับภาพขนาดใหญ่
  • แม้จะถูกปรับให้เหมาะกับยูสเคสของตนเอง แต่ก็ยังทำผลงานได้ยอดเยี่ยมบนเบนช์มาร์กมาตรฐานด้านความเข้าใจภาพ
  • เผยแพร่ภายใต้ไลเซนส์ CC-BY-NC

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น