• MLLM (Multimodal Large Language Model)
    • เข้าใจการอ้างอิงเชิงพื้นที่ทุกรูปแบบและแบบละเอียดภายในภาพ
  • Key Contributions
    • Ferret Model: การแทนพื้นที่แบบไฮบริด + visual sampler ที่รับรู้เชิงพื้นที่
    • GRIT Dataset: ชุดข้อมูลสำหรับ instruction tuning ขนาดใหญ่ แบบลำดับชั้น และมีความทนทาน รวมตัวอย่าง 1.1 ล้านรายการและข้อมูล hard negative 9.5 แสนรายการ
    • Ferret Bench: เบนช์มาร์กการประเมินแบบมัลติโหมด (ต้องใช้ Referring/Grounding + Semantics + Knowledge + Reasoning ร่วมกัน)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น