Ferret - MLLM แบบมัลติโหมดของ Apple
(github.com/apple)- MLLM (Multimodal Large Language Model)
- เข้าใจการอ้างอิงเชิงพื้นที่ทุกรูปแบบและแบบละเอียดภายในภาพ
- Key Contributions
- Ferret Model: การแทนพื้นที่แบบไฮบริด + visual sampler ที่รับรู้เชิงพื้นที่
- GRIT Dataset: ชุดข้อมูลสำหรับ instruction tuning ขนาดใหญ่ แบบลำดับชั้น และมีความทนทาน รวมตัวอย่าง 1.1 ล้านรายการและข้อมูล hard negative 9.5 แสนรายการ
- Ferret Bench: เบนช์มาร์กการประเมินแบบมัลติโหมด (ต้องใช้ Referring/Grounding + Semantics + Knowledge + Reasoning ร่วมกัน)
ยังไม่มีความคิดเห็น