Ferret - MLLM แบบมัลติโหมดของ Apple

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) เข้าใจการอ้างอิงเชิงพื้นที่ทุกรูปแบบและแบบละเอียดภายในภาพ Key Contributions Ferret Model: การแทนพื้นที่แบบไฮบริด + visual sampler ที่รับรู้เชิงพื้นที่ GRIT Dataset: ชุดข้อมูลสำหรับ instruction tuning ขนาดใหญ่ แบบลำดับชั้น และมีความทนทาน รวมตัวอย่าง 1.1 ล้านรายการและข้อมูล hard negative 9.5 แสนรายการ Ferret Bench: เบนช์มาร์กการประเมินแบบมัลติโหมด (ต้องใช้ Referring/Grounding + Semantics + Knowledge + Reasoning ร่วมกัน)

(github.com/apple)

13 คะแนน โดย xguru 2023-12-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

MLLM (Multimodal Large Language Model)
- เข้าใจการอ้างอิงเชิงพื้นที่ทุกรูปแบบและแบบละเอียดภายในภาพ
Key Contributions
- Ferret Model: การแทนพื้นที่แบบไฮบริด + visual sampler ที่รับรู้เชิงพื้นที่
- GRIT Dataset: ชุดข้อมูลสำหรับ instruction tuning ขนาดใหญ่ แบบลำดับชั้น และมีความทนทาน รวมตัวอย่าง 1.1 ล้านรายการและข้อมูล hard negative 9.5 แสนรายการ
- Ferret Bench: เบนช์มาร์กการประเมินแบบมัลติโหมด (ต้องใช้ Referring/Grounding + Semantics + Knowledge + Reasoning ร่วมกัน)

Ferret - MLLM แบบมัลติโหมดของ Apple

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น