ภาพรวมของโมเดล Ferret
- โมเดล Ferret สามารถอ้างอิงและระบุตำแหน่งได้อย่างแม่นยำด้วยคำศัพท์ที่ละเอียดและเปิดกว้าง ผ่าน ตัวแทนพื้นที่แบบไฮบริดและตัวสุ่มตัวอย่างภาพที่รับรู้เชิงพื้นที่
- ชุดข้อมูล GRIT (~1.1M) เป็นชุดข้อมูล instruction tuning ขนาดใหญ่ มีลำดับชั้น และมีความทนทานสูง
- Ferret-Bench เป็นเบนช์มาร์กประเมินผลแบบมัลติโหมดที่ต้องใช้ทั้งการอ้างอิง/การระบุตำแหน่ง ความหมาย ความรู้ และการให้เหตุผลพร้อมกัน
การเปิดตัวโมเดล Ferret
- [12/14] เปิดตัวเช็กพอยต์ 7B และ 13B
- [10/30] เปิดตัวโค้ดของโมเดล FERRET และ Ferret-Bench
- ข้อมูลและโค้ดใช้ได้เพื่อการวิจัยเท่านั้น และอยู่ภายใต้ข้อตกลงไลเซนส์ของ LLaMA, Vicuna และ GPT-4
- ชุดข้อมูลอยู่ภายใต้ CC BY NC 4.0 (อนุญาตให้ใช้แบบไม่เชิงพาณิชย์เท่านั้น) และโมเดลที่ฝึกด้วยชุดข้อมูลนี้ไม่สามารถใช้นอกเหนือจากวัตถุประสงค์ด้านการวิจัยได้
การติดตั้งและวิธีใช้งาน
- โคลนรีโพซิทอรี FERRET แล้วเข้าไปยังโฟลเดอร์นั้น จากนั้นติดตั้งแพ็กเกจที่จำเป็น
- ต้องติดตั้งแพ็กเกจเพิ่มเติมสำหรับกรณีการฝึกบางแบบ
การฝึก
- FERRET ฝึกบน GPU A100 จำนวน 8 ตัว (หน่วยความจำตัวละ 80GB)
- หากฝึกด้วย GPU จำนวนน้อยกว่า ต้องลด
per_device_train_batch_size และเพิ่ม gradient_accumulation_steps
- ต้องเตรียมเช็กพอยต์ของ Vicuna และโปรเจ็กเตอร์ของ LLaVA
- มีสคริปต์สำหรับการฝึกให้
การประเมินผล
- ดูรายละเอียดเพิ่มเติมได้ในเอกสาร
เช็กพอยต์
- แยก
delta ระหว่างโมเดลที่พรีเทรนแล้วกับ Vicuna
- หลังจากดาวน์โหลดน้ำหนักของ Vicuna ให้ดาวน์โหลดและนำ weight offset ที่เตรียมไว้ไปใช้
เดโม
- หลังจากฝึก FERRET แล้ว สามารถรันเดโมในเครื่องโดยใช้เช็กพอยต์ได้
- ใช้ Gradio เว็บ UI
- รันคอนโทรลเลอร์, Gradio เว็บเซิร์ฟเวอร์ และโมเดลเวิร์กเกอร์ตามลำดับ
การอ้างอิง
- หากคุณใช้งาน Ferret แล้วพบว่ามีประโยชน์ กรุณาอ้างอิงด้วย BibTeX ต่อไปนี้
คำขอบคุณ
- LLaVA: โค้ดเบสพื้นฐาน
- Vicuna: โค้ดเบสของ LLM
ความเห็นของ GN⁺
- เทคโนโลยีที่ล้ำหน้า: โมเดล Ferret นำเสนอเทคโนโลยีที่โดดเด่น ซึ่งช่วยให้การอ้างอิงและการระบุตำแหน่งอย่างละเอียดเป็นไปได้ด้วยการใช้คำศัพท์ที่หลากหลาย
- ความสำคัญของงานวิจัย: โมเดลและชุดข้อมูลนี้เป็นทรัพยากรสำคัญที่สามารถช่วยผลักดันงานวิจัยด้านการอ้างอิงและการระบุตำแหน่งในวงการปัญญาประดิษฐ์
- ศักยภาพในการประยุกต์ใช้ที่หลากหลาย: เทคโนโลยีนี้สามารถนำไปใช้กับแอปพลิเคชันหลากหลายที่ผสานภาพและข้อความ ซึ่งอาจยกระดับความเข้าใจเชิงภาพและปฏิสัมพันธ์ของปัญญาประดิษฐ์ขึ้นไปอีกขั้น
ยังไม่มีความคิดเห็น