ภาพรวมของโมเดล Ferret

  • โมเดล Ferret สามารถอ้างอิงและระบุตำแหน่งได้อย่างแม่นยำด้วยคำศัพท์ที่ละเอียดและเปิดกว้าง ผ่าน ตัวแทนพื้นที่แบบไฮบริดและตัวสุ่มตัวอย่างภาพที่รับรู้เชิงพื้นที่
  • ชุดข้อมูล GRIT (~1.1M) เป็นชุดข้อมูล instruction tuning ขนาดใหญ่ มีลำดับชั้น และมีความทนทานสูง
  • Ferret-Bench เป็นเบนช์มาร์กประเมินผลแบบมัลติโหมดที่ต้องใช้ทั้งการอ้างอิง/การระบุตำแหน่ง ความหมาย ความรู้ และการให้เหตุผลพร้อมกัน

การเปิดตัวโมเดล Ferret

  • [12/14] เปิดตัวเช็กพอยต์ 7B และ 13B
  • [10/30] เปิดตัวโค้ดของโมเดล FERRET และ Ferret-Bench
  • ข้อมูลและโค้ดใช้ได้เพื่อการวิจัยเท่านั้น และอยู่ภายใต้ข้อตกลงไลเซนส์ของ LLaMA, Vicuna และ GPT-4
  • ชุดข้อมูลอยู่ภายใต้ CC BY NC 4.0 (อนุญาตให้ใช้แบบไม่เชิงพาณิชย์เท่านั้น) และโมเดลที่ฝึกด้วยชุดข้อมูลนี้ไม่สามารถใช้นอกเหนือจากวัตถุประสงค์ด้านการวิจัยได้

การติดตั้งและวิธีใช้งาน

  • โคลนรีโพซิทอรี FERRET แล้วเข้าไปยังโฟลเดอร์นั้น จากนั้นติดตั้งแพ็กเกจที่จำเป็น
  • ต้องติดตั้งแพ็กเกจเพิ่มเติมสำหรับกรณีการฝึกบางแบบ

การฝึก

  • FERRET ฝึกบน GPU A100 จำนวน 8 ตัว (หน่วยความจำตัวละ 80GB)
  • หากฝึกด้วย GPU จำนวนน้อยกว่า ต้องลด per_device_train_batch_size และเพิ่ม gradient_accumulation_steps
  • ต้องเตรียมเช็กพอยต์ของ Vicuna และโปรเจ็กเตอร์ของ LLaVA
  • มีสคริปต์สำหรับการฝึกให้

การประเมินผล

  • ดูรายละเอียดเพิ่มเติมได้ในเอกสาร

เช็กพอยต์

  • แยก delta ระหว่างโมเดลที่พรีเทรนแล้วกับ Vicuna
  • หลังจากดาวน์โหลดน้ำหนักของ Vicuna ให้ดาวน์โหลดและนำ weight offset ที่เตรียมไว้ไปใช้

เดโม

  • หลังจากฝึก FERRET แล้ว สามารถรันเดโมในเครื่องโดยใช้เช็กพอยต์ได้
  • ใช้ Gradio เว็บ UI
  • รันคอนโทรลเลอร์, Gradio เว็บเซิร์ฟเวอร์ และโมเดลเวิร์กเกอร์ตามลำดับ

การอ้างอิง

  • หากคุณใช้งาน Ferret แล้วพบว่ามีประโยชน์ กรุณาอ้างอิงด้วย BibTeX ต่อไปนี้

คำขอบคุณ

  • LLaVA: โค้ดเบสพื้นฐาน
  • Vicuna: โค้ดเบสของ LLM

ความเห็นของ GN⁺

  • เทคโนโลยีที่ล้ำหน้า: โมเดล Ferret นำเสนอเทคโนโลยีที่โดดเด่น ซึ่งช่วยให้การอ้างอิงและการระบุตำแหน่งอย่างละเอียดเป็นไปได้ด้วยการใช้คำศัพท์ที่หลากหลาย
  • ความสำคัญของงานวิจัย: โมเดลและชุดข้อมูลนี้เป็นทรัพยากรสำคัญที่สามารถช่วยผลักดันงานวิจัยด้านการอ้างอิงและการระบุตำแหน่งในวงการปัญญาประดิษฐ์
  • ศักยภาพในการประยุกต์ใช้ที่หลากหลาย: เทคโนโลยีนี้สามารถนำไปใช้กับแอปพลิเคชันหลากหลายที่ผสานภาพและข้อความ ซึ่งอาจยกระดับความเข้าใจเชิงภาพและปฏิสัมพันธ์ของปัญญาประดิษฐ์ขึ้นไปอีกขั้น

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น