SAM 2: Segment Anything สำหรับภาพและวิดีโอ

(github.com/facebookresearch)

5 คะแนน โดย GN⁺ 2024-07-30 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Segment Anything Model 2 เป็นโมเดลสำหรับแก้ปัญหาการแบ่งส่วนภาพเชิงการมองเห็นแบบ promptable ในภาพและวิดีโอ
- ขยายไปสู่วิดีโอโดยมองว่าภาพเป็นวิดีโอที่มีเพียงเฟรมเดียว
- ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์แบบเรียบง่ายที่มี streaming memory สำหรับการประมวลผลวิดีโอแบบเรียลไทม์
- สร้าง data engine ที่ปรับปรุงทั้งโมเดลและข้อมูลผ่านการโต้ตอบกับผู้ใช้ เพื่อรวบรวมชุดข้อมูล SA-V
ให้ประสิทธิภาพที่แข็งแกร่งในงานที่หลากหลายและโดเมนการมองเห็นที่หลากหลาย
เปิดเผยชุดข้อมูล Segment Anything Video (SA-V) ด้วย
- ประกอบด้วยวิดีโอที่หลากหลาย 50,583 รายการ และหน้ากากการแบ่งส่วนเชิงปริภูมิ-เวลา (Masklet) คุณภาพสูง 642,036 รายการ
- สัญญาอนุญาต CC by 4.0

2 ความคิดเห็น

xguru 2024-07-31

Segment Anything Model(SAM): โมเดล AI ของ Meta ที่ช่วยแยกวัตถุใดก็ได้ออกจากภาพ
SAM.cpp - การนำ Segment Anything Model ของ Meta ไปพัฒนาด้วย C/C++ ล้วน

GN⁺ 2024-07-30

ความคิดเห็นจาก Hacker News

สนใจการปรับปรุงทั้งค่า mIoU และความเร็วในการประมวลผลภาพที่เพิ่มขึ้น 6 เท่า
- การเพิ่มความเร็วส่วนใหญ่มาจากเอนโค้ดเดอร์ที่มีประสิทธิภาพมากขึ้น
- อาจมีข้อได้เปรียบไม่มากนักในกรณีที่แบ่งส่วนภาพเดียวกันหลายครั้ง
- จำเป็นต้องมีการเปรียบเทียบกับ SAM รุ่นดั้งเดิม
ทีม Segment Anything ได้เปิดตัวโมเดล SAM 2
- เป็นโมเดลแบบรวมตัวแรกสำหรับการแบ่งส่วนวัตถุแบบเรียลไทม์
- เปิดเผยโค้ด โมเดล ชุดข้อมูล งานวิจัย และเดโม
- รอติดตามว่าผู้ใช้จะสร้างอะไรขึ้นมาบ้าง
เคยใช้งาน SAM 1 มาก่อน
- สรุปงานวิจัยของ SAM 2:
  - ฝึกด้วย GPU A100 จำนวน 256 ตัวเป็นเวลา 108 ชั่วโมง
  - ค่าใช้จ่ายในการฝึกประมาณ $50k ซึ่งถือว่าถูก
  - ชุดข้อมูล SA-V ใหม่ประกอบด้วยวิดีโอ 50k รายการ
  - ใช้วิธี bootstrap การทำคำอธิบายประกอบ 3 ขั้นตอน
  - เพิ่มฟีเจอร์ memory attention
อยากฝึกโมเดลเพื่อจัดประเภทเฟรมวิดีโอและค้นหาเฟรมที่ต้องการ
- สงสัยว่าสามารถใช้ SAM-2 เป็นโมเดลพื้นฐานได้หรือไม่
ชอบฟังก์ชัน loss ของ SAM มาก
- ขอแสดงความขอบคุณ
เว็บเดโมดูสะอาดตาและทำได้ดีมาก
- เมื่อเลือกแต่ละรองเท้าเป็นวัตถุแยกกัน โมเดลก็ยังแบ่งส่วนได้แม้จะทับซ้อนกัน
โมเดล SAM รุ่นแรกเป็นตัวที่มีประโยชน์มากที่สุด
- อยากลองใช้ SAM2 มาก
เดโมงานวิจัยไม่สามารถใช้งานได้ในรัฐอิลลินอยส์และรัฐเท็กซัส
- สงสัยว่าเพราะเหตุใด
มีความกังวลเกี่ยวกับการนำไปใช้ทางทหาร
เป็นผลงานที่น่าทึ่งมาก

SAM 2: Segment Anything สำหรับภาพและวิดีโอ

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News