- Segment Anything Model 2 เป็นโมเดลสำหรับแก้ปัญหาการแบ่งส่วนภาพเชิงการมองเห็นแบบ promptable ในภาพและวิดีโอ
- ขยายไปสู่วิดีโอโดยมองว่าภาพเป็นวิดีโอที่มีเพียงเฟรมเดียว
- ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์แบบเรียบง่ายที่มี streaming memory สำหรับการประมวลผลวิดีโอแบบเรียลไทม์
- สร้าง data engine ที่ปรับปรุงทั้งโมเดลและข้อมูลผ่านการโต้ตอบกับผู้ใช้ เพื่อรวบรวมชุดข้อมูล SA-V
- ให้ประสิทธิภาพที่แข็งแกร่งในงานที่หลากหลายและโดเมนการมองเห็นที่หลากหลาย
- เปิดเผยชุดข้อมูล Segment Anything Video (SA-V) ด้วย
- ประกอบด้วยวิดีโอที่หลากหลาย 50,583 รายการ และหน้ากากการแบ่งส่วนเชิงปริภูมิ-เวลา (Masklet) คุณภาพสูง 642,036 รายการ
- สัญญาอนุญาต CC by 4.0
2 ความคิดเห็น
Segment Anything Model(SAM): โมเดล AI ของ Meta ที่ช่วยแยกวัตถุใดก็ได้ออกจากภาพ
SAM.cpp - การนำ Segment Anything Model ของ Meta ไปพัฒนาด้วย C/C++ ล้วน
ความคิดเห็นจาก Hacker News
สนใจการปรับปรุงทั้งค่า mIoU และความเร็วในการประมวลผลภาพที่เพิ่มขึ้น 6 เท่า
ทีม Segment Anything ได้เปิดตัวโมเดล SAM 2
เคยใช้งาน SAM 1 มาก่อน
อยากฝึกโมเดลเพื่อจัดประเภทเฟรมวิดีโอและค้นหาเฟรมที่ต้องการ
ชอบฟังก์ชัน loss ของ SAM มาก
เว็บเดโมดูสะอาดตาและทำได้ดีมาก
โมเดล SAM รุ่นแรกเป็นตัวที่มีประโยชน์มากที่สุด
เดโมงานวิจัยไม่สามารถใช้งานได้ในรัฐอิลลินอยส์และรัฐเท็กซัส
มีความกังวลเกี่ยวกับการนำไปใช้ทางทหาร
เป็นผลงานที่น่าทึ่งมาก