Meta เปิดตัว Segment Anything Model 2
(ai.meta.com)แนะนำ Meta Segment Anything Model 2 (SAM 2)
ความสามารถหลัก
-
แยกวัตถุในวิดีโอและภาพทุกประเภท
- SAM 2 เป็นโมเดลแบบรวมตัวแรกที่สามารถแยกวัตถุได้ทั้งในภาพและวิดีโอ
- สามารถใช้การคลิก กล่อง และมาสก์เป็นอินพุตเพื่อเลือกวัตถุในภาพหรือเฟรมวิดีโอได้
-
เลือกและปรับวัตถุข้ามเฟรมวิดีโอ
- สามารถใช้ SAM 2 เพื่อเลือกวัตถุหนึ่งชิ้นหรือหลายชิ้นในเฟรมวิดีโอได้
- สามารถใช้พรอมป์ต์เพิ่มเติมเพื่อปรับแต่งการคาดการณ์ของโมเดลได้อย่างละเอียด
-
ประสิทธิภาพการแยกสูงแม้ในวิดีโอที่ไม่คุ้นเคย
- SAM 2 ให้ประสิทธิภาพ zero-shot ที่แข็งแกร่ง แม้กับวัตถุ ภาพ และวิดีโอที่โมเดลไม่เคยเห็นระหว่างการฝึก
- สามารถนำไปใช้ได้ในแอปพลิเคชันจริงที่หลากหลาย
-
การโต้ตอบและผลลัพธ์แบบเรียลไทม์
- SAM 2 รองรับแอปพลิเคชันแบบโต้ตอบเรียลไทม์ผ่านการอนุมานแบบสตรีมมิง
-
ประสิทธิภาพการแยกวัตถุล้ำสมัย
- SAM 2 ให้ประสิทธิภาพเหนือกว่าโมเดลชั้นนำในการแยกวัตถุทั้งในวิดีโอและภาพ
ไฮไลต์
- ประสิทธิภาพในการแยกภาพดีกว่า SAM
- เหนือกว่าโมเดล video object segmentation เดิม โดยเฉพาะด้านการติดตามบางส่วน
- ใช้เวลาโต้ตอบน้อยกว่าวิธี interactive video segmentation เดิม
ลองใช้งานด้วยตัวเอง
- สามารถติดตามวัตถุจากการคลิกเพียงครั้งเดียวในเฟรมหนึ่งของวิดีโอ และสร้างเอฟเฟกต์สนุก ๆ ได้
- ลองเดโม
สถาปัตยกรรมโมเดล
- การออกแบบ Meta Segment Anything Model 2
- โมเดล SAM 2 ถูกขยายไปยังโดเมนวิดีโอด้วยการเพิ่มโมดูลหน่วยความจำรายเซสชัน
- โมดูลนี้จะเก็บข้อมูลเกี่ยวกับวัตถุเป้าหมายในวิดีโอ เพื่อให้สามารถติดตามวัตถุได้ตลอดทุกเฟรม แม้ว่าวัตถุนั้นจะหายไปชั่วคราวจากการมองเห็น
- ยังรองรับความสามารถในการแก้ไขการคาดการณ์มาสก์ตามพรอมป์ต์เพิ่มเติม
- สถาปัตยกรรมแบบสตรีมมิงของ SAM 2 ประมวลผลเฟรมวิดีโอทีละเฟรม จึงขยายไปสู่โดเมนวิดีโอได้อย่างเป็นธรรมชาติ
Segment Anything Video Dataset
-
ชุดข้อมูลการแยกวิดีโอขนาดใหญ่และหลากหลาย
- SAM 2 ได้รับการฝึกจากชุดวิดีโอและ masklet (มาสก์ของวัตถุตามลำดับเวลา) จำนวนมากและหลากหลาย
- ข้อมูลฝึกรวมถึงชุดข้อมูล SA-V แบบโอเพนซอร์ส
-
ไฮไลต์
- รวบรวม masklet มากกว่า 600,000 รายการจากวิดีโอราว 51,000 รายการ
- ครอบคลุมสถานการณ์จริงที่หลากหลายทางภูมิศาสตร์ใน 47 ประเทศ
- มีคำอธิบายประกอบทั้งวัตถุเต็มชิ้น ส่วนย่อย และกรณีการบดบังที่ท้าทาย
การเปิดเผยงานวิจัย
-
นวัตกรรมแบบเปิด
- เปิดเผยโมเดล Segment Anything 2 ที่ฝึกไว้ล่วงหน้า ชุดข้อมูล SA-V เดโม และโค้ด เพื่อให้ชุมชนนักวิจัยนำงานนี้ไปต่อยอดได้
-
ไฮไลต์
- ให้ความโปร่งใสเกี่ยวกับข้อมูลฝึกของ SAM 2
- ให้ความสำคัญกับความหลากหลายทางภูมิศาสตร์ของชุดข้อมูล SA-V เพื่อสะท้อนโลกความเป็นจริง
- ดำเนินการประเมินความเป็นธรรมของ SAM 2
การประยุกต์ใช้โมเดลที่เป็นไปได้
-
เอาต์พุตที่ขยายต่อได้
- เอาต์พุต video object segmentation ของ SAM 2 สามารถใช้เป็นอินพุตให้ระบบ AI อื่น เช่น โมเดลสร้างวิดีโอสมัยใหม่
-
อินพุตที่ขยายต่อได้
- SAM 2 รองรับพรอมป์ต์อินพุตประเภทอื่น ๆ ที่ช่วยให้เกิดวิธีสร้างสรรค์ในการโต้ตอบกับวัตถุในวิดีโอแบบเรียลไทม์หรือวิดีโอสด
สำรวจแหล่งข้อมูลเพิ่มเติม
สรุปโดย GN⁺
- SAM 2 เป็นโมเดลแบบรวมสำหรับแยกวัตถุในภาพและวิดีโอ พร้อมรองรับการโต้ตอบแบบเรียลไทม์และมีประสิทธิภาพ zero-shot ที่แข็งแกร่ง
- ถูกออกแบบมาให้ใช้งานได้ในสถานการณ์จริงที่หลากหลาย และมีทั้งชุดข้อมูลกับโค้ดที่เปิดเผยต่อชุมชนนักวิจัย
- ให้ประสิทธิภาพเหนือกว่าโมเดลเดิมในการติดตามและแยกวัตถุในวิดีโอ พร้อมความแม่นยำสูงโดยใช้เวลาโต้ตอบน้อยกว่า
- SAM 2 สามารถผสานกับระบบ AI อื่น เช่น โมเดลสร้างวิดีโอ เพื่อสร้างประสบการณ์รูปแบบใหม่ได้
ยังไม่มีความคิดเห็น