แนะนำ Meta Segment Anything Model 2 (SAM 2)

ความสามารถหลัก

  • แยกวัตถุในวิดีโอและภาพทุกประเภท

    • SAM 2 เป็นโมเดลแบบรวมตัวแรกที่สามารถแยกวัตถุได้ทั้งในภาพและวิดีโอ
    • สามารถใช้การคลิก กล่อง และมาสก์เป็นอินพุตเพื่อเลือกวัตถุในภาพหรือเฟรมวิดีโอได้
  • เลือกและปรับวัตถุข้ามเฟรมวิดีโอ

    • สามารถใช้ SAM 2 เพื่อเลือกวัตถุหนึ่งชิ้นหรือหลายชิ้นในเฟรมวิดีโอได้
    • สามารถใช้พรอมป์ต์เพิ่มเติมเพื่อปรับแต่งการคาดการณ์ของโมเดลได้อย่างละเอียด
  • ประสิทธิภาพการแยกสูงแม้ในวิดีโอที่ไม่คุ้นเคย

    • SAM 2 ให้ประสิทธิภาพ zero-shot ที่แข็งแกร่ง แม้กับวัตถุ ภาพ และวิดีโอที่โมเดลไม่เคยเห็นระหว่างการฝึก
    • สามารถนำไปใช้ได้ในแอปพลิเคชันจริงที่หลากหลาย
  • การโต้ตอบและผลลัพธ์แบบเรียลไทม์

    • SAM 2 รองรับแอปพลิเคชันแบบโต้ตอบเรียลไทม์ผ่านการอนุมานแบบสตรีมมิง
  • ประสิทธิภาพการแยกวัตถุล้ำสมัย

    • SAM 2 ให้ประสิทธิภาพเหนือกว่าโมเดลชั้นนำในการแยกวัตถุทั้งในวิดีโอและภาพ

ไฮไลต์

  • ประสิทธิภาพในการแยกภาพดีกว่า SAM
  • เหนือกว่าโมเดล video object segmentation เดิม โดยเฉพาะด้านการติดตามบางส่วน
  • ใช้เวลาโต้ตอบน้อยกว่าวิธี interactive video segmentation เดิม

ลองใช้งานด้วยตัวเอง

  • สามารถติดตามวัตถุจากการคลิกเพียงครั้งเดียวในเฟรมหนึ่งของวิดีโอ และสร้างเอฟเฟกต์สนุก ๆ ได้
  • ลองเดโม

สถาปัตยกรรมโมเดล

  • การออกแบบ Meta Segment Anything Model 2
    • โมเดล SAM 2 ถูกขยายไปยังโดเมนวิดีโอด้วยการเพิ่มโมดูลหน่วยความจำรายเซสชัน
    • โมดูลนี้จะเก็บข้อมูลเกี่ยวกับวัตถุเป้าหมายในวิดีโอ เพื่อให้สามารถติดตามวัตถุได้ตลอดทุกเฟรม แม้ว่าวัตถุนั้นจะหายไปชั่วคราวจากการมองเห็น
    • ยังรองรับความสามารถในการแก้ไขการคาดการณ์มาสก์ตามพรอมป์ต์เพิ่มเติม
    • สถาปัตยกรรมแบบสตรีมมิงของ SAM 2 ประมวลผลเฟรมวิดีโอทีละเฟรม จึงขยายไปสู่โดเมนวิดีโอได้อย่างเป็นธรรมชาติ

Segment Anything Video Dataset

  • ชุดข้อมูลการแยกวิดีโอขนาดใหญ่และหลากหลาย

    • SAM 2 ได้รับการฝึกจากชุดวิดีโอและ masklet (มาสก์ของวัตถุตามลำดับเวลา) จำนวนมากและหลากหลาย
    • ข้อมูลฝึกรวมถึงชุดข้อมูล SA-V แบบโอเพนซอร์ส
  • ไฮไลต์

    • รวบรวม masklet มากกว่า 600,000 รายการจากวิดีโอราว 51,000 รายการ
    • ครอบคลุมสถานการณ์จริงที่หลากหลายทางภูมิศาสตร์ใน 47 ประเทศ
    • มีคำอธิบายประกอบทั้งวัตถุเต็มชิ้น ส่วนย่อย และกรณีการบดบังที่ท้าทาย

การเปิดเผยงานวิจัย

  • นวัตกรรมแบบเปิด

    • เปิดเผยโมเดล Segment Anything 2 ที่ฝึกไว้ล่วงหน้า ชุดข้อมูล SA-V เดโม และโค้ด เพื่อให้ชุมชนนักวิจัยนำงานนี้ไปต่อยอดได้
  • ไฮไลต์

    • ให้ความโปร่งใสเกี่ยวกับข้อมูลฝึกของ SAM 2
    • ให้ความสำคัญกับความหลากหลายทางภูมิศาสตร์ของชุดข้อมูล SA-V เพื่อสะท้อนโลกความเป็นจริง
    • ดำเนินการประเมินความเป็นธรรมของ SAM 2

การประยุกต์ใช้โมเดลที่เป็นไปได้

  • เอาต์พุตที่ขยายต่อได้

    • เอาต์พุต video object segmentation ของ SAM 2 สามารถใช้เป็นอินพุตให้ระบบ AI อื่น เช่น โมเดลสร้างวิดีโอสมัยใหม่
  • อินพุตที่ขยายต่อได้

    • SAM 2 รองรับพรอมป์ต์อินพุตประเภทอื่น ๆ ที่ช่วยให้เกิดวิธีสร้างสรรค์ในการโต้ตอบกับวัตถุในวิดีโอแบบเรียลไทม์หรือวิดีโอสด

สำรวจแหล่งข้อมูลเพิ่มเติม

สรุปโดย GN⁺

  • SAM 2 เป็นโมเดลแบบรวมสำหรับแยกวัตถุในภาพและวิดีโอ พร้อมรองรับการโต้ตอบแบบเรียลไทม์และมีประสิทธิภาพ zero-shot ที่แข็งแกร่ง
  • ถูกออกแบบมาให้ใช้งานได้ในสถานการณ์จริงที่หลากหลาย และมีทั้งชุดข้อมูลกับโค้ดที่เปิดเผยต่อชุมชนนักวิจัย
  • ให้ประสิทธิภาพเหนือกว่าโมเดลเดิมในการติดตามและแยกวัตถุในวิดีโอ พร้อมความแม่นยำสูงโดยใช้เวลาโต้ตอบน้อยกว่า
  • SAM 2 สามารถผสานกับระบบ AI อื่น เช่น โมเดลสร้างวิดีโอ เพื่อสร้างประสบการณ์รูปแบบใหม่ได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น