Meta เปิดตัว Segment Anything Model 2

(ai.meta.com)

2 คะแนน โดย GN⁺ 2024-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Segment Anything Model 2 (SAM 2) ของ Meta FAIR เป็นโมเดล segmentation แบบรวมศูนย์สำหรับเลือกและแบ่งแยกวัตถุในภาพและวิดีโอได้อย่างรวดเร็ว
ผู้ใช้สามารถระบุวัตถุด้วย prompt เช่น คลิก, กล่อง หรือ mask และปรับแก้ การคาดการณ์ mask ได้ด้วย prompt เพิ่มเติม
ในวิดีโอ โมดูลหน่วยความจำ ประจำ session จะเก็บข้อมูลวัตถุจากเฟรมก่อนหน้าไว้ ทำให้ติดตามต่อเนื่องได้ตลอดทุกเฟรม แม้วัตถุจะถูกบังชั่วคราว
SAM 2 ปรับปรุง image segmentation จาก SAM รุ่นเดิม และในงาน video object segmentation จะเน้นเป็นพิเศษด้าน การติดตามเฉพาะส่วน และเวลาในการโต้ตอบ
Meta เปิดเผยโมเดลที่ pre-trained, โค้ด, เดโม และ ชุดข้อมูล SA-V โดย SA-V มีวิดีโอประมาณ 51K รายการ และ masklet มากกว่า 600K รายการ

Segmentation ที่รองรับทั้งภาพและวิดีโอ

SAM 2 เป็นโมเดลแบบรวมศูนย์ตัวแรกสำหรับทำ object segmentation ครอบคลุมทั้งภาพและวิดีโอ
ผู้ใช้สามารถเลือกวัตถุได้ด้วยการป้อน คลิก, กล่อง หรือ mask บนภาพหรือเฟรมวิดีโอ
ในวิดีโอสามารถระบุวัตถุได้หนึ่งชิ้นหรือหลายชิ้น และปรับแก้การคาดการณ์ให้ละเอียดขึ้นด้วย prompt เพิ่มเติมได้จากเฟรมใดก็ได้
ออกแบบมาให้มี ประสิทธิภาพแบบ zero-shot ที่แข็งแกร่ง แม้กับวัตถุ ภาพ และวิดีโอที่ไม่เคยเห็นระหว่างการฝึก จึงนำไปใช้กับแอปพลิเคชันจริงได้หลากหลาย
ประมวลผลวิดีโออย่างมีประสิทธิภาพผ่าน streaming inference และรองรับแอปพลิเคชันแบบเรียลไทม์และโต้ตอบได้

ประสิทธิภาพและประสบการณ์ใช้งานแบบโต้ตอบ

SAM 2 ถูกนำเสนอว่าเป็นโมเดลที่ให้ประสิทธิภาพดีกว่าโมเดลชั้นนำในสาขา object segmentation สำหรับวิดีโอและภาพ
จุดเด่นด้านประสิทธิภาพหลัก
- ปรับปรุงจาก SAM รุ่นเดิมในงาน image segmentation
- เหนือกว่าโมเดล video object segmentation เดิม โดยเฉพาะมีจุดแข็งด้าน การติดตามเฉพาะส่วน
- ใช้เวลาในการโต้ตอบน้อยกว่าวิธี interactive video segmentation เดิม
ในเดโม แม้คลิกเพียงครั้งเดียวบนเฟรมเดียว ก็สามารถติดตามวัตถุแบบโต้ตอบได้ตลอดทั้งวิดีโอและสร้างเอฟเฟกต์ได้
เดโมมีให้ใช้งานที่ SAM 2 demo

โครงสร้างโมเดลสำหรับการติดตามในวิดีโอ

เป็นโครงสร้างที่ขยาย ความสามารถเลือกตาม prompt ของ SAM ไปสู่ขอบเขตวิดีโอ
เพิ่ม โมดูลหน่วยความจำ ประจำ session สำหรับเก็บข้อมูลของวัตถุเป้าหมายในวิดีโอ
- สามารถติดตามวัตถุที่เลือกได้ตลอดทุกเฟรมของวิดีโอ
- ใช้บริบทจากเฟรมก่อนหน้าแม้วัตถุจะหายไปจากมุมมองชั่วคราว
สามารถใส่ prompt เพิ่มเติมในเฟรมใดก็ได้เพื่อปรับแก้ การคาดการณ์ mask
สถาปัตยกรรมแบบ streaming จะประมวลผลเฟรมวิดีโอทีละเฟรม
เมื่อนำไปใช้กับภาพ โมดูลหน่วยความจำจะว่างเปล่า และโมเดลจะทำงานเหมือน SAM

ชุดข้อมูล SA-V

SAM 2 ถูกฝึกด้วยวิดีโอหลากหลายขนาดใหญ่และ masklet
- masklet หมายถึง mask ของวัตถุตามเวลา
- ข้อมูลถูกสร้างขึ้นโดยนำ SAM 2 ไปใช้แบบโต้ตอบใน data engine แบบ model-in-the-loop
ข้อมูลฝึกรวมถึง ชุดข้อมูล SA-V ที่เปิดเป็นโอเพนซอร์ส
ตัวเลขสำคัญของชุดข้อมูล SA-V
- รวบรวม masklet มากกว่า 600K รายการจาก วิดีโอประมาณ 51K รายการ
- ครอบคลุมสถานการณ์จริงที่หลากหลายทางภูมิศาสตร์ ซึ่งรวบรวมจาก 47 ประเทศ
- มี annotation สำหรับวัตถุทั้งชิ้น ส่วนของวัตถุ และสถานการณ์การบังที่ท้าทาย
หากมีปัญหาหรือคำถามเกี่ยวกับชุดข้อมูล SA-V สามารถติดต่อได้ที่ support@segment-anything.com
ดูชุดข้อมูลได้ที่ Explore the dataset

ทรัพยากรที่เปิดเผยและความเป็นไปได้ในการใช้งาน

Meta เปิดเผย โมเดล Segment Anything 2 ที่ pre-trained, ชุดข้อมูล SA-V, เดโม และโค้ด เพื่อให้ชุมชนนักวิจัยสามารถต่อยอดงานต่อไปได้
พร้อมกับทรัพยากรที่เปิดเผย มีการเน้นประเด็นต่อไปนี้
- ให้ความโปร่งใสเกี่ยวกับข้อมูลฝึกของ SAM 2
- ให้ความสำคัญกับ ความหลากหลายทางภูมิศาสตร์ ของชุดข้อมูล SA-V เพื่อสะท้อนโลกจริง
- ดำเนินการประเมินความเป็นธรรมของ SAM 2
ดาวน์โหลดโมเดลและโค้ดได้ที่ Download the model
อ่านงานวิจัยได้ที่ Read the research paper
SAM 2 สามารถใช้เดี่ยว ๆ หรือใช้เป็นส่วนหนึ่งของระบบที่ใหญ่ขึ้นร่วมกับโมเดลอื่นในอนาคตได้
- ผลลัพธ์จาก video object segmentation สามารถใช้เป็นอินพุตให้ระบบ AI อื่น เช่น โมเดลสร้างวิดีโอสมัยใหม่ เพื่อเปิดทางให้มีความสามารถในการแก้ไขอย่างละเอียดแม่นยำ
- ในอนาคตอาจขยายไปสู่ prompt อินพุตประเภทอื่น เพื่อรองรับวิธีสร้างสรรค์ในการโต้ตอบกับวัตถุในวิดีโอแบบเรียลไทม์หรือไลฟ์

1 ความคิดเห็น

GN⁺ 2024-08-02

ความคิดเห็นจาก Hacker News

Meta กำลังทำได้ดีมาก ดูเหมือนว่า Google จะตามหลังในด้านงานวิจัย AI และผลงานที่เป็นประโยชน์ซึ่งถูกแบ่งปันให้ชุมชน
มั่นใจว่า Llama และโครงการอื่น ๆ จะช่วยผลักดันผลงานใหม่ ๆ บริษัทใหม่ ๆ และความก้าวหน้าใหม่ ๆ วิธีการเปิดเผยโค้ดและงานวิจัยต่อสาธารณะสุดท้ายแล้วก็น่าจะย้อนกลับมาเพิ่มมูลค่าทางธุรกิจให้ Meta เอง
ตรงนี้แสดงให้เห็นความต่างระหว่างบริษัทที่ผู้ก่อตั้งนำกับบริษัทที่ถูกตลาดลากไป Google ดูเหมือนจะสนใจเป้าหมายระยะสั้นมากกว่า เช่น การหลีกเลี่ยงผลประกอบการไตรมาสที่แย่ หรือการเลี่ยงไม่ให้มีรายจ่ายลงทุนก้อนใหญ่กับโครงการที่ยังไม่เห็นรายได้ทันทีอย่าง VR
ทันทีที่ Meta หา killer app ของ VR เจอ บริษัทอื่น ๆ อาจตามหลังไกลเกินกว่าจะทำได้มากกว่าซื้อซอฟต์แวร์จาก Meta หรือแทบไม่มีส่วนแบ่งในตลาดใหม่นี้เลย คล้ายกับที่ Nvidia นำหน้าในชิป AI ซึ่งเป็นพื้นที่ที่ก่อนหน้านี้ไม่มีใครลงทุนมากพอ
- Google ยังคงนำอยู่ในด้าน งานวิจัย AI นี่แทบจะตรงข้ามกับการมองระยะสั้น และเหตุผลที่อาจดูไม่เป็นแบบนั้นก็เพราะงานจำนวนมากเป็นงานวิจัยพื้นฐาน หรือเกี่ยวข้องกับเคมีและฟิสิกส์ หรืออยู่ในพื้นที่ที่ไม่ได้เปิดเผยแบบ Facebook
  แต่ Google ตามหลังในเรื่องการเปลี่ยนงานวิจัยให้เป็นผลิตภัณฑ์ จนถึงตอนนี้ดูเหมือนจะทุ่มแรงเพียงขั้นต่ำในการนำโมเดลที่ฝึกแล้วไปใส่ในผลิตภัณฑ์
- ไม่แน่ใจนะ แต่ความต่างอาจเป็นแบบนี้: Meta ลองทำหลาย ๆ อย่างแล้วค่อยหา killer application เจอทีหลัง
  ส่วน Google รู้สึกในระดับความอยู่รอดเลยว่าการค้นหาต้องเป็น killer application ให้ได้ และพยายามยัดทุกอย่างเข้าไปตรงนั้น ผลคือมาตรฐานความสำเร็จถูกตั้งไว้สูงเกินไป และเหมือนจะมองข้ามระดับความสามารถที่แท้จริงของเทคโนโลยีในตอนนี้
- ไม่เข้าใจว่า Meta ทำอะไรได้ดีนักหนา การผสาน AI ใน WhatsApp หรือ Instagram แทบไม่มีประโยชน์ และดูเหมือนถูกยัดเข้ามาเพื่อหลอกตลาดให้คิดว่า Meta เป็นบริษัท AI
  มองว่า Zuckerberg เป็นหนึ่งใน CEO ที่ขาดจินตนาการมากที่สุดด้วยซ้ำ นอกจากอุปกรณ์ Portal แล้ว Meta แทบไม่มีผลิตภัณฑ์ที่เป็นต้นฉบับ ส่วนใหญ่เป็นของที่ซื้อมา บริษัทนี้อ่อนเรื่องนวัตกรรมอย่างมาก
  ดูเหมือน Zuckerberg จะทำแคมเปญประชาสัมพันธ์เพื่อล้างภาพลักษณ์ แต่ Facebook ก็ยังเป็นบริษัทน่าสงสัยที่บริหารโดยคนที่น่าสงสัย และแกนกลางที่เน่าเฟะก็ยังไม่เปลี่ยนไป สัปดาห์นี้เองก็เพิ่งโดนค่าปรับหลายพันล้านดอลลาร์ใน Texas
  Meta ห่างไกลจากคำว่า “บริษัทที่ผู้ก่อตั้งนำ” มาก ผู้ก่อตั้งของแอปที่ซื้อมาไม่นานก็ออกไป และปล่อยให้คนสไตล์ที่ปรึกษาบริหารอย่าง Adam Mosseri มาดูแล
  ยังน่าเสียดายที่คนยังเชื่อ การเดิมพันครั้งใหญ่กับ metaverse ที่ Zuckerberg โยนออกมาเพื่อทำให้ Meta ดูเหมือนบริษัทนวัตกรรมท่ามกลางการเติบโตของผู้ใช้ที่ชะลอลง จนถึงตอนนี้ก็ยังไม่เข้าใจว่าทำไมการหลอกลวงเรื่อง metaverse นั้นถึงไม่เข้าข่ายละเมิด SEC
- มีคนพูดถึง “ความต่างระหว่างบริษัทที่ผู้ก่อตั้งนำกับบริษัทที่ตลาดนำ” แต่ก็ไม่แน่ใจว่าต่างกันขนาดนั้นไหม
  Facebook ก็ลองโยนของแพงที่เส้นทางทำเงินยังไม่ชัดอย่าง Llama ออกมาเหมือนกัน ส่วน Google ก็เคยลองของแพงที่เส้นทางทำเงินไม่ชัดอย่าง Waymo, Google Glass, Google Fiber, Stadia และสิ่งต่าง ๆ ที่อยู่ใน https://killedbygoogle.com
  Facebook เคยหันทั้งบริษัทไปตามวิสัยทัศน์เรื่อง metaverse แล้วก็ล้มเหลว ส่วน Google ก็เคยหันทั้งบริษัทไปตามวิสัยทัศน์เรื่อง Google Plus แล้วก็ล้มเหลว
  Facebook เปลี่ยนชื่อเป็น Meta ส่วน Google เปลี่ยนชื่อเป็น Alphabet
  Facebook มีองค์กรวิจัย AI ที่ก่อตั้งโดยศาสตราจารย์วิทยาการคอมพิวเตอร์ชาวฝรั่งเศส-อเมริกันผู้ได้รับรางวัล Turing ส่วน Google ก็มีองค์กรวิจัย AI ที่ก่อตั้งโดยศาสตราจารย์วิทยาการคอมพิวเตอร์ชาวอังกฤษ-แคนาดาผู้ได้รับรางวัล Turing
  Facebook เปิดตัว PyTorch ไลบรารีแมชชีนเลิร์นนิง Python โอเพนซอร์สชื่อแบบ CamelCase ที่มีการใช้งานแพร่หลาย ส่วน Google เปิดตัว TensorFlow ไลบรารีแมชชีนเลิร์นนิง Python โอเพนซอร์สชื่อแบบ CamelCase ที่มีการใช้งานแพร่หลาย
  บางทีทั้งคู่ก็อาจกำลังเดินตาม playbook เดียวกัน และช่วงหลังนี้การเดิมพันของ Facebook อาจแค่ดวงเข้าข้างมากกว่า
- ผู้ก่อตั้งไม่ได้เหมือนกันทุกคน ผู้ก่อตั้งบางคนเกลียดการเห็นราคาหุ้นตกมาก แม้จะยังไม่ต้องการเงินสดทันที
  และผลลัพธ์ก็ออกมาปะปนกันไป ส่วนตัวคิดว่า Zuckerberg คิดผิดเรื่อง VR แต่คิดถูกเรื่อง AI
การพูดคุยก่อนหน้านี้: https://news.ycombinator.com/item?id=41104523
- น่าแปลกใจที่ข่าวใหญ่แบบนี้หายจากหน้าแรกเร็วมาก Hacker News ดูเหมือนถูกปรับมาเพื่อคนที่เข้ามาเช็กเว็บวันละหลายครั้ง
ถ้าเมื่อแค่ 10 ปีก่อนมีใครบอกว่า Facebook จะกลายเป็นหนึ่งใน บริษัทที่สร้างนวัตกรรมแบบเปิดมากที่สุด และ Mark Zuckerberg จะกลายเป็นหนึ่งในมหาเศรษฐีที่ยังพอดูมีเหตุผลที่สุด ก็คงหัวเราะใส่อย่างแรง
แต่ตอนนี้สถานการณ์เปลี่ยนไปแล้ว ไม่ว่าความพยายามด้าน VR และ AI จะสำเร็จจริงแค่ไหน มันก็ดูเหมือนจะทิ้งร่องรอยไว้ในประวัติศาสตร์ไปแล้วระดับหนึ่ง
- พูดอย่างเป็นธรรม Meta มีประวัติยาวนานในการเปิด โอเพนซอร์ส ซอฟต์แวร์ภายใน และทำให้มันกลายเป็นมาตรฐานของอุตสาหกรรม นี่ไม่ใช่เรื่องใหม่เลย
  โดยเฉพาะในเทคโนโลยีฐานข้อมูล เช่น rocksdb, zstd compression, presto, Cassandra, Hive, Velox ล้วนเป็นสิ่งที่ Meta สร้างขึ้น
  ที่ยกมานี่เป็นแค่ตัวดัง ๆ เท่านั้น ยังมีโครงการด้านฐานข้อมูลอีกมากที่เปิดออกมาแต่ไม่ได้โด่งดังมาก
  ในฐานะบริษัทอาจมีเรื่องให้น่าบ่นเยอะ แต่ในระบบนิเวศโอเพนซอร์ส Meta เป็นผู้มีส่วนร่วมรายใหญ่มาโดยตลอด
- ชอบ Oculus นะ แต่ VR ยังไปไม่ถึงระดับ ความเป็นสากลทางวัฒนธรรม
เห็นอะไรแบบนี้ทีไรจะนึกถึง UI แผนที่วงโคจรแบบโฮโลแกรม ใน The Expanse ตลอด
มันเหมือนกระดาษแห่งอนาคตที่เชื่อมต่อกับทุกสิ่งที่เราคิดถึง และอาจเป็นเครื่องมือทรงพลังมากในการสำรวจโลก
ถ้ามีสิ่งนี้ตอนที่ยังทำงานด้านตัดต่อและโมชั่นกราฟิก คงอยากได้มากจริง ๆ
Roto Brush ของ After Effects ก็คล้ายกัน แต่คุณภาพไม่เคยพอ และใช้เวลาประมวลผลนานเกินไป
- Roto Brush ของ After Effects เป็นเครื่องมือช่วยชีวิตเลย แต่ก็มีข้อจำกัด SAM นี่เปลี่ยนเกมได้ชัดเจน
บอกว่าเปิดโค้ดแล้ว แต่หาไม่เจอนอกจากโค้ดตัวอย่าง เขาเปิด โค้ดสำหรับการฝึก ด้วยหรือเปล่า?
- ตอนที่พูดว่า “เปิดโมเดล Segment Anything 2 ที่ผ่านการพรีเทรนแล้วและโค้ด” ดูเหมือนว่าหมายถึง repository นี้: https://github.com/facebookresearch/segment-anything-2
ผลลัพธ์น่าประทับใจ นี่คือวิดีโอทดสอบที่ถ่ายภายใน Mercer Labs: https://youtu.be/W7kM0ISXkpQ?feature=shared
- ไม่แน่ใจว่ากำลังดูอะไรอยู่ และสิ่งนี้เกี่ยวข้องกับ SAM2 อย่างไร
ดูเหมือน Firefox จะไม่ได้รับการรองรับ
เราควรขอบคุณแรงงานชาวแอฟริกาหลายพันคนที่ทำงาน จัดการชุดข้อมูล แบบน่าเบื่อและซ้ำซากพวกนี้มาด้วย

Meta เปิดตัว Segment Anything Model 2

Segmentation ที่รองรับทั้งภาพและวิดีโอ

ประสิทธิภาพและประสบการณ์ใช้งานแบบโต้ตอบ

โครงสร้างโมเดลสำหรับการติดตามในวิดีโอ

ชุดข้อมูล SA-V

ทรัพยากรที่เปิดเผยและความเป็นไปได้ในการใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News