- เปิดตัว SAM 3 ที่สามารถค้นหา แยกส่วน และติดตามวัตถุที่ต้องการในภาพและวิดีโอด้วย ข้อความ·ภาพตัวอย่าง·visual prompt
- เปิดให้ทุกคนทดลองใช้งานได้ง่ายผ่าน Segment Anything Playground พร้อม model checkpoint, ชุดข้อมูลประเมิน และโค้ดสำหรับ fine-tuning
- ขยายระบบนิเวศการแบ่งส่วนตามแนวคิดให้ครอบคลุมทั้ง 2D·3D ด้วยการเปิดตัวเบนช์มาร์กการแบ่งส่วนตามแนวคิดขนาดใหญ่ตัวใหม่ SA-Co และ SAM 3D
- กำลังนำ ฟีเจอร์สร้าง·แก้ไขสื่อแบบใหม่ ที่อิงการแบ่งส่วนวัตถุไปใช้ในบริการต่าง ๆ ของ Meta เช่น Marketplace·Instagram Edits·Meta AI
- ในฐานะโมเดลที่รวมการแบ่งส่วนตามแนวคิดด้วยข้อความและตัวอย่างเข้าด้วยกัน ทำให้มีศักยภาพสูงขึ้นในการเป็น เครื่องมือรับรู้เอนกประสงค์ สำหรับงานวิจัย อุตสาหกรรม การอนุรักษ์ และหุ่นยนต์
ภาพรวมของ SAM 3
- เป็นโมเดลแบบรวมศูนย์ที่รับ prompt ได้หลายรูปแบบ เช่น ข้อความ·ตัวอย่างภาพ·mask·box·point เพื่อใช้ตรวจจับ แยกส่วน และติดตามแนวคิดในภาพและวิดีโอ
- รองรับการแบ่งส่วนแบบ open-vocabulary จากวลีกลุ่มคำนามสั้น ๆ ได้โดยตรง
- prompt ที่ซับซ้อนอย่าง “people sitting down but not holding a gift box” สามารถประมวลผลได้เมื่อทำงานร่วมกับ MLLM
- ก้าวข้ามข้อจำกัดของ SAM เดิมที่ผูกกับชุดฉลากตายตัว โดยขยายไปสู่การแบ่งส่วน แนวคิดใดก็ได้ (promptable concept)
- ใช้เบนช์มาร์กใหม่ SA-Co(Segment Anything with Concepts) เพื่อวัดความสามารถในการรับรู้แนวคิดขนาดใหญ่ในภาพและวิดีโอ
ความสามารถหลัก
- รองรับการตรวจจับแนวคิดจาก text prompt และการแบ่งส่วนทุก instance
- รองรับคำบรรยายละเอียดอย่าง “striped red umbrella”
- สามารถนิยามแนวคิดจากวัตถุจริงผ่านภาพตัวอย่าง (exemplar)
- คงความสามารถของ box/point/mask prompt ที่มีใน SAM 1·2
- ใช้ MLLM เป็นเครื่องมือเพื่อทำ การสำรวจซ้ำสำหรับคำถามที่ซับซ้อน (SAM 3 Agent)
Data engine
- สร้าง pipeline การผลิตข้อมูลแบบไฮบริด ที่ผสาน SAM 3 + มนุษย์ + AI annotator (อิง Llama 3.2v)
- auto captioning → สร้าง text label → สร้าง mask เริ่มต้น → ตรวจสอบโดย AI/มนุษย์
- สำหรับ negative prompt (แนวคิดที่ไม่มีอยู่) ประมวลผลได้ เร็วขึ้น 5 เท่า และสำหรับ positive prompt ก็ เร็วขึ้น 36%
- สร้างชุดฝึกขนาดใหญ่ที่มีแนวคิดไม่ซ้ำมากกว่า 4 ล้านรายการ
- ขยายการครอบคลุมแนวคิดหายากด้วย concept ontology ที่อิงจากวิกิ
สถาปัตยกรรมโมเดล
- text/image encoder ใช้พื้นฐานจาก Meta Perception Encoder
- การตรวจจับวัตถุใช้ DETR ส่วนการติดตามใช้โครงสร้าง memory bank + tracker ของ SAM 2
- หัวใจสำคัญคือการออกแบบ recipe การฝึกที่ป้องกันการชนกันของหลายงาน (ตรวจจับ·ติดตาม·แยกส่วน) เพื่อให้ทำงานได้ในโมเดลเดียว
ประสิทธิภาพ
- ในภาพและวิดีโอให้ผล cgF1 ดีขึ้น 2 เท่า เมื่อเทียบกับโมเดลเดิม
- ให้ผลลัพธ์เหนือกว่าโมเดลเฉพาะทางอย่าง Gemini 2.5 Pro, GLEE, OWLv2, LLMDet
- ในการประเมินความชอบของผู้ใช้ ผลลัพธ์จาก SAM 3 เหนือกว่าด้วยอัตรา 3:1
- ประมวลผลภาพเดี่ยวได้ใน 30ms และในวิดีโอก็เกือบเรียลไทม์เมื่อมีวัตถุ 5 ชิ้น
- ยืนยันประสิทธิภาพที่ดีขึ้นได้ใน zero-shot บน LVIS·CountBench เป็นต้น
กรณีใช้งานทางวิทยาศาสตร์และการใช้งานจริง
- SA-FARI: ชุดข้อมูลสาธารณะที่รวมวิดีโอจากกล้องดักถ่ายสัตว์ป่ามากกว่า 10,000 รายการ ครอบคลุมสัตว์กว่า 100 ชนิด
- FathomNet: เปิดตัวเบนช์มาร์กใหม่สำหรับ instance segmentation ของสิ่งมีชีวิตทางทะเล
- Marketplace “View in Room”: ใช้ SAM 3·SAM 3D เพื่อสร้างภาพการจัดวางภายในห้อง เช่น แสงและเฟอร์นิเจอร์
- มีแผนนำฟีเจอร์ เอฟเฟกต์วิดีโอแบบอิงวัตถุ ไปใช้ใน Instagram Edits·แอป Meta AI·meta.ai
SAM 3D
- เปิดตัวโมเดล โค้ด และข้อมูลสำหรับ การสร้างวัตถุ·บุคคลแบบ 3D จากภาพเดี่ยว
- รองรับ grounded reconstruction ที่คำนึงถึงบริบทของพื้นที่จริง
ข้อจำกัดและโจทย์ถัดไป
- การทำ zero-shot generalization กับ แนวคิดเฉพาะทางละเอียดมาก (เช่น platelet) ยังมีข้อจำกัด
- แต่สามารถปรับตัวได้รวดเร็วเมื่อ fine-tune ด้วยข้อมูลปริมาณน้อย
- มีการเปิดซอร์ส recipe สำหรับ fine-tuning
- รองรับประโยคสั้น ๆ ได้โดยตรง แต่คำบรรยายซับซ้อนอย่าง “top shelf second to last book” ยังต้องอาศัยการทำงานร่วมกับ MLLM
- ในวิดีโอ ต้นทุนการประมวลผลเพิ่มขึ้นแบบเชิงเส้นตามจำนวนวัตถุ
- การแชร์ข้อมูลความสัมพันธ์ระหว่างวัตถุเป็นจุดที่ควรพัฒนาต่อในอนาคต
Segment Anything Playground
- แพลตฟอร์มบนเว็บที่ให้ทดลอง SAM 3 ได้โดยไม่ต้องมีความรู้เชิงเทคนิค
- มีเทมเพลตสำหรับทำใบหน้า/ป้ายทะเบียน/หน้าจอเป็นพิกเซล, spotlight, motion trail, การขยายวัตถุเฉพาะ เป็นต้น
- ใช้กับงาน data annotation และ stress test ได้ด้วย
- ให้การแยกส่วนและติดตามที่เสถียรแม้กับวิดีโอ first-person จากอุปกรณ์สวมใส่ Aria Gen 2
- นำไปใช้กับงานวิจัยด้านหุ่นยนต์และการรับรู้ที่อิงมุมมองของมนุษย์ได้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
รู้สึกขอบคุณที่ Meta ยังคงมีส่วนร่วมกับโอเพนซอร์สและปล่อยโมเดลแบบนี้ออกมา
ถึงจะเข้าใจว่ามีคนมองบริษัทในแง่ลบ แต่การกระทำแบบนี้เป็นประโยชน์กับทุกคน
ตอนนี้ดูเหมือนจะเปลี่ยนไปในทางที่เน้นชุมชนมากขึ้นมาก
แล็บวิจัยขนาดใหญ่อื่น ๆ ไม่ค่อยปล่อยโมเดลกันแบบนี้
ความประทับใจแรกหลังได้ลองใช้คือ โมเดลนี้ยอดเยี่ยมมาก
การตรวจจับแบบข้อความ “zero-shot” เหนือกว่าทั้งโมเดลรุ่นก่อนและ VLM รุ่นใหม่อย่าง Gemini หรือ Qwen อย่างชัดเจน
ถ้ามีมนุษย์ช่วยกำกับ ก็น่าจะใช้เป็นteacher modelได้สบาย
ก่อนหน้านี้ฉันเคยปรับแต่ง YOLO เพื่อใช้ตรวจจับคลाइมบิงโฮลด์ แต่ SAM3 ทำได้ราว 90% ของผลลัพธ์นั้นโดยไม่ต้องเทรนเลย
อย่างไรก็ตาม มันยังพลาดโฮลด์ไม้ที่คอนทราสต์ต่ำหรือฟุตชิปขนาดเล็ก
ตอนนี้โครงสร้างกำลังเปลี่ยนจากคนช่วยโมเดล เป็นโมเดลช่วยคนแทน
อ่านเพิ่มเติมได้ในบล็อก Roboflow
ตัวสร้าง 3D meshก็น่าทึ่งมากเช่นกัน
จากเดโม SAM3D มันจัดการการแยกวัตถุที่ถูกบังอย่างคนที่นั่งอยู่บนเก้าอี้ได้ดี และยังเร็วอีกด้วย
ฉันได้มาแค่วิดีโอ เลยสงสัยว่าต้องซื้อโทเคนหรือเปล่า
กรณีใช้งานของฉันคือการติดตามลวดลายบนแผงวงจร ซึ่งโมเดลนี้ยังไม่ค่อยเก่งในจุดนั้น
มันจัดการภาพอย่างม้าบนชายหาดได้ดี แต่ยังไม่ค่อยเหมาะกับข้อมูลอุตสาหกรรม
คิดว่าถ้า fine-tune น่าจะดีขึ้น แต่ยังไม่ได้ลอง
ฉันลองใช้ SAM3 กับงานลบพื้นหลังจากภาพวาดของเด็ก ๆ
(แนะนำโปรเจกต์ที่เกี่ยวข้อง)
แต่ BiRefNet v2 ก็ยังทำได้แม่นยำกว่าอยู่นิดหน่อย
SAM3 ยังตัดตามเส้นได้ไม่ค่อยเป๊ะ และยังเหลือส่วนสีขาวของกระดาษติดมาบางส่วน
ถึงอย่างนั้น SAM3 ก็ไม่ได้หยุดอยู่แค่การลบพื้นหลัง แต่ยังมีความสามารถในการรับรู้ความหมายของภาพวาดด้วย
อาจเอาไปเชื่อมภาพวาดของเด็ก ๆ เข้ากับพฤติกรรมในเกมได้ด้วย
ตอนนี้คิดว่ามันเป็นโมเดลที่ดีที่สุดในด้านนี้หรือยัง? อยากรู้ทางเลือกอื่นด้วย
ชอบที่ในรายชื่อผู้เขียนบทความมีการระบุอย่าง “Core contributor (Alphabetical, Equal Contribution)”
การระบุความเท่าเทียมของผู้มีส่วนร่วมแบบนี้ดูน่าประทับใจ
ตลอด 5 ปีที่ผ่านมา ความเร็วในการพัฒนาด้านคอมพิวเตอร์วิทัศน์ค่อนข้างช้า
ความเข้าใจภาษาขยับเข้าใกล้ระดับมนุษย์เพราะ LLM แล้ว แต่ด้านวิชันยังขาดอยู่มาก
ทั้งการแบ่งส่วนวัตถุและการทำให้ใช้กับภาพเชิงวิทยาศาสตร์ได้ทั่วไปยังยาก และแม้จะมีข้อมูลมากพอ ก็ยังรู้สึกเหมือนขาดอะไรบางอย่าง
อาจต้องการagency ในสภาพแวดล้อม 3Dหรือสัญญาณการเรียนรู้ที่สมบูรณ์กว่านี้ก็ได้
มนุษย์ไม่ได้ตัดสินจากข้อมูลภาพอย่างเดียว แต่เติมเต็มด้วยบริบทและประสบการณ์
เช่น เวลามองเห็นเงามืดบนถนนตอนกลางคืน เราจะใช้ประสบการณ์เดิมหรือข้อมูลรอบตัวมาช่วยเดาว่ามันคือม้า หรือรั้ว
โมเดลปัจจุบันยังขาดการอนุมานเชิงบริบทแบบนี้อยู่
สาขาของฉันคือการแบ่งส่วน 3D volumeในภาพทางการแพทย์
ฉันเคยลองใช้ SAM2 แบบ 2D slice แต่ยังสู้มาตรฐานปัจจุบันอย่างnnUNetไม่ได้
แต่ฉันคิดว่าการผสานLLM + VLMอาจเป็นทิศทางใหม่
ที่จริงฉันลองทดสอบเดโมนี้แล้ว และมันทำงานได้ดีพอสมควร
SAM3 เป็นโมเดลที่ยอดเยี่ยม
ตอนนี้ใช้งานได้แล้วในchat.vlm.runในรูปแบบที่โต้ตอบได้มากขึ้น และ
ยังสามารถใช้งานร่วมกับ SAM และโมเดลวิชันอื่น ๆ บนโมเดล Orionตัวใหม่ของทีมเราได้ด้วย
อีกไม่นานจะเพิ่มความสามารถด้านvideo segmentation และ trackingเข้ามา
ตัวอย่างผลลัพธ์
คิดว่าด้วยlatency เฉลี่ย 4 วินาที มันอาจยังยากสำหรับวิดีโอแบบเรียลไทม์
(อ้างอิงจากบทความที่เกี่ยวข้องบน roboflow.com)
ตามบล็อกระบุว่า บน GPU H200 ใช้เวลาแค่30msในการประมวลผลภาพเดี่ยวที่มีวัตถุมากกว่า 100 ชิ้น