Meta เปิดตัว Segment Anything Model 3 (SAM 3)

(ai.meta.com)

7 คะแนน โดย GN⁺ 2025-11-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัว SAM 3 ที่สามารถค้นหา แยกส่วน และติดตามวัตถุที่ต้องการในภาพและวิดีโอด้วย ข้อความ·ภาพตัวอย่าง·visual prompt
เปิดให้ทุกคนทดลองใช้งานได้ง่ายผ่าน Segment Anything Playground พร้อม model checkpoint, ชุดข้อมูลประเมิน และโค้ดสำหรับ fine-tuning
ขยายระบบนิเวศการแบ่งส่วนตามแนวคิดให้ครอบคลุมทั้ง 2D·3D ด้วยการเปิดตัวเบนช์มาร์กการแบ่งส่วนตามแนวคิดขนาดใหญ่ตัวใหม่ SA-Co และ SAM 3D
กำลังนำ ฟีเจอร์สร้าง·แก้ไขสื่อแบบใหม่ ที่อิงการแบ่งส่วนวัตถุไปใช้ในบริการต่าง ๆ ของ Meta เช่น Marketplace·Instagram Edits·Meta AI
ในฐานะโมเดลที่รวมการแบ่งส่วนตามแนวคิดด้วยข้อความและตัวอย่างเข้าด้วยกัน ทำให้มีศักยภาพสูงขึ้นในการเป็น เครื่องมือรับรู้เอนกประสงค์ สำหรับงานวิจัย อุตสาหกรรม การอนุรักษ์ และหุ่นยนต์

ภาพรวมของ SAM 3

เป็นโมเดลแบบรวมศูนย์ที่รับ prompt ได้หลายรูปแบบ เช่น ข้อความ·ตัวอย่างภาพ·mask·box·point เพื่อใช้ตรวจจับ แยกส่วน และติดตามแนวคิดในภาพและวิดีโอ
- รองรับการแบ่งส่วนแบบ open-vocabulary จากวลีกลุ่มคำนามสั้น ๆ ได้โดยตรง
- prompt ที่ซับซ้อนอย่าง “people sitting down but not holding a gift box” สามารถประมวลผลได้เมื่อทำงานร่วมกับ MLLM
ก้าวข้ามข้อจำกัดของ SAM เดิมที่ผูกกับชุดฉลากตายตัว โดยขยายไปสู่การแบ่งส่วน แนวคิดใดก็ได้ (promptable concept)
ใช้เบนช์มาร์กใหม่ SA-Co(Segment Anything with Concepts) เพื่อวัดความสามารถในการรับรู้แนวคิดขนาดใหญ่ในภาพและวิดีโอ

ความสามารถหลัก

รองรับการตรวจจับแนวคิดจาก text prompt และการแบ่งส่วนทุก instance
- รองรับคำบรรยายละเอียดอย่าง “striped red umbrella”
สามารถนิยามแนวคิดจากวัตถุจริงผ่านภาพตัวอย่าง (exemplar)
คงความสามารถของ box/point/mask prompt ที่มีใน SAM 1·2
ใช้ MLLM เป็นเครื่องมือเพื่อทำ การสำรวจซ้ำสำหรับคำถามที่ซับซ้อน (SAM 3 Agent)

Data engine

สร้าง pipeline การผลิตข้อมูลแบบไฮบริด ที่ผสาน SAM 3 + มนุษย์ + AI annotator (อิง Llama 3.2v)
- auto captioning → สร้าง text label → สร้าง mask เริ่มต้น → ตรวจสอบโดย AI/มนุษย์
- สำหรับ negative prompt (แนวคิดที่ไม่มีอยู่) ประมวลผลได้ เร็วขึ้น 5 เท่า และสำหรับ positive prompt ก็ เร็วขึ้น 36%
สร้างชุดฝึกขนาดใหญ่ที่มีแนวคิดไม่ซ้ำมากกว่า 4 ล้านรายการ
ขยายการครอบคลุมแนวคิดหายากด้วย concept ontology ที่อิงจากวิกิ

สถาปัตยกรรมโมเดล

text/image encoder ใช้พื้นฐานจาก Meta Perception Encoder
การตรวจจับวัตถุใช้ DETR ส่วนการติดตามใช้โครงสร้าง memory bank + tracker ของ SAM 2
หัวใจสำคัญคือการออกแบบ recipe การฝึกที่ป้องกันการชนกันของหลายงาน (ตรวจจับ·ติดตาม·แยกส่วน) เพื่อให้ทำงานได้ในโมเดลเดียว

ประสิทธิภาพ

ในภาพและวิดีโอให้ผล cgF1 ดีขึ้น 2 เท่า เมื่อเทียบกับโมเดลเดิม
ให้ผลลัพธ์เหนือกว่าโมเดลเฉพาะทางอย่าง Gemini 2.5 Pro, GLEE, OWLv2, LLMDet
ในการประเมินความชอบของผู้ใช้ ผลลัพธ์จาก SAM 3 เหนือกว่าด้วยอัตรา 3:1
ประมวลผลภาพเดี่ยวได้ใน 30ms และในวิดีโอก็เกือบเรียลไทม์เมื่อมีวัตถุ 5 ชิ้น
ยืนยันประสิทธิภาพที่ดีขึ้นได้ใน zero-shot บน LVIS·CountBench เป็นต้น

กรณีใช้งานทางวิทยาศาสตร์และการใช้งานจริง

SA-FARI: ชุดข้อมูลสาธารณะที่รวมวิดีโอจากกล้องดักถ่ายสัตว์ป่ามากกว่า 10,000 รายการ ครอบคลุมสัตว์กว่า 100 ชนิด
FathomNet: เปิดตัวเบนช์มาร์กใหม่สำหรับ instance segmentation ของสิ่งมีชีวิตทางทะเล
Marketplace “View in Room”: ใช้ SAM 3·SAM 3D เพื่อสร้างภาพการจัดวางภายในห้อง เช่น แสงและเฟอร์นิเจอร์
มีแผนนำฟีเจอร์ เอฟเฟกต์วิดีโอแบบอิงวัตถุ ไปใช้ใน Instagram Edits·แอป Meta AI·meta.ai

SAM 3D

เปิดตัวโมเดล โค้ด และข้อมูลสำหรับ การสร้างวัตถุ·บุคคลแบบ 3D จากภาพเดี่ยว
รองรับ grounded reconstruction ที่คำนึงถึงบริบทของพื้นที่จริง

ข้อจำกัดและโจทย์ถัดไป

การทำ zero-shot generalization กับ แนวคิดเฉพาะทางละเอียดมาก (เช่น platelet) ยังมีข้อจำกัด
- แต่สามารถปรับตัวได้รวดเร็วเมื่อ fine-tune ด้วยข้อมูลปริมาณน้อย
- มีการเปิดซอร์ส recipe สำหรับ fine-tuning
รองรับประโยคสั้น ๆ ได้โดยตรง แต่คำบรรยายซับซ้อนอย่าง “top shelf second to last book” ยังต้องอาศัยการทำงานร่วมกับ MLLM
ในวิดีโอ ต้นทุนการประมวลผลเพิ่มขึ้นแบบเชิงเส้นตามจำนวนวัตถุ
- การแชร์ข้อมูลความสัมพันธ์ระหว่างวัตถุเป็นจุดที่ควรพัฒนาต่อในอนาคต

Segment Anything Playground

แพลตฟอร์มบนเว็บที่ให้ทดลอง SAM 3 ได้โดยไม่ต้องมีความรู้เชิงเทคนิค
- มีเทมเพลตสำหรับทำใบหน้า/ป้ายทะเบียน/หน้าจอเป็นพิกเซล, spotlight, motion trail, การขยายวัตถุเฉพาะ เป็นต้น
- ใช้กับงาน data annotation และ stress test ได้ด้วย
ให้การแยกส่วนและติดตามที่เสถียรแม้กับวิดีโอ first-person จากอุปกรณ์สวมใส่ Aria Gen 2
- นำไปใช้กับงานวิจัยด้านหุ่นยนต์และการรับรู้ที่อิงมุมมองของมนุษย์ได้

1 ความคิดเห็น

GN⁺ 2025-11-20

ความคิดเห็นบน Hacker News

รู้สึกขอบคุณที่ Meta ยังคงมีส่วนร่วมกับโอเพนซอร์สและปล่อยโมเดลแบบนี้ออกมา
ถึงจะเข้าใจว่ามีคนมองบริษัทในแง่ลบ แต่การกระทำแบบนี้เป็นประโยชน์กับทุกคน
- ฉันก็เห็นด้วย เคยรายงานช่องโหว่ด้านความปลอดภัยไว้ครั้งหนึ่งราวปี 2005 ตอนนั้นวัฒนธรรมองค์กรยังต่างจากตอนนี้
  ตอนนี้ดูเหมือนจะเปลี่ยนไปในทางที่เน้นชุมชนมากขึ้นมาก
- แม้จะไม่ค่อยชอบฝั่งโซเชียลมีเดียเท่าไร แต่ก็ต้องยอมรับว่า Meta เดินหน้าเปิดเผยโมเดลได้ดี
  แล็บวิจัยขนาดใหญ่อื่น ๆ ไม่ค่อยปล่อยโมเดลกันแบบนี้
ความประทับใจแรกหลังได้ลองใช้คือ โมเดลนี้ยอดเยี่ยมมาก
การตรวจจับแบบข้อความ “zero-shot” เหนือกว่าทั้งโมเดลรุ่นก่อนและ VLM รุ่นใหม่อย่าง Gemini หรือ Qwen อย่างชัดเจน
ถ้ามีมนุษย์ช่วยกำกับ ก็น่าจะใช้เป็นteacher modelได้สบาย
ก่อนหน้านี้ฉันเคยปรับแต่ง YOLO เพื่อใช้ตรวจจับคลाइมบิงโฮลด์ แต่ SAM3 ทำได้ราว 90% ของผลลัพธ์นั้นโดยไม่ต้องเทรนเลย
อย่างไรก็ตาม มันยังพลาดโฮลด์ไม้ที่คอนทราสต์ต่ำหรือฟุตชิปขนาดเล็ก
- เคยทำอะไรเกี่ยวกับแอป Stoktบ้างไหม? ตอนนี้แอปนั้นค่อนข้างดังในวงการปีนผา
- ฉันทำงานกับแพลตฟอร์มที่ใช้ติดป้ายกำกับภาพ 1 พันล้านภาพ และคิดว่า SAM3 น่าจะทำงานอัตโนมัติได้มากกว่า 90%
  ตอนนี้โครงสร้างกำลังเปลี่ยนจากคนช่วยโมเดล เป็นโมเดลช่วยคนแทน
  อ่านเพิ่มเติมได้ในบล็อก Roboflow
ตัวสร้าง 3D meshก็น่าทึ่งมากเช่นกัน
จากเดโม SAM3D มันจัดการการแยกวัตถุที่ถูกบังอย่างคนที่นั่งอยู่บนเก้าอี้ได้ดี และยังเร็วอีกด้วย
- น่าประทับใจจริง ๆ แต่สามารถexport 3D mesh โดยตรงได้ไหม?
  ฉันได้มาแค่วิดีโอ เลยสงสัยว่าต้องซื้อโทเคนหรือเปล่า
กรณีใช้งานของฉันคือการติดตามลวดลายบนแผงวงจร ซึ่งโมเดลนี้ยังไม่ค่อยเก่งในจุดนั้น
มันจัดการภาพอย่างม้าบนชายหาดได้ดี แต่ยังไม่ค่อยเหมาะกับข้อมูลอุตสาหกรรม
คิดว่าถ้า fine-tune น่าจะดีขึ้น แต่ยังไม่ได้ลอง
- เป็นกรณีที่น่าสนใจ มีลิงก์ตัวอย่างที่พอจะแชร์ไว้ดูอ้างอิงได้ไหม?
ฉันลองใช้ SAM3 กับงานลบพื้นหลังจากภาพวาดของเด็ก ๆ
(แนะนำโปรเจกต์ที่เกี่ยวข้อง)
แต่ BiRefNet v2 ก็ยังทำได้แม่นยำกว่าอยู่นิดหน่อย
SAM3 ยังตัดตามเส้นได้ไม่ค่อยเป๊ะ และยังเหลือส่วนสีขาวของกระดาษติดมาบางส่วน
ถึงอย่างนั้น SAM3 ก็ไม่ได้หยุดอยู่แค่การลบพื้นหลัง แต่ยังมีความสามารถในการรับรู้ความหมายของภาพวาดด้วย
อาจเอาไปเชื่อมภาพวาดของเด็ก ๆ เข้ากับพฤติกรรมในเกมได้ด้วย
- น่าสนใจที่ลองใช้ BiRefNet มาลบพื้นหลัง
  ตอนนี้คิดว่ามันเป็นโมเดลที่ดีที่สุดในด้านนี้หรือยัง? อยากรู้ทางเลือกอื่นด้วย
ชอบที่ในรายชื่อผู้เขียนบทความมีการระบุอย่าง “Core contributor (Alphabetical, Equal Contribution)”
การระบุความเท่าเทียมของผู้มีส่วนร่วมแบบนี้ดูน่าประทับใจ
ตลอด 5 ปีที่ผ่านมา ความเร็วในการพัฒนาด้านคอมพิวเตอร์วิทัศน์ค่อนข้างช้า
ความเข้าใจภาษาขยับเข้าใกล้ระดับมนุษย์เพราะ LLM แล้ว แต่ด้านวิชันยังขาดอยู่มาก
ทั้งการแบ่งส่วนวัตถุและการทำให้ใช้กับภาพเชิงวิทยาศาสตร์ได้ทั่วไปยังยาก และแม้จะมีข้อมูลมากพอ ก็ยังรู้สึกเหมือนขาดอะไรบางอย่าง
อาจต้องการagency ในสภาพแวดล้อม 3Dหรือสัญญาณการเรียนรู้ที่สมบูรณ์กว่านี้ก็ได้
- ฉันไม่ใช่ผู้เชี่ยวชาญ แต่รู้สึกว่ายังขาดworld model
  มนุษย์ไม่ได้ตัดสินจากข้อมูลภาพอย่างเดียว แต่เติมเต็มด้วยบริบทและประสบการณ์
  เช่น เวลามองเห็นเงามืดบนถนนตอนกลางคืน เราจะใช้ประสบการณ์เดิมหรือข้อมูลรอบตัวมาช่วยเดาว่ามันคือม้า หรือรั้ว
  โมเดลปัจจุบันยังขาดการอนุมานเชิงบริบทแบบนี้อยู่
- คำพูดที่ว่า “LLM เข้าใจข้อความได้ถึงระดับมนุษย์” ก็ยังมีข้อจำกัดอยู่มาก
สาขาของฉันคือการแบ่งส่วน 3D volumeในภาพทางการแพทย์
ฉันเคยลองใช้ SAM2 แบบ 2D slice แต่ยังสู้มาตรฐานปัจจุบันอย่างnnUNetไม่ได้
- Unet เป็นโมเดลที่ถูกใช้แพร่หลายที่สุดในงานภาพทางการแพทย์ตลอด 10 ปีที่ผ่านมา
  แต่ฉันคิดว่าการผสานLLM + VLMอาจเป็นทิศทางใหม่
  ที่จริงฉันลองทดสอบเดโมนี้แล้ว และมันทำงานได้ดีพอสมควร
SAM3 เป็นโมเดลที่ยอดเยี่ยม
ตอนนี้ใช้งานได้แล้วในchat.vlm.runในรูปแบบที่โต้ตอบได้มากขึ้น และ
ยังสามารถใช้งานร่วมกับ SAM และโมเดลวิชันอื่น ๆ บนโมเดล Orionตัวใหม่ของทีมเราได้ด้วย
อีกไม่นานจะเพิ่มความสามารถด้านvideo segmentation และ trackingเข้ามา
- ฉันทดลองจริงแล้ว และสามารถแยกส่วนคนกับสุนัขได้ในเซสชันแชตเดียวกัน
  ตัวอย่างผลลัพธ์
คิดว่าด้วยlatency เฉลี่ย 4 วินาที มันอาจยังยากสำหรับวิดีโอแบบเรียลไทม์
(อ้างอิงจากบทความที่เกี่ยวข้องบน roboflow.com)
- ตัวเลขนั้นน่าจะเป็นเรื่องของทรัพยากรคอมพิวต์มากกว่า
  ตามบล็อกระบุว่า บน GPU H200 ใช้เวลาแค่30msในการประมวลผลภาพเดี่ยวที่มีวัตถุมากกว่า 100 ชิ้น

Meta เปิดตัว Segment Anything Model 3 (SAM 3)

ภาพรวมของ SAM 3

ความสามารถหลัก

Data engine

สถาปัตยกรรมโมเดล

ประสิทธิภาพ

กรณีใช้งานทางวิทยาศาสตร์และการใช้งานจริง

SAM 3D

ข้อจำกัดและโจทย์ถัดไป

Segment Anything Playground

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News