7 คะแนน โดย GN⁺ 2025-11-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัว SAM 3 ที่สามารถค้นหา แยกส่วน และติดตามวัตถุที่ต้องการในภาพและวิดีโอด้วย ข้อความ·ภาพตัวอย่าง·visual prompt
  • เปิดให้ทุกคนทดลองใช้งานได้ง่ายผ่าน Segment Anything Playground พร้อม model checkpoint, ชุดข้อมูลประเมิน และโค้ดสำหรับ fine-tuning
  • ขยายระบบนิเวศการแบ่งส่วนตามแนวคิดให้ครอบคลุมทั้ง 2D·3D ด้วยการเปิดตัวเบนช์มาร์กการแบ่งส่วนตามแนวคิดขนาดใหญ่ตัวใหม่ SA-Co และ SAM 3D
  • กำลังนำ ฟีเจอร์สร้าง·แก้ไขสื่อแบบใหม่ ที่อิงการแบ่งส่วนวัตถุไปใช้ในบริการต่าง ๆ ของ Meta เช่น Marketplace·Instagram Edits·Meta AI
  • ในฐานะโมเดลที่รวมการแบ่งส่วนตามแนวคิดด้วยข้อความและตัวอย่างเข้าด้วยกัน ทำให้มีศักยภาพสูงขึ้นในการเป็น เครื่องมือรับรู้เอนกประสงค์ สำหรับงานวิจัย อุตสาหกรรม การอนุรักษ์ และหุ่นยนต์

ภาพรวมของ SAM 3

  • เป็นโมเดลแบบรวมศูนย์ที่รับ prompt ได้หลายรูปแบบ เช่น ข้อความ·ตัวอย่างภาพ·mask·box·point เพื่อใช้ตรวจจับ แยกส่วน และติดตามแนวคิดในภาพและวิดีโอ
    • รองรับการแบ่งส่วนแบบ open-vocabulary จากวลีกลุ่มคำนามสั้น ๆ ได้โดยตรง
    • prompt ที่ซับซ้อนอย่าง “people sitting down but not holding a gift box” สามารถประมวลผลได้เมื่อทำงานร่วมกับ MLLM
  • ก้าวข้ามข้อจำกัดของ SAM เดิมที่ผูกกับชุดฉลากตายตัว โดยขยายไปสู่การแบ่งส่วน แนวคิดใดก็ได้ (promptable concept)
  • ใช้เบนช์มาร์กใหม่ SA-Co(Segment Anything with Concepts) เพื่อวัดความสามารถในการรับรู้แนวคิดขนาดใหญ่ในภาพและวิดีโอ

ความสามารถหลัก

  • รองรับการตรวจจับแนวคิดจาก text prompt และการแบ่งส่วนทุก instance
    • รองรับคำบรรยายละเอียดอย่าง “striped red umbrella”
  • สามารถนิยามแนวคิดจากวัตถุจริงผ่านภาพตัวอย่าง (exemplar)
  • คงความสามารถของ box/point/mask prompt ที่มีใน SAM 1·2
  • ใช้ MLLM เป็นเครื่องมือเพื่อทำ การสำรวจซ้ำสำหรับคำถามที่ซับซ้อน (SAM 3 Agent)

Data engine

  • สร้าง pipeline การผลิตข้อมูลแบบไฮบริด ที่ผสาน SAM 3 + มนุษย์ + AI annotator (อิง Llama 3.2v)
    • auto captioning → สร้าง text label → สร้าง mask เริ่มต้น → ตรวจสอบโดย AI/มนุษย์
    • สำหรับ negative prompt (แนวคิดที่ไม่มีอยู่) ประมวลผลได้ เร็วขึ้น 5 เท่า และสำหรับ positive prompt ก็ เร็วขึ้น 36%
  • สร้างชุดฝึกขนาดใหญ่ที่มีแนวคิดไม่ซ้ำมากกว่า 4 ล้านรายการ
  • ขยายการครอบคลุมแนวคิดหายากด้วย concept ontology ที่อิงจากวิกิ

สถาปัตยกรรมโมเดล

  • text/image encoder ใช้พื้นฐานจาก Meta Perception Encoder
  • การตรวจจับวัตถุใช้ DETR ส่วนการติดตามใช้โครงสร้าง memory bank + tracker ของ SAM 2
  • หัวใจสำคัญคือการออกแบบ recipe การฝึกที่ป้องกันการชนกันของหลายงาน (ตรวจจับ·ติดตาม·แยกส่วน) เพื่อให้ทำงานได้ในโมเดลเดียว

ประสิทธิภาพ

  • ในภาพและวิดีโอให้ผล cgF1 ดีขึ้น 2 เท่า เมื่อเทียบกับโมเดลเดิม
  • ให้ผลลัพธ์เหนือกว่าโมเดลเฉพาะทางอย่าง Gemini 2.5 Pro, GLEE, OWLv2, LLMDet
  • ในการประเมินความชอบของผู้ใช้ ผลลัพธ์จาก SAM 3 เหนือกว่าด้วยอัตรา 3:1
  • ประมวลผลภาพเดี่ยวได้ใน 30ms และในวิดีโอก็เกือบเรียลไทม์เมื่อมีวัตถุ 5 ชิ้น
  • ยืนยันประสิทธิภาพที่ดีขึ้นได้ใน zero-shot บน LVIS·CountBench เป็นต้น

กรณีใช้งานทางวิทยาศาสตร์และการใช้งานจริง

  • SA-FARI: ชุดข้อมูลสาธารณะที่รวมวิดีโอจากกล้องดักถ่ายสัตว์ป่ามากกว่า 10,000 รายการ ครอบคลุมสัตว์กว่า 100 ชนิด
  • FathomNet: เปิดตัวเบนช์มาร์กใหม่สำหรับ instance segmentation ของสิ่งมีชีวิตทางทะเล
  • Marketplace “View in Room”: ใช้ SAM 3·SAM 3D เพื่อสร้างภาพการจัดวางภายในห้อง เช่น แสงและเฟอร์นิเจอร์
  • มีแผนนำฟีเจอร์ เอฟเฟกต์วิดีโอแบบอิงวัตถุ ไปใช้ใน Instagram Edits·แอป Meta AI·meta.ai

SAM 3D

  • เปิดตัวโมเดล โค้ด และข้อมูลสำหรับ การสร้างวัตถุ·บุคคลแบบ 3D จากภาพเดี่ยว
  • รองรับ grounded reconstruction ที่คำนึงถึงบริบทของพื้นที่จริง

ข้อจำกัดและโจทย์ถัดไป

  • การทำ zero-shot generalization กับ แนวคิดเฉพาะทางละเอียดมาก (เช่น platelet) ยังมีข้อจำกัด
    • แต่สามารถปรับตัวได้รวดเร็วเมื่อ fine-tune ด้วยข้อมูลปริมาณน้อย
    • มีการเปิดซอร์ส recipe สำหรับ fine-tuning
  • รองรับประโยคสั้น ๆ ได้โดยตรง แต่คำบรรยายซับซ้อนอย่าง “top shelf second to last book” ยังต้องอาศัยการทำงานร่วมกับ MLLM
  • ในวิดีโอ ต้นทุนการประมวลผลเพิ่มขึ้นแบบเชิงเส้นตามจำนวนวัตถุ
    • การแชร์ข้อมูลความสัมพันธ์ระหว่างวัตถุเป็นจุดที่ควรพัฒนาต่อในอนาคต

Segment Anything Playground

  • แพลตฟอร์มบนเว็บที่ให้ทดลอง SAM 3 ได้โดยไม่ต้องมีความรู้เชิงเทคนิค
    • มีเทมเพลตสำหรับทำใบหน้า/ป้ายทะเบียน/หน้าจอเป็นพิกเซล, spotlight, motion trail, การขยายวัตถุเฉพาะ เป็นต้น
    • ใช้กับงาน data annotation และ stress test ได้ด้วย
  • ให้การแยกส่วนและติดตามที่เสถียรแม้กับวิดีโอ first-person จากอุปกรณ์สวมใส่ Aria Gen 2
    • นำไปใช้กับงานวิจัยด้านหุ่นยนต์และการรับรู้ที่อิงมุมมองของมนุษย์ได้

1 ความคิดเห็น

 
GN⁺ 2025-11-20
ความคิดเห็นบน Hacker News
  • รู้สึกขอบคุณที่ Meta ยังคงมีส่วนร่วมกับโอเพนซอร์สและปล่อยโมเดลแบบนี้ออกมา
    ถึงจะเข้าใจว่ามีคนมองบริษัทในแง่ลบ แต่การกระทำแบบนี้เป็นประโยชน์กับทุกคน

    • ฉันก็เห็นด้วย เคยรายงานช่องโหว่ด้านความปลอดภัยไว้ครั้งหนึ่งราวปี 2005 ตอนนั้นวัฒนธรรมองค์กรยังต่างจากตอนนี้
      ตอนนี้ดูเหมือนจะเปลี่ยนไปในทางที่เน้นชุมชนมากขึ้นมาก
    • แม้จะไม่ค่อยชอบฝั่งโซเชียลมีเดียเท่าไร แต่ก็ต้องยอมรับว่า Meta เดินหน้าเปิดเผยโมเดลได้ดี
      แล็บวิจัยขนาดใหญ่อื่น ๆ ไม่ค่อยปล่อยโมเดลกันแบบนี้
  • ความประทับใจแรกหลังได้ลองใช้คือ โมเดลนี้ยอดเยี่ยมมาก
    การตรวจจับแบบข้อความ “zero-shot” เหนือกว่าทั้งโมเดลรุ่นก่อนและ VLM รุ่นใหม่อย่าง Gemini หรือ Qwen อย่างชัดเจน
    ถ้ามีมนุษย์ช่วยกำกับ ก็น่าจะใช้เป็นteacher modelได้สบาย
    ก่อนหน้านี้ฉันเคยปรับแต่ง YOLO เพื่อใช้ตรวจจับคลाइมบิงโฮลด์ แต่ SAM3 ทำได้ราว 90% ของผลลัพธ์นั้นโดยไม่ต้องเทรนเลย
    อย่างไรก็ตาม มันยังพลาดโฮลด์ไม้ที่คอนทราสต์ต่ำหรือฟุตชิปขนาดเล็ก

    • เคยทำอะไรเกี่ยวกับแอป Stoktบ้างไหม? ตอนนี้แอปนั้นค่อนข้างดังในวงการปีนผา
    • ฉันทำงานกับแพลตฟอร์มที่ใช้ติดป้ายกำกับภาพ 1 พันล้านภาพ และคิดว่า SAM3 น่าจะทำงานอัตโนมัติได้มากกว่า 90%
      ตอนนี้โครงสร้างกำลังเปลี่ยนจากคนช่วยโมเดล เป็นโมเดลช่วยคนแทน
      อ่านเพิ่มเติมได้ในบล็อก Roboflow
  • ตัวสร้าง 3D meshก็น่าทึ่งมากเช่นกัน
    จากเดโม SAM3D มันจัดการการแยกวัตถุที่ถูกบังอย่างคนที่นั่งอยู่บนเก้าอี้ได้ดี และยังเร็วอีกด้วย

    • น่าประทับใจจริง ๆ แต่สามารถexport 3D mesh โดยตรงได้ไหม?
      ฉันได้มาแค่วิดีโอ เลยสงสัยว่าต้องซื้อโทเคนหรือเปล่า
  • กรณีใช้งานของฉันคือการติดตามลวดลายบนแผงวงจร ซึ่งโมเดลนี้ยังไม่ค่อยเก่งในจุดนั้น
    มันจัดการภาพอย่างม้าบนชายหาดได้ดี แต่ยังไม่ค่อยเหมาะกับข้อมูลอุตสาหกรรม
    คิดว่าถ้า fine-tune น่าจะดีขึ้น แต่ยังไม่ได้ลอง

    • เป็นกรณีที่น่าสนใจ มีลิงก์ตัวอย่างที่พอจะแชร์ไว้ดูอ้างอิงได้ไหม?
  • ฉันลองใช้ SAM3 กับงานลบพื้นหลังจากภาพวาดของเด็ก ๆ
    (แนะนำโปรเจกต์ที่เกี่ยวข้อง)
    แต่ BiRefNet v2 ก็ยังทำได้แม่นยำกว่าอยู่นิดหน่อย
    SAM3 ยังตัดตามเส้นได้ไม่ค่อยเป๊ะ และยังเหลือส่วนสีขาวของกระดาษติดมาบางส่วน
    ถึงอย่างนั้น SAM3 ก็ไม่ได้หยุดอยู่แค่การลบพื้นหลัง แต่ยังมีความสามารถในการรับรู้ความหมายของภาพวาดด้วย
    อาจเอาไปเชื่อมภาพวาดของเด็ก ๆ เข้ากับพฤติกรรมในเกมได้ด้วย

    • น่าสนใจที่ลองใช้ BiRefNet มาลบพื้นหลัง
      ตอนนี้คิดว่ามันเป็นโมเดลที่ดีที่สุดในด้านนี้หรือยัง? อยากรู้ทางเลือกอื่นด้วย
  • ชอบที่ในรายชื่อผู้เขียนบทความมีการระบุอย่าง “Core contributor (Alphabetical, Equal Contribution)
    การระบุความเท่าเทียมของผู้มีส่วนร่วมแบบนี้ดูน่าประทับใจ

  • ตลอด 5 ปีที่ผ่านมา ความเร็วในการพัฒนาด้านคอมพิวเตอร์วิทัศน์ค่อนข้างช้า
    ความเข้าใจภาษาขยับเข้าใกล้ระดับมนุษย์เพราะ LLM แล้ว แต่ด้านวิชันยังขาดอยู่มาก
    ทั้งการแบ่งส่วนวัตถุและการทำให้ใช้กับภาพเชิงวิทยาศาสตร์ได้ทั่วไปยังยาก และแม้จะมีข้อมูลมากพอ ก็ยังรู้สึกเหมือนขาดอะไรบางอย่าง
    อาจต้องการagency ในสภาพแวดล้อม 3Dหรือสัญญาณการเรียนรู้ที่สมบูรณ์กว่านี้ก็ได้

    • ฉันไม่ใช่ผู้เชี่ยวชาญ แต่รู้สึกว่ายังขาดworld model
      มนุษย์ไม่ได้ตัดสินจากข้อมูลภาพอย่างเดียว แต่เติมเต็มด้วยบริบทและประสบการณ์
      เช่น เวลามองเห็นเงามืดบนถนนตอนกลางคืน เราจะใช้ประสบการณ์เดิมหรือข้อมูลรอบตัวมาช่วยเดาว่ามันคือม้า หรือรั้ว
      โมเดลปัจจุบันยังขาดการอนุมานเชิงบริบทแบบนี้อยู่
    • คำพูดที่ว่า “LLM เข้าใจข้อความได้ถึงระดับมนุษย์” ก็ยังมีข้อจำกัดอยู่มาก
  • สาขาของฉันคือการแบ่งส่วน 3D volumeในภาพทางการแพทย์
    ฉันเคยลองใช้ SAM2 แบบ 2D slice แต่ยังสู้มาตรฐานปัจจุบันอย่างnnUNetไม่ได้

    • Unet เป็นโมเดลที่ถูกใช้แพร่หลายที่สุดในงานภาพทางการแพทย์ตลอด 10 ปีที่ผ่านมา
      แต่ฉันคิดว่าการผสานLLM + VLMอาจเป็นทิศทางใหม่
      ที่จริงฉันลองทดสอบเดโมนี้แล้ว และมันทำงานได้ดีพอสมควร
  • SAM3 เป็นโมเดลที่ยอดเยี่ยม
    ตอนนี้ใช้งานได้แล้วในchat.vlm.runในรูปแบบที่โต้ตอบได้มากขึ้น และ
    ยังสามารถใช้งานร่วมกับ SAM และโมเดลวิชันอื่น ๆ บนโมเดล Orionตัวใหม่ของทีมเราได้ด้วย
    อีกไม่นานจะเพิ่มความสามารถด้านvideo segmentation และ trackingเข้ามา

    • ฉันทดลองจริงแล้ว และสามารถแยกส่วนคนกับสุนัขได้ในเซสชันแชตเดียวกัน
      ตัวอย่างผลลัพธ์
  • คิดว่าด้วยlatency เฉลี่ย 4 วินาที มันอาจยังยากสำหรับวิดีโอแบบเรียลไทม์
    (อ้างอิงจากบทความที่เกี่ยวข้องบน roboflow.com)

    • ตัวเลขนั้นน่าจะเป็นเรื่องของทรัพยากรคอมพิวต์มากกว่า
      ตามบล็อกระบุว่า บน GPU H200 ใช้เวลาแค่30msในการประมวลผลภาพเดี่ยวที่มีวัตถุมากกว่า 100 ชิ้น