24 คะแนน โดย xguru 2024-10-07 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีมวิจัย AI ของ Apple พัฒนาโมเดลใหม่ชื่อ Depth Pro ซึ่งอาจยกระดับวิธีที่เครื่องจักรรับรู้ความลึกได้อย่างมาก
  • สามารถนำไปสร้างนวัตกรรมในหลากหลายอุตสาหกรรม ตั้งแต่ความจริงเสริมไปจนถึงรถยนต์ขับเคลื่อนอัตโนมัติ

คุณสมบัติเด่นของ Depth Pro

  • สร้างแผนที่ความลึก 3D ที่ละเอียดจากภาพ 2D เพียงภาพเดียวได้อย่างรวดเร็วมาก โดยไม่ต้องพึ่งพาข้อมูลจากกล้องที่เคยจำเป็นมาก่อน
  • ถือเป็นก้าวกระโดดครั้งใหญ่ในด้าน monocular depth estimation
  • สามารถนำไปใช้ได้อย่างกว้างขวางในงานที่การรับรู้เชิงพื้นที่แบบเรียลไทม์มีความสำคัญ

ประเมินความลึกได้รวดเร็วและแม่นยำแม้ไม่มีเมตาดาต้า

  • โดยทั่วไป monocular depth estimation เป็นโจทย์ที่ยาก เพราะเดิมมักต้องใช้ทั้งภาพหลายภาพหรือเมตาดาต้า เช่น ระยะโฟกัส
  • แต่ Depth Pro สามารถข้ามข้อกำหนดเหล่านี้ และสร้างแผนที่ความลึกความละเอียดสูงได้ภายใน 0.3 วินาทีบน GPU มาตรฐาน
  • สร้างแผนที่ขนาด 2.25 เมกะพิกเซลได้ด้วยความคมชัดที่โดดเด่น และจับรายละเอียดเล็กมากอย่างเส้นผมหรือพืชที่วิธีอื่นมักมองข้ามได้
  • นักวิจัยอธิบายว่า "คุณลักษณะเหล่านี้เกิดขึ้นได้จากการมีส่วนร่วมทางเทคนิคหลายด้าน รวมถึงวิชันทรานส์ฟอร์เมอร์แบบหลายสเกลที่มีประสิทธิภาพสำหรับการทำนายแบบหนาแน่น"
  • สถาปัตยกรรมนี้ประมวลผลได้ทั้งบริบทโดยรวมของภาพและรายละเอียดเล็ก ๆ พร้อมกัน จึงถือเป็นการก้าวกระโดดครั้งใหญ่เมื่อเทียบกับโมเดลรุ่นก่อนที่ช้าและแม่นยำน้อยกว่า

จุดต่างของ metric depth และ zero-shot learning

  • สิ่งที่ทำให้ Depth Pro แตกต่างอย่างแท้จริงคือความสามารถแบบ "metric depth" ที่ประเมินได้ทั้งความลึกเชิงสัมพัทธ์และความลึกเชิงสัมบูรณ์
  • นั่นหมายความว่าโมเดลสามารถให้ค่าการวัดจริงได้ ซึ่งจำเป็นอย่างยิ่งสำหรับแอปพลิเคชันอย่าง augmented reality (AR) ที่ต้องวางวัตถุเสมือนให้ตรงตำแหน่งอย่างแม่นยำในพื้นที่จริง
  • Depth Pro ไม่จำเป็นต้องอาศัยการฝึกอย่างกว้างขวางกับชุดข้อมูลเฉพาะโดเมนเพื่อให้ทำนายได้แม่นยำ ซึ่งเรียกว่า "zero-shot learning"
  • ทำให้โมเดลมีความอเนกประสงค์สูงมาก และสามารถใช้กับภาพหลากหลายประเภทได้โดยไม่ต้องมีข้อมูลเฉพาะของกล้องแบบที่โมเดลประเมินความลึกทั่วไปมักต้องใช้
  • ผู้เขียนอธิบายว่า "Depth Pro สร้างแผนที่ metric depth ที่มีสเกลสัมบูรณ์สำหรับภาพใด ๆ ในสภาพแวดล้อมจริง โดยไม่ต้องใช้เมตาดาต้า เช่น camera intrinsic parameters"
  • ความยืดหยุ่นนี้เปิดโอกาสได้หลากหลาย ตั้งแต่การยกระดับประสบการณ์ AR ไปจนถึงการปรับปรุงความสามารถในการตรวจจับและหลบหลีกสิ่งกีดขวางของรถยนต์ขับเคลื่อนอัตโนมัติ

ตัวอย่างการใช้งานจริง

  • ในอีคอมเมิร์ซ ผู้บริโภคสามารถใช้กล้องสมาร์ตโฟนส่องไปที่ห้องเพื่อดูว่าเฟอร์นิเจอร์จะเข้ากับพื้นที่อย่างไร
  • กล้องเดี่ยวของรถยนต์ขับเคลื่อนอัตโนมัติสามารถสร้างแผนที่ความลึกความละเอียดสูงแบบเรียลไทม์ เพื่อช่วยให้รับรู้สภาพแวดล้อมการขับขี่และเพิ่มความปลอดภัยได้
  • นักวิจัยเน้นว่า "ในอุดมคติ ภายใต้ระบบ zero-shot นี้ ควรสร้างแผนที่ metric depth ที่ถ่ายทอดรูปร่างของวัตถุ การจัดวางฉาก และสเกลสัมบูรณ์ได้อย่างแม่นยำ" พร้อมชี้ถึงศักยภาพในการลดเวลาและต้นทุนที่ต้องใช้ในการฝึกโมเดล AI แบบดั้งเดิม

แก้โจทย์ยากของการประเมินความลึก

  • หนึ่งในโจทย์ที่ยากที่สุดของการประเมินความลึกคือการจัดการกับปรากฏการณ์ที่เรียกว่า "flying pixels"
    • "Flying pixels" หมายถึงพิกเซลที่ดูเหมือนลอยอยู่กลางอากาศเนื่องจากข้อผิดพลาดในการทำแผนที่ความลึก
  • Depth Pro รับมือกับปัญหานี้โดยตรง จึงมีประสิทธิภาพเป็นพิเศษกับงานอย่างการสร้างภาพ 3D ใหม่หรือสภาพแวดล้อมเสมือน ที่ความแม่นยำมีความสำคัญสูงสุด
  • นอกจากนี้ Depth Pro ยังทำผลงานได้ยอดเยี่ยมในการติดตามขอบเขต โดยความสามารถในการถ่ายทอดวัตถุและขอบของมันอย่างคมชัดเหนือกว่าโมเดลก่อนหน้า
  • นักวิจัยระบุว่า Depth Pro "เหนือกว่าระบบอื่นในด้านความแม่นยำของขอบแบบเป็นเท่าทวีคูณ" ซึ่งเป็นจุดสำคัญสำหรับแอปพลิเคชันที่ต้องการการแยกวัตถุอย่างแม่นยำ เช่น image matting หรือภาพทางการแพทย์

การเปิดเป็นโอเพนซอร์สและความสามารถในการขยายต่อ

  • Apple เปิดให้ Depth Pro เป็นโอเพนซอร์สเพื่อเร่งการนำเทคโนโลยีไปใช้งาน
  • มีทั้งโค้ดและน้ำหนักโมเดลที่ pre-trained บน GitHub ทำให้นักพัฒนาและนักวิจัยทดลองและต่อยอดได้ง่าย
  • พร้อมส่งเสริมการสำรวจศักยภาพในหลากหลายสาขา เช่น หุ่นยนต์ การผลิต และเฮลท์แคร์

อนาคตของ AI ด้านการรับรู้ความลึก

  • Depth Pro สร้างมาตรฐานใหม่ทั้งด้านความเร็วและความแม่นยำในวงการ monocular depth estimation
  • ความสามารถในการสร้างแผนที่ความลึกคุณภาพสูงแบบเรียลไทม์จากภาพเดียวจะส่งผลอย่างมากต่ออุตสาหกรรมที่พึ่งพาการรับรู้เชิงพื้นที่
  • ในฐานะโอเพนซอร์ส Depth Pro มีแนวโน้มจะกลายเป็นเทคโนโลยีหลักในหลายอุตสาหกรรม ตั้งแต่การขับขี่อัตโนมัติไปจนถึง augmented reality

5 ความคิดเห็น

 
plaaat0102 2024-10-07

เหมือนว่า... ควรจะเป็นชื่อ Meta แทน Apple มากกว่านะครับ..

 
savvykang 2024-10-07

ทำให้นึกถึง Microsoft Photosynth (2006) เลยครับ

 
is9117 2024-10-07

ที่ Tesla AI ผมเข้าใจว่าพวกเขากำลังแก้ปัญหาเรื่องการรับรู้ความลึกแบบนี้ด้วยการนำ multi-view และ NeRF มาใช้สร้างโมเดล occupancy network อยู่ จึงน่าสนใจว่าในบริษัทเชิงพาณิชย์แบบนี้จะนำโมเดลดังกล่าวไปใช้งานอย่างไรและจะพัฒนาต่อยอดมันอย่างไรต่อไป

 
nemorize 2024-10-07

ว้าว..

 
eususu 2024-10-07

ตอนที่ LLM กำลังมาแรงมาก ๆ ก็เงียบจนแอบสงสัยว่าไปทำอะไรอยู่ ที่แท้คงกำลังขุดลึกอยู่ทางนี้นี่เอง