- ทีมวิจัย AI ของ Apple พัฒนาโมเดลใหม่ชื่อ Depth Pro ซึ่งอาจยกระดับวิธีที่เครื่องจักรรับรู้ความลึกได้อย่างมาก
- สามารถนำไปสร้างนวัตกรรมในหลากหลายอุตสาหกรรม ตั้งแต่ความจริงเสริมไปจนถึงรถยนต์ขับเคลื่อนอัตโนมัติ
คุณสมบัติเด่นของ Depth Pro
- สร้างแผนที่ความลึก 3D ที่ละเอียดจากภาพ 2D เพียงภาพเดียวได้อย่างรวดเร็วมาก โดยไม่ต้องพึ่งพาข้อมูลจากกล้องที่เคยจำเป็นมาก่อน
- ถือเป็นก้าวกระโดดครั้งใหญ่ในด้าน monocular depth estimation
- สามารถนำไปใช้ได้อย่างกว้างขวางในงานที่การรับรู้เชิงพื้นที่แบบเรียลไทม์มีความสำคัญ
ประเมินความลึกได้รวดเร็วและแม่นยำแม้ไม่มีเมตาดาต้า
- โดยทั่วไป monocular depth estimation เป็นโจทย์ที่ยาก เพราะเดิมมักต้องใช้ทั้งภาพหลายภาพหรือเมตาดาต้า เช่น ระยะโฟกัส
- แต่ Depth Pro สามารถข้ามข้อกำหนดเหล่านี้ และสร้างแผนที่ความลึกความละเอียดสูงได้ภายใน 0.3 วินาทีบน GPU มาตรฐาน
- สร้างแผนที่ขนาด 2.25 เมกะพิกเซลได้ด้วยความคมชัดที่โดดเด่น และจับรายละเอียดเล็กมากอย่างเส้นผมหรือพืชที่วิธีอื่นมักมองข้ามได้
- นักวิจัยอธิบายว่า "คุณลักษณะเหล่านี้เกิดขึ้นได้จากการมีส่วนร่วมทางเทคนิคหลายด้าน รวมถึงวิชันทรานส์ฟอร์เมอร์แบบหลายสเกลที่มีประสิทธิภาพสำหรับการทำนายแบบหนาแน่น"
- สถาปัตยกรรมนี้ประมวลผลได้ทั้งบริบทโดยรวมของภาพและรายละเอียดเล็ก ๆ พร้อมกัน จึงถือเป็นการก้าวกระโดดครั้งใหญ่เมื่อเทียบกับโมเดลรุ่นก่อนที่ช้าและแม่นยำน้อยกว่า
จุดต่างของ metric depth และ zero-shot learning
- สิ่งที่ทำให้ Depth Pro แตกต่างอย่างแท้จริงคือความสามารถแบบ "metric depth" ที่ประเมินได้ทั้งความลึกเชิงสัมพัทธ์และความลึกเชิงสัมบูรณ์
- นั่นหมายความว่าโมเดลสามารถให้ค่าการวัดจริงได้ ซึ่งจำเป็นอย่างยิ่งสำหรับแอปพลิเคชันอย่าง augmented reality (AR) ที่ต้องวางวัตถุเสมือนให้ตรงตำแหน่งอย่างแม่นยำในพื้นที่จริง
- Depth Pro ไม่จำเป็นต้องอาศัยการฝึกอย่างกว้างขวางกับชุดข้อมูลเฉพาะโดเมนเพื่อให้ทำนายได้แม่นยำ ซึ่งเรียกว่า "zero-shot learning"
- ทำให้โมเดลมีความอเนกประสงค์สูงมาก และสามารถใช้กับภาพหลากหลายประเภทได้โดยไม่ต้องมีข้อมูลเฉพาะของกล้องแบบที่โมเดลประเมินความลึกทั่วไปมักต้องใช้
- ผู้เขียนอธิบายว่า "Depth Pro สร้างแผนที่ metric depth ที่มีสเกลสัมบูรณ์สำหรับภาพใด ๆ ในสภาพแวดล้อมจริง โดยไม่ต้องใช้เมตาดาต้า เช่น camera intrinsic parameters"
- ความยืดหยุ่นนี้เปิดโอกาสได้หลากหลาย ตั้งแต่การยกระดับประสบการณ์ AR ไปจนถึงการปรับปรุงความสามารถในการตรวจจับและหลบหลีกสิ่งกีดขวางของรถยนต์ขับเคลื่อนอัตโนมัติ
ตัวอย่างการใช้งานจริง
- ในอีคอมเมิร์ซ ผู้บริโภคสามารถใช้กล้องสมาร์ตโฟนส่องไปที่ห้องเพื่อดูว่าเฟอร์นิเจอร์จะเข้ากับพื้นที่อย่างไร
- กล้องเดี่ยวของรถยนต์ขับเคลื่อนอัตโนมัติสามารถสร้างแผนที่ความลึกความละเอียดสูงแบบเรียลไทม์ เพื่อช่วยให้รับรู้สภาพแวดล้อมการขับขี่และเพิ่มความปลอดภัยได้
- นักวิจัยเน้นว่า "ในอุดมคติ ภายใต้ระบบ zero-shot นี้ ควรสร้างแผนที่ metric depth ที่ถ่ายทอดรูปร่างของวัตถุ การจัดวางฉาก และสเกลสัมบูรณ์ได้อย่างแม่นยำ" พร้อมชี้ถึงศักยภาพในการลดเวลาและต้นทุนที่ต้องใช้ในการฝึกโมเดล AI แบบดั้งเดิม
แก้โจทย์ยากของการประเมินความลึก
- หนึ่งในโจทย์ที่ยากที่สุดของการประเมินความลึกคือการจัดการกับปรากฏการณ์ที่เรียกว่า "flying pixels"
- "Flying pixels" หมายถึงพิกเซลที่ดูเหมือนลอยอยู่กลางอากาศเนื่องจากข้อผิดพลาดในการทำแผนที่ความลึก
- Depth Pro รับมือกับปัญหานี้โดยตรง จึงมีประสิทธิภาพเป็นพิเศษกับงานอย่างการสร้างภาพ 3D ใหม่หรือสภาพแวดล้อมเสมือน ที่ความแม่นยำมีความสำคัญสูงสุด
- นอกจากนี้ Depth Pro ยังทำผลงานได้ยอดเยี่ยมในการติดตามขอบเขต โดยความสามารถในการถ่ายทอดวัตถุและขอบของมันอย่างคมชัดเหนือกว่าโมเดลก่อนหน้า
- นักวิจัยระบุว่า Depth Pro "เหนือกว่าระบบอื่นในด้านความแม่นยำของขอบแบบเป็นเท่าทวีคูณ" ซึ่งเป็นจุดสำคัญสำหรับแอปพลิเคชันที่ต้องการการแยกวัตถุอย่างแม่นยำ เช่น image matting หรือภาพทางการแพทย์
การเปิดเป็นโอเพนซอร์สและความสามารถในการขยายต่อ
- Apple เปิดให้ Depth Pro เป็นโอเพนซอร์สเพื่อเร่งการนำเทคโนโลยีไปใช้งาน
- มีทั้งโค้ดและน้ำหนักโมเดลที่ pre-trained บน GitHub ทำให้นักพัฒนาและนักวิจัยทดลองและต่อยอดได้ง่าย
- พร้อมส่งเสริมการสำรวจศักยภาพในหลากหลายสาขา เช่น หุ่นยนต์ การผลิต และเฮลท์แคร์
อนาคตของ AI ด้านการรับรู้ความลึก
- Depth Pro สร้างมาตรฐานใหม่ทั้งด้านความเร็วและความแม่นยำในวงการ monocular depth estimation
- ความสามารถในการสร้างแผนที่ความลึกคุณภาพสูงแบบเรียลไทม์จากภาพเดียวจะส่งผลอย่างมากต่ออุตสาหกรรมที่พึ่งพาการรับรู้เชิงพื้นที่
- ในฐานะโอเพนซอร์ส Depth Pro มีแนวโน้มจะกลายเป็นเทคโนโลยีหลักในหลายอุตสาหกรรม ตั้งแต่การขับขี่อัตโนมัติไปจนถึง augmented reality
5 ความคิดเห็น
เหมือนว่า... ควรจะเป็นชื่อ Meta แทน Apple มากกว่านะครับ..
ทำให้นึกถึง Microsoft Photosynth (2006) เลยครับ
ที่ Tesla AI ผมเข้าใจว่าพวกเขากำลังแก้ปัญหาเรื่องการรับรู้ความลึกแบบนี้ด้วยการนำ multi-view และ NeRF มาใช้สร้างโมเดล occupancy network อยู่ จึงน่าสนใจว่าในบริษัทเชิงพาณิชย์แบบนี้จะนำโมเดลดังกล่าวไปใช้งานอย่างไรและจะพัฒนาต่อยอดมันอย่างไรต่อไป
ว้าว..
ตอนที่ LLM กำลังมาแรงมาก ๆ ก็เงียบจนแอบสงสัยว่าไปทำอะไรอยู่ ที่แท้คงกำลังขุดลึกอยู่ทางนี้นี่เอง