Apple เปิดตัว Depth Pro: โมเดล AI ที่นิยามกติกาใหม่ของวิสัยทัศน์ 3D

xguru · 2024-10-07T09:51:02+09:00

ทีมวิจัย AI ของ Apple พัฒนาโมเดลใหม่ชื่อ Depth Pro ซึ่งอาจยกระดับวิธีที่เครื่องจักรรับรู้ความลึกได้อย่างมาก สามารถนำไปสร้างนวัตกรรมในหลากหลายอุตสาหกรรม ตั้งแต่ความจริงเสริมไปจนถึงรถยนต์ขับเคลื่อนอัตโนมัติ คุณสมบัติเด่นของ Depth Pro สร้างแผนที่ความลึก 3D ที่ละเอียดจากภาพ 2D เพียงภาพเดียวได้อย่างรวดเร็วมาก โดยไม่ต้องพึ่งพาข้อมูลจากกล้องที่เคยจำเป็นมาก่อน ถือเป็นก้าวกระโดดครั้งใหญ่ในด้าน monocular depth estimation สามารถนำไปใช้ได้อย่างกว้างขวางในงานที่การรับรู้เชิงพื้นที่แบบเรียลไทม์มีความสำคัญ ประเมินความลึกได้รวดเร็วและแม่นยำแม้ไม่มีเมตาดาต้า โดยทั่วไป monocular depth estimation เป็นโจทย์ที่ยาก เพราะเดิมมักต้องใช้ทั้งภาพหลายภาพหรือเมตาดาต้า เช่น ระยะโฟกัส แต่ Depth Pro สามารถข้ามข้อกำหนดเหล่านี้ และสร้างแผนที่ความลึกความละเอียดสูงได้ภายใน 0.3 วินาทีบน GPU มาตรฐาน สร้างแผนที่ขนาด 2.25 เมกะพิกเซลได้ด้วยความคมชัดที่โดดเด่น และจับรายละเอียดเล็กมากอย่างเส้นผมหรือพืชที่วิธีอื่นมักมองข้ามได้ นักวิจัยอธิบายว่า "คุณลักษณะเหล่านี้เกิดขึ้นได้จากการมีส่วนร่วมทางเทคนิคหลายด้าน รวมถึงวิชันทรานส์ฟอร์เมอร์แบบหลายสเกลที่มีประสิทธิภาพสำหรับการทำนายแบบหนาแน่น" สถาปัตยกรรมนี้ประมวลผลได้ทั้งบริบทโดยรวมของภาพและรายละเอียดเล็ก ๆ พร้อมกัน จึงถือเป็นการก้าวกระโดดครั้งใหญ่เมื่อเทียบกับโมเดลรุ่นก่อนที่ช้าและแม่นยำน้อยกว่า จุดต่างของ metric depth และ zero-shot learning สิ่งที่ทำให้ Depth Pro แตกต่างอย่างแท้จริงคือความสามารถแบบ "metric depth" ที่ประเมินได้ทั้งความลึกเชิงสัมพัทธ์และความลึกเชิงสัมบูรณ์ นั่นหมายความว่าโมเดลสามารถให้ค่าการวัดจริงได้ ซึ่งจำเป็นอย่างยิ่งสำหรับแอปพลิเคชันอย่าง augmented reality (AR) ที่ต้องวางวัตถุเสมือนให้ตรงตำแหน่งอย่างแม่นยำในพื้นที่จริง Depth Pro ไม่จำเป็นต้องอาศัยการฝึกอย่างกว้างขวางกับชุดข้อมูลเฉพาะโดเมนเพื่อให้ทำนายได้แม่นยำ ซึ่งเรียกว่า "zero-shot learning" ทำให้โมเดลมีความอเนกประสงค์สูงมาก และสามารถใช้กับภาพหลากหลายประเภทได้โดยไม่ต้องมีข้อมูลเฉพาะของกล้องแบบที่โมเดลประเมินความลึกทั่วไปมักต้องใช้ ผู้เขียนอธิบายว่า "Depth Pro สร้างแผนที่ metric depth ที่มีสเกลสัมบูรณ์สำหรับภาพใด ๆ ในสภาพแวดล้อมจริง โดยไม่ต้องใช้เมตาดาต้า เช่น camera intrinsic parameters" ความยืดหยุ่นนี้เปิดโอกาสได้หลากหลาย ตั้งแต่การยกระดับประสบการณ์ AR ไปจนถึงการปรับปรุงความสามารถในการตรวจจับและหลบหลีกสิ่งกีดขวางของรถยนต์ขับเคลื่อนอัตโนมัติ ตัวอย่างการใช้งานจริง ในอีคอมเมิร์ซ ผู้บริโภคสามารถใช้กล้องสมาร์ตโฟนส่องไปที่ห้องเพื่อดูว่าเฟอร์นิเจอร์จะเข้ากับพื้นที่อย่างไร กล้องเดี่ยวของรถยนต์ขับเคลื่อนอัตโนมัติสามารถสร้างแผนที่ความลึกความละเอียดสูงแบบเรียลไทม์ เพื่อช่วยให้รับรู้สภาพแวดล้อมการขับขี่และเพิ่มความปลอดภัยได้ นักวิจัยเน้นว่า "ในอุดมคติ ภายใต้ระบบ zero-shot นี้ ควรสร้างแผนที่ metric depth ที่ถ่ายทอดรูปร่างของวัตถุ การจัดวางฉาก และสเกลสัมบูรณ์ได้อย่างแม่นยำ" พร้อมชี้ถึงศักยภาพในการลดเวลาและต้นทุนที่ต้องใช้ในการฝึกโมเดล AI แบบดั้งเดิม แก้โจทย์ยากของการประเมินความลึก หนึ่งในโจทย์ที่ยากที่สุดของการประเมินความลึกคือการจัดการกับปรากฏการณ์ที่เรียกว่า "flying pixels" "Flying pixels" หมายถึงพิกเซลที่ดูเหมือนลอยอยู่กลางอากาศเนื่องจากข้อผิดพลาดในการทำแผนที่ความลึก Depth Pro รับมือกับปัญหานี้โดยตรง จึงมีประสิทธิภาพเป็นพิเศษกับงานอย่างการสร้างภาพ 3D ใหม่หรือสภาพแวดล้อมเสมือน ที่ความแม่นยำมีความสำคัญสูงสุด นอกจากนี้ Depth Pro ยังทำผลงานได้ยอดเยี่ยมในการติดตามขอบเขต โดยความสามารถในการถ่ายทอดวัตถุและขอบของมันอย่างคมชัดเหนือกว่าโมเดลก่อนหน้า นักวิจัยระบุว่า Depth Pro "เหนือกว่าระบบอื่นในด้านความแม่นยำของขอบแบบเป็นเท่าทวีคูณ" ซึ่งเป็นจุดสำคัญสำหรับแอปพลิเคชันที่ต้องการการแยกวัตถุอย่างแม่นยำ เช่น image matting หรือภาพทางการแพทย์ การเปิดเป็นโอเพนซอร์สและความสามารถในการขยายต่อ Apple เปิดให้ Depth Pro เป็นโอเพนซอร์สเพื่อเร่งการนำเทคโนโลยีไปใช้งาน มีทั้งโค้ดและน้ำหนักโมเดลที่ pre-trained บน GitHub ทำให้นักพัฒนาและนักวิจัยทดลองและต่อยอดได้ง่าย พร้อมส่งเสริมการสำรวจศักยภาพในหลากหลายสาขา เช่น หุ่นยนต์ การผลิต และเฮลท์แคร์ อนาคตของ AI ด้านการรับรู้ความลึก Depth Pro สร้างมาตรฐานใหม่ทั้งด้านความเร็วและความแม่นยำในวงการ monocular depth estimation ความสามารถในการสร้างแผนที่ความลึกคุณภาพสูงแบบเรียลไทม์จากภาพเดียวจะส่งผลอย่างมากต่ออุตสาหกรรมที่พึ่งพาการรับรู้เชิงพื้นที่ ในฐานะโอเพนซอร์ส Depth Pro มีแนวโน้มจะกลายเป็นเทคโนโลยีหลักในหลายอุตสาหกรรม ตั้งแต่การขับขี่อัตโนมัติไปจนถึง augmented reality

(venturebeat.com)

24 คะแนน โดย xguru 2024-10-07 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

ทีมวิจัย AI ของ Apple พัฒนาโมเดลใหม่ชื่อ Depth Pro ซึ่งอาจยกระดับวิธีที่เครื่องจักรรับรู้ความลึกได้อย่างมาก
สามารถนำไปสร้างนวัตกรรมในหลากหลายอุตสาหกรรม ตั้งแต่ความจริงเสริมไปจนถึงรถยนต์ขับเคลื่อนอัตโนมัติ

คุณสมบัติเด่นของ Depth Pro

สร้างแผนที่ความลึก 3D ที่ละเอียดจากภาพ 2D เพียงภาพเดียวได้อย่างรวดเร็วมาก โดยไม่ต้องพึ่งพาข้อมูลจากกล้องที่เคยจำเป็นมาก่อน
ถือเป็นก้าวกระโดดครั้งใหญ่ในด้าน monocular depth estimation
สามารถนำไปใช้ได้อย่างกว้างขวางในงานที่การรับรู้เชิงพื้นที่แบบเรียลไทม์มีความสำคัญ

ประเมินความลึกได้รวดเร็วและแม่นยำแม้ไม่มีเมตาดาต้า

โดยทั่วไป monocular depth estimation เป็นโจทย์ที่ยาก เพราะเดิมมักต้องใช้ทั้งภาพหลายภาพหรือเมตาดาต้า เช่น ระยะโฟกัส
แต่ Depth Pro สามารถข้ามข้อกำหนดเหล่านี้ และสร้างแผนที่ความลึกความละเอียดสูงได้ภายใน 0.3 วินาทีบน GPU มาตรฐาน
สร้างแผนที่ขนาด 2.25 เมกะพิกเซลได้ด้วยความคมชัดที่โดดเด่น และจับรายละเอียดเล็กมากอย่างเส้นผมหรือพืชที่วิธีอื่นมักมองข้ามได้
นักวิจัยอธิบายว่า "คุณลักษณะเหล่านี้เกิดขึ้นได้จากการมีส่วนร่วมทางเทคนิคหลายด้าน รวมถึงวิชันทรานส์ฟอร์เมอร์แบบหลายสเกลที่มีประสิทธิภาพสำหรับการทำนายแบบหนาแน่น"
สถาปัตยกรรมนี้ประมวลผลได้ทั้งบริบทโดยรวมของภาพและรายละเอียดเล็ก ๆ พร้อมกัน จึงถือเป็นการก้าวกระโดดครั้งใหญ่เมื่อเทียบกับโมเดลรุ่นก่อนที่ช้าและแม่นยำน้อยกว่า

จุดต่างของ metric depth และ zero-shot learning

สิ่งที่ทำให้ Depth Pro แตกต่างอย่างแท้จริงคือความสามารถแบบ "metric depth" ที่ประเมินได้ทั้งความลึกเชิงสัมพัทธ์และความลึกเชิงสัมบูรณ์
นั่นหมายความว่าโมเดลสามารถให้ค่าการวัดจริงได้ ซึ่งจำเป็นอย่างยิ่งสำหรับแอปพลิเคชันอย่าง augmented reality (AR) ที่ต้องวางวัตถุเสมือนให้ตรงตำแหน่งอย่างแม่นยำในพื้นที่จริง
Depth Pro ไม่จำเป็นต้องอาศัยการฝึกอย่างกว้างขวางกับชุดข้อมูลเฉพาะโดเมนเพื่อให้ทำนายได้แม่นยำ ซึ่งเรียกว่า "zero-shot learning"
ทำให้โมเดลมีความอเนกประสงค์สูงมาก และสามารถใช้กับภาพหลากหลายประเภทได้โดยไม่ต้องมีข้อมูลเฉพาะของกล้องแบบที่โมเดลประเมินความลึกทั่วไปมักต้องใช้
ผู้เขียนอธิบายว่า "Depth Pro สร้างแผนที่ metric depth ที่มีสเกลสัมบูรณ์สำหรับภาพใด ๆ ในสภาพแวดล้อมจริง โดยไม่ต้องใช้เมตาดาต้า เช่น camera intrinsic parameters"
ความยืดหยุ่นนี้เปิดโอกาสได้หลากหลาย ตั้งแต่การยกระดับประสบการณ์ AR ไปจนถึงการปรับปรุงความสามารถในการตรวจจับและหลบหลีกสิ่งกีดขวางของรถยนต์ขับเคลื่อนอัตโนมัติ

ตัวอย่างการใช้งานจริง

ในอีคอมเมิร์ซ ผู้บริโภคสามารถใช้กล้องสมาร์ตโฟนส่องไปที่ห้องเพื่อดูว่าเฟอร์นิเจอร์จะเข้ากับพื้นที่อย่างไร
กล้องเดี่ยวของรถยนต์ขับเคลื่อนอัตโนมัติสามารถสร้างแผนที่ความลึกความละเอียดสูงแบบเรียลไทม์ เพื่อช่วยให้รับรู้สภาพแวดล้อมการขับขี่และเพิ่มความปลอดภัยได้
นักวิจัยเน้นว่า "ในอุดมคติ ภายใต้ระบบ zero-shot นี้ ควรสร้างแผนที่ metric depth ที่ถ่ายทอดรูปร่างของวัตถุ การจัดวางฉาก และสเกลสัมบูรณ์ได้อย่างแม่นยำ" พร้อมชี้ถึงศักยภาพในการลดเวลาและต้นทุนที่ต้องใช้ในการฝึกโมเดล AI แบบดั้งเดิม

แก้โจทย์ยากของการประเมินความลึก

หนึ่งในโจทย์ที่ยากที่สุดของการประเมินความลึกคือการจัดการกับปรากฏการณ์ที่เรียกว่า "flying pixels"
- "Flying pixels" หมายถึงพิกเซลที่ดูเหมือนลอยอยู่กลางอากาศเนื่องจากข้อผิดพลาดในการทำแผนที่ความลึก
Depth Pro รับมือกับปัญหานี้โดยตรง จึงมีประสิทธิภาพเป็นพิเศษกับงานอย่างการสร้างภาพ 3D ใหม่หรือสภาพแวดล้อมเสมือน ที่ความแม่นยำมีความสำคัญสูงสุด
นอกจากนี้ Depth Pro ยังทำผลงานได้ยอดเยี่ยมในการติดตามขอบเขต โดยความสามารถในการถ่ายทอดวัตถุและขอบของมันอย่างคมชัดเหนือกว่าโมเดลก่อนหน้า
นักวิจัยระบุว่า Depth Pro "เหนือกว่าระบบอื่นในด้านความแม่นยำของขอบแบบเป็นเท่าทวีคูณ" ซึ่งเป็นจุดสำคัญสำหรับแอปพลิเคชันที่ต้องการการแยกวัตถุอย่างแม่นยำ เช่น image matting หรือภาพทางการแพทย์

การเปิดเป็นโอเพนซอร์สและความสามารถในการขยายต่อ

Apple เปิดให้ Depth Pro เป็นโอเพนซอร์สเพื่อเร่งการนำเทคโนโลยีไปใช้งาน
มีทั้งโค้ดและน้ำหนักโมเดลที่ pre-trained บน GitHub ทำให้นักพัฒนาและนักวิจัยทดลองและต่อยอดได้ง่าย
พร้อมส่งเสริมการสำรวจศักยภาพในหลากหลายสาขา เช่น หุ่นยนต์ การผลิต และเฮลท์แคร์

อนาคตของ AI ด้านการรับรู้ความลึก

Depth Pro สร้างมาตรฐานใหม่ทั้งด้านความเร็วและความแม่นยำในวงการ monocular depth estimation
ความสามารถในการสร้างแผนที่ความลึกคุณภาพสูงแบบเรียลไทม์จากภาพเดียวจะส่งผลอย่างมากต่ออุตสาหกรรมที่พึ่งพาการรับรู้เชิงพื้นที่
ในฐานะโอเพนซอร์ส Depth Pro มีแนวโน้มจะกลายเป็นเทคโนโลยีหลักในหลายอุตสาหกรรม ตั้งแต่การขับขี่อัตโนมัติไปจนถึง augmented reality

5 ความคิดเห็น

plaaat0102 2024-10-07

เหมือนว่า... ควรจะเป็นชื่อ Meta แทน Apple มากกว่านะครับ..

savvykang 2024-10-07

ทำให้นึกถึง Microsoft Photosynth (2006) เลยครับ

is9117 2024-10-07

ที่ Tesla AI ผมเข้าใจว่าพวกเขากำลังแก้ปัญหาเรื่องการรับรู้ความลึกแบบนี้ด้วยการนำ multi-view และ NeRF มาใช้สร้างโมเดล occupancy network อยู่ จึงน่าสนใจว่าในบริษัทเชิงพาณิชย์แบบนี้จะนำโมเดลดังกล่าวไปใช้งานอย่างไรและจะพัฒนาต่อยอดมันอย่างไรต่อไป

nemorize 2024-10-07

ว้าว..

eususu 2024-10-07

ตอนที่ LLM กำลังมาแรงมาก ๆ ก็เงียบจนแอบสงสัยว่าไปทำอะไรอยู่ ที่แท้คงกำลังขุดลึกอยู่ทางนี้นี่เอง