5 คะแนน โดย xguru 2022-07-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แปลคู่มือประกอบแบบภาพของ Lego ที่ประกอบด้วยภาพ 2D ให้เครื่องสามารถตีความได้
  • มองเป็นงานทำนาย (prediction) แบบต่อเนื่อง โดยในแต่ละขั้นตอนโมเดลจะอ่านคู่มือ ค้นหาคอมโพเนนต์ที่จะถูกเพิ่มเข้าไปในรูปร่างปัจจุบัน แล้วอนุมานรูปร่างสามมิติ
  • จำเป็นต้องแก้ปัญหาการจับคู่ 2D-3D ระหว่างภาพ 2D ในคู่มือกับวัตถุ 3D จริง รวมถึงงานอนุมานรูปร่างของวัตถุ 3D ที่ไม่เคยเห็นมาก่อน (Unseen)
  • นำเสนอ MEPNet (Manual-to-Executable-Plan Network) ซึ่งเป็นเฟรมเวิร์กแบบอิงการเรียนรู้เพื่อแก้ปัญหานี้
  • แนวคิดหลักคือโมดูลตรวจจับคีย์พอยต์ 2D, อัลกอริทึมโปรเจกชัน 2D-3D สำหรับการทำนายความแม่นยำสูง และความสามารถในการทำให้ใช้ได้ทั่วไป (Generalization) ที่แข็งแกร่งสำหรับคอมโพเนนต์ที่ไม่เคยเห็นมาก่อน