- แปลคู่มือประกอบแบบภาพของ Lego ที่ประกอบด้วยภาพ 2D ให้เครื่องสามารถตีความได้
- มองเป็นงานทำนาย (prediction) แบบต่อเนื่อง โดยในแต่ละขั้นตอนโมเดลจะอ่านคู่มือ ค้นหาคอมโพเนนต์ที่จะถูกเพิ่มเข้าไปในรูปร่างปัจจุบัน แล้วอนุมานรูปร่างสามมิติ
- จำเป็นต้องแก้ปัญหาการจับคู่ 2D-3D ระหว่างภาพ 2D ในคู่มือกับวัตถุ 3D จริง รวมถึงงานอนุมานรูปร่างของวัตถุ 3D ที่ไม่เคยเห็นมาก่อน (Unseen)
- นำเสนอ MEPNet (Manual-to-Executable-Plan Network) ซึ่งเป็นเฟรมเวิร์กแบบอิงการเรียนรู้เพื่อแก้ปัญหานี้
- แนวคิดหลักคือโมดูลตรวจจับคีย์พอยต์ 2D, อัลกอริทึมโปรเจกชัน 2D-3D สำหรับการทำนายความแม่นยำสูง และความสามารถในการทำให้ใช้ได้ทั่วไป (Generalization) ที่แข็งแกร่งสำหรับคอมโพเนนต์ที่ไม่เคยเห็นมาก่อน
1 ความคิดเห็น
ทำให้นึกถึง สตาร์ทอัพชื่อ brickit ที่ถ่ายรูปกองเลโก้แล้ว AI จะช่วยแยกชิ้นส่วนและแนะนำว่าเลโก้แบบไหนที่สามารถสร้างได้ เลยครับ