[บทความวิจัย] แปลคู่มือ Lego ให้เป็นแผนที่เครื่องสามารถนำไปปฏิบัติได้

xguru · 2022-07-29T09:29:44+09:00

แปลคู่มือประกอบแบบภาพของ Lego ที่ประกอบด้วยภาพ 2D ให้เครื่องสามารถตีความได้ มองเป็นงานทำนาย (prediction) แบบต่อเนื่อง โดยในแต่ละขั้นตอนโมเดลจะอ่านคู่มือ ค้นหาคอมโพเนนต์ที่จะถูกเพิ่มเข้าไปในรูปร่างปัจจุบัน แล้วอนุมานรูปร่างสามมิติ จำเป็นต้องแก้ปัญหาการจับคู่ 2D-3D ระหว่างภาพ 2D ในคู่มือกับวัตถุ 3D จริง รวมถึงงานอนุมานรูปร่างของวัตถุ 3D ที่ไม่เคยเห็นมาก่อน (Unseen) นำเสนอ MEPNet (Manual-to-Executable-Plan Network) ซึ่งเป็นเฟรมเวิร์กแบบอิงการเรียนรู้เพื่อแก้ปัญหานี้ แนวคิดหลักคือโมดูลตรวจจับคีย์พอยต์ 2D, อัลกอริทึมโปรเจกชัน 2D-3D สำหรับการทำนายความแม่นยำสูง และความสามารถในการทำให้ใช้ได้ทั่วไป (Generalization) ที่แข็งแกร่งสำหรับคอมโพเนนต์ที่ไม่เคยเห็นมาก่อน

(cs.stanford.edu)

5 คะแนน โดย xguru 2022-07-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แปลคู่มือประกอบแบบภาพของ Lego ที่ประกอบด้วยภาพ 2D ให้เครื่องสามารถตีความได้
มองเป็นงานทำนาย (prediction) แบบต่อเนื่อง โดยในแต่ละขั้นตอนโมเดลจะอ่านคู่มือ ค้นหาคอมโพเนนต์ที่จะถูกเพิ่มเข้าไปในรูปร่างปัจจุบัน แล้วอนุมานรูปร่างสามมิติ
จำเป็นต้องแก้ปัญหาการจับคู่ 2D-3D ระหว่างภาพ 2D ในคู่มือกับวัตถุ 3D จริง รวมถึงงานอนุมานรูปร่างของวัตถุ 3D ที่ไม่เคยเห็นมาก่อน (Unseen)
นำเสนอ MEPNet (Manual-to-Executable-Plan Network) ซึ่งเป็นเฟรมเวิร์กแบบอิงการเรียนรู้เพื่อแก้ปัญหานี้
แนวคิดหลักคือโมดูลตรวจจับคีย์พอยต์ 2D, อัลกอริทึมโปรเจกชัน 2D-3D สำหรับการทำนายความแม่นยำสูง และความสามารถในการทำให้ใช้ได้ทั่วไป (Generalization) ที่แข็งแกร่งสำหรับคอมโพเนนต์ที่ไม่เคยเห็นมาก่อน

1 ความคิดเห็น

budlebee 2022-07-29

ทำให้นึกถึง สตาร์ทอัพชื่อ brickit ที่ถ่ายรูปกองเลโก้แล้ว AI จะช่วยแยกชิ้นส่วนและแนะนำว่าเลโก้แบบไหนที่สามารถสร้างได้ เลยครับ

[บทความวิจัย] แปลคู่มือ Lego ให้เป็นแผนที่เครื่องสามารถนำไปปฏิบัติได้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น