• การสังเคราะห์ข้อความเป็นภาพแบบเดิมเป็นไปได้ด้วยโมเดล diffusion ที่ฝึกจากคู่ข้อมูลภาพ-ข้อความหลายหมื่นล้านคู่
  • หากจะนำแนวทางนี้ไปใช้กับ 3D จำเป็นต้องมีชุดข้อมูล 3D ที่ติดป้ายกำกับไว้จำนวนมากและสถาปัตยกรรมสำหรับการกำจัดสัญญาณรบกวน แต่ยังไม่มีสิ่งเหล่านี้อยู่
  • จึงใช้โมเดล 2D Text-to-Image diffusion ที่ผ่านการฝึกล่วงหน้าแล้วเพื่อทำการสังเคราะห์ Text-to-3D
  • โมเดล 3D ที่สร้างจากข้อความสามารถดูได้จากทุกมุม เปลี่ยนแสงได้ หรือผสานเข้ากับสภาพแวดล้อม 3D อื่นได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น