1 คะแนน โดย GN⁺ 2024-05-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มนุษย์สามารถรับรู้โลก 3D ได้แม้จากภาพที่ไม่มีความสอดคล้องแบบ 3D
  • Toon3D สามารถกู้คืนท่ากล้องและเรขาคณิตความหนาแน่นสูงได้ผ่านการทำ optimization แบบ piecewise-rigid deformable
  • ฉากวาดมือแม้จะไม่มีความสอดคล้องแบบ 3D แต่สามารถกู้คืนด้วย Toon3D และทำ interpolation มุมมองใหม่ที่ไม่เคยเห็นมาก่อนได้

บทคัดย่อ

  • นำเสนอ Toon3D
    • กู้คืนโครงสร้าง 3D พื้นฐานของฉากที่ไม่มีความสอดคล้องทางเรขาคณิต
    • มุ่งเน้นไปที่ภาพวาดมือจากมังงะและแอนิเมชัน
    • มังงะจำนวนมากเป็นงานที่ศิลปินวาดขึ้นเองโดยไม่มีเอนจินเรนเดอร์ 3D
    • ภาพวาดมือถ่ายทอดโลกได้อย่างซื่อตรงในเชิงคุณภาพ แต่การวาดหลายมุมมองให้สอดคล้องกันแบบ 3D ทำได้ยาก
    • มนุษย์สามารถจดจำฉาก 3D ได้อย่างง่ายดายแม้จากอินพุตที่ไม่สอดคล้องกัน
    • แก้ความไม่สอดคล้องของภาพ 2D เพื่อให้ภาพที่ถูกแปลงใหม่มีความสอดคล้องกัน
    • กู้คืนโครงสร้างหนาแน่นผ่านเครื่องมือ annotation ที่ใช้งานง่าย การประเมินท่ากล้อง และการแปลงภาพ
    • สามารถนำไปเสียบเข้ากับวิธีสร้างมุมมองใหม่โดยแปลงภาพให้สอดคล้องกับโมเดลกล้อง perspective

การสร้างมังงะกลับเป็น 3D

  • กู้คืนท่ากล้องและ point cloud ที่จัดแนวกันก่อน
  • เริ่มต้น Gaussian จาก point cloud แบบหนาแน่น แล้ว optimize Gaussian splatting ด้วยกล้องที่กู้คืนมา
  • มีการทำ depth regularization และพัฒนาบนพื้นฐานของ Nerfstudio
  • แสดงผลการเรนเดอร์แบบ fly-through ของฉาก

วิธีการ

  • ทำนาย depth ของแต่ละภาพด้วย Marigold และใช้ SAM เพื่อหามาสก์ชั่วคราวที่เป็นตัวเลือก
  • ติดป้ายกำกับภาพด้วย Toon3D Labeler เพื่อหาความสัมพันธ์ที่สอดคล้องกันและระบุพื้นที่ชั่วคราว
  • optimize ท่ากล้องและบิดภาพเพื่อให้ได้กล้อง perspective ที่ถูกแก้ไขแล้ว
  • เริ่มต้น Gaussian ด้วย point cloud แบบหนาแน่นที่จัดแนวแล้ว และทำการปรับละเอียดต่อ

Toon3D Labeler

  • แสดงสองขั้นตอนหลักของวิธีการ
    • วิดีโอการจัดแนวแบบ sparse: การประเมินพารามิเตอร์กล้องแบบคร่าว ๆ
    • วิดีโอการจัดแนวแบบ dense: แสดงวิธีจัดแนวใน 3D โดยใช้เลเยอร์ต่าง ๆ (กล้อง, sparse correspondence, distortion mesh ฯลฯ)

สำรวจภายในบ้านของ Rick and Morty

  • สร้างภายในบ้านของ Rick and Morty ขึ้นใหม่โดยติดป้ายกำกับผนังและเพดานเพื่อเชื่อมห้องเข้าด้วยกัน
  • วิดีโอแรก: แสดง point cloud, กล้อง และอินเทอร์เฟซการติดป้ายกำกับแบบกำหนดเอง
  • วิดีโอที่สอง: สามารถเลื่อนสไลเดอร์เพื่อสำรวจภายในบ้านได้

Point cloud และกล้อง

  • แสดง point cloud และกล้องที่กู้คืนแล้วสำหรับฉากมังงะ 12 ฉากในชุดข้อมูล Toon3D
  • สามารถคลิกไอคอนเพื่อสำรวจฉากได้

การสร้างฉากจากมุมมองน้อย

  • สามารถสร้างฉากขึ้นใหม่ได้จากภาพจำนวนน้อยและความต่างของมุมมองที่มาก
  • ในจุดที่ COLMAP อาจล้มเหลว มนุษย์สามารถเข้ามาช่วยผ่าน Toon3D Labeler เพื่อสร้าง correspondence ที่ติดป้ายกำกับด้วยมือได้
  • แสดงการเรนเดอร์แบบ fly-through ของสองห้องในรายการ Airbnb ("ห้องนั่งเล่น" และ "ห้องนอน 2")

การแสดงภาพความไม่สอดคล้อง

  • เนื่องจากมังงะเป็นงานวาดมือ จึงต้องบิดภาพให้มีความสอดคล้องแบบ 3D
  • รายการแรก: วิดีโอที่แสดงการบิดเบี้ยวระหว่างการ optimize การจัดแนว
  • สองรายการถัดไป: ภาพต้นฉบับและภาพที่บิดแล้ว พร้อมภาพที่แสดงการซ้อนทับระหว่างสองภาพ
  • บริเวณที่พร่ามัวแสดงถึงจุดที่มีการบิดเบี้ยวมาก

การสร้างภาพวาดกลับเป็น 3D

  • Toon3D สามารถใช้สร้างภาพวาดมือกลับเป็น 3D ได้เช่นกัน
  • ทำนาย depth ของแต่ละภาพ จากนั้นจัดแนวและบิด point cloud
  • สุดท้ายใช้ Gaussian refinement เพื่อสร้างวิดีโอ

ความเห็นของ GN⁺

  • Toon3D เป็นวิธีการที่ล้ำสมัยในการสร้างภาพวาดมือจากมังงะและแอนิเมชันกลับเป็น 3D
  • เทคโนโลยีนี้มอบประสบการณ์ด้านภาพรูปแบบใหม่ และอาจเป็นประโยชน์อย่างมากต่อการผลิตแอนิเมชันและการพัฒนาเกม
  • อย่างไรก็ตาม กระบวนการติดป้ายกำกับด้วยมืออาจค่อนข้างยุ่งยาก และจะดียิ่งขึ้นหากวิธีแบบอัตโนมัติพัฒนาได้มากกว่านี้
  • โปรเจ็กต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ COLMAP และ Nerfstudio
  • เมื่อนำเทคโนโลยีนี้ไปใช้ ความแม่นยำของการติดป้ายกำกับและการทำนาย depth เป็นสิ่งสำคัญ เพื่อให้ได้การสร้าง 3D ที่สอดคล้องกันมากขึ้น

1 ความคิดเห็น

 
GN⁺ 2024-05-18
ความคิดเห็นจาก Hacker News

สรุปรวมความคิดเห็นจาก Hacker News

  • ตัวอย่างอาคาร Planet Express จาก Futurama

    • น่าสนใจที่ใช้อาคาร Planet Express จาก Futurama เป็นตัวอย่างของความไม่สอดคล้องกันแบบ 3D และดูเหมือนว่าจริง ๆ แล้วมันน่าจะถูกสร้างจากโมเดล 3D
    • แม้จะไม่ใช่กราฟิกอาร์ติสต์ แต่ก็ชื่นชมที่งานศิลป์ของนักวาดภาพประกอบใช้เทคนิคการแสดงออกเชิงสร้างสรรค์เพื่อสื่อความหมายที่ซับซ้อน
    • ทำให้นึกถึงการสร้างพื้นที่ 3D ขึ้นใหม่แบบ "ชวนสับสน" ที่คล้ายกับกระแสโฆษณาเกินจริงของ LLMs (โมเดลภาษาขนาดใหญ่) ในช่วงหลัง
  • ความสนุกของการสร้างพื้นที่ 3D

    • การสร้างพื้นที่ 3D จากภาพต้นฉบับที่ไม่สอดคล้องกันเป็นไอเดียที่สนุกมาก
    • เคยลองทำสิ่งที่คล้ายกันเมื่อหลายปีก่อน โดยแปลงภาพนามธรรมที่ไม่ใช่พื้นที่จริงให้เป็นพื้นที่เสมือนจริง เช่น เปลี่ยนภาพนามธรรมของ Kandinsky หรือ Pollock ให้กลายเป็นพื้นที่ VR ที่สามารถสำรวจได้
    • เวิร์กโฟลว์คือเริ่มจากภาพนามธรรม ใช้ SinGan สร้าง "มุมมอง" ทางเลือกของ "ฉาก" จากนั้นทำ depth mapping ผ่าน 3D photo inpainting แล้วนำเฟรมเข้าแอป photogrammetry
  • ความเป็นไปได้ของการสร้างโมเดล 3D ในอนาคต

    • น่าทึ่งที่สามารถสร้างโมเดล 3D (แม้คุณภาพจะต่ำ) จากภาพของฉากที่จินตนาการขึ้นมาได้
    • ในอนาคต อาจเป็นไปได้ที่ศิลปินจะได้โมเดล 3D ที่แม่นยำจากภาพเพียงไม่กี่ใบ
    • มีความกังวลเกี่ยวกับผลกระทบที่เครื่องมือคล้าย AI อาจมีต่อศิลปิน แต่ก็พอนึกภาพอนาคตที่ระบบบนพื้นฐาน machine learning จะทำงานร่วมกับศิลปินได้โดยตรงมากขึ้น
    • เมื่อคิดถึงคุณค่าของการที่ศิลปินสร้างงานศิลปะ การที่ AI เข้ามาแทนศิลปินอาจนำไปสู่ผลลัพธ์ที่ไม่ดีต่ออารยธรรมโดยรวม
  • ปัญหาของการแปลงงานศิลปะ 2D เป็น 3D

    • งานศิลปะ 2D ไม่มีพื้นที่ 3D ที่สอดคล้องกัน และดูเหมือนว่างานนี้ยังแก้ปัญหานั้นอย่างมีประโยชน์ไม่ได้
    • เมื่อออกจากตำแหน่งกล้องเดิม ฉากแทบไม่มีความสอดคล้องกันเลย
  • Photogrammetry และ VR

    • มีประสบการณ์ศึกษาด้าน photogrammetry โดยใช้ Quest 2 และสำรวจไปป์ไลน์สำหรับสร้างโมเดล 3D จากภาพถ่ายหลายมุม
    • สิ่งสำคัญเมื่อต้องพอร์ตไปยัง VR คือการสร้าง mesh ที่สะอาด ซึ่งเครื่องมือปัจจุบันยังไม่สร้าง 3D mesh ออกมา
    • เคยมีแรงจูงใจจะสร้างโมเดลแบบ Matterport แล้วขายให้บริษัทอสังหาริมทรัพย์ แต่ขั้นตอนการสร้าง mesh ที่สะอาดโดยอัตโนมัติเป็นส่วนที่ใช้แรงงานมากที่สุด
  • ความจำเป็นในการปรับปรุงอัลกอริทึม

    • ประสิทธิภาพยังไม่ดีในการสร้างรูปลักษณ์ให้ตรงกับมุมมองของภาพบางภาพ เช่น ตัวอย่าง Magic School Bus
    • อัลกอริทึมจำเป็นต้องถูกปรับให้เชื่อถือภาพมากกว่านี้
  • ปัญหาวิดีโอเล่นอัตโนมัติบนเว็บไซต์

    • เว็บไซต์ที่ให้วิดีโอทุกอันเล่นอัตโนมัติและวนซ้ำทำให้ใช้งานไม่สะดวก และเมื่อเปิดวิดีโอบนจอที่สองก็เกิดอาการกระตุกตอนเข้าเว็บไซต์
  • ปฏิกิริยาของ Miyazaki

    • ถ้านำตัวอย่าง Spirited Away นี้ไปให้ Miyazaki ดู เขาคงบอกว่านี่เป็นการดูหมิ่นต่อชีวิตเอง
  • ผลลัพธ์ที่ต่ำกว่าความคาดหวัง

    • ตัวอย่างทั้งหมดดูแย่มาก เฟรมตรงกลางมีทั้งนอยส์และความเบลอจนไม่สามารถใช้ร่วมกับต้นฉบับได้
    • จุดเริ่มต้นและจุดสิ้นสุดของแต่ละองค์ประกอบแทบไม่เชื่อมต่อกันเลย ผนัง ประตู และสิ่งอื่น ๆ ลอยไปยังจุดหมาย แต่กลับหายไปก่อนถึงตำแหน่งสุดท้ายอีกหลายฟุต
    • ไอเดียนั้นยอดเยี่ยม แต่อยากเห็นเวอร์ชันที่ใช้งานได้จริง