Toon3D: มองการ์ตูนจากมุมมองใหม่

(toon3d.studio)

1 คะแนน โดย GN⁺ 2024-05-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Toon3D คือวิธีที่กู้คืนโพสของกล้องและโครงสร้าง 3D แบบหนาแน่นจากภาพการ์ตูนและแอนิเมชันที่วาดฉากเดียวกัน เพื่อสังเคราะห์มุมมองจากจุดที่ไม่เคยถูกวาดจริงมาก่อน
ฉากที่วาดด้วยมือขาด ความสอดคล้องแบบ 3D อย่างชัดเจน ทำให้ SfM แบบเดิมล้มเหลวได้ง่าย และ Toon3D จะปรับเปลี่ยนภาพไปพร้อมกับจัดให้กล้องและเรขาคณิตของฉากเข้ากัน
pipeline ผสานการทำนายความลึกด้วย Marigold, ตัวเลือก transient mask จาก SAM และการติดป้ายกำกับโดยมนุษย์ใน Toon3D Labeler เพื่อนำจุดสอดคล้องและพื้นที่ transient มาใช้ในการจัดแนว
point cloud แบบหนาแน่นที่กู้คืนได้ถูกใช้สำหรับเริ่มต้น Gaussian Splatting และสร้าง fly-through render ของฉากการ์ตูนด้วยการปรับให้เหมาะสมบนพื้นฐาน Nerfstudio และการทำ depth regularization
มุ่งเน้นการได้โพสกล้องและเรขาคณิตของฉากที่เสถียรกว่า COLMAP, Bundle Adjustment และ DUSt3R และยังนำไปใช้กับกรณีตัวอย่างการสร้างห้อง Airbnb และภาพวาดขึ้นใหม่ด้วย

เหตุผลที่ SfM ยากในฉากวาดมือ

มนุษย์สามารถรับรู้ ฉาก 3D พื้นฐาน ได้แม้จากภาพที่ไม่สอดคล้องกันอย่างสมบูรณ์ในเชิง 3D แต่เครื่องจักรประสบความยากลำบากภายใต้เงื่อนไขเดียวกัน
ภาพการ์ตูนและแอนิเมชันมักถูกวาดขึ้นเพื่อการเล่าเรื่องและการแสดงออกเชิงสร้างสรรค์ โดยไม่มี ความสอดคล้องทางเรขาคณิต อย่างชัดเจน
วิธี Structure-from-Motion(SfM) แบบเดิมตั้งสมมติฐานเรื่องความสอดคล้องแบบ 3D จึงล้มเหลวอย่างมากกับภาพวาดมือเช่นนี้
COLMAP ไม่สามารถสร้างภาพวาดมือที่ไม่เป็นเรขาคณิตขึ้นใหม่ได้ แม้จะมีจุดสอดคล้องที่สมบูรณ์แบบ และ Bundle Adjustment กับ DUSt3R ก็ให้ประสิทธิภาพแย่มากเช่นกัน

วิธีจัดแนวที่ดูดซับความไม่สอดคล้อง

Toon3D กู้คืนโพสกล้องและเรขาคณิตของฉากไปพร้อมกับ deform ภาพที่ไม่สอดคล้องกันทางเรขาคณิต
แนวคิดหลักคือการดูดซับความไม่สอดคล้องทางเรขาคณิตระหว่างภาพด้วยการ deform เพื่อปรับฉากให้เข้ากับโครงสร้าง 3D ที่สอดคล้องกันมากขึ้น
ข้อมูลเชิงโครงสร้าง ที่ได้จากการทำนายความลึกแบบ monocular ช่วยนำทางกระบวนการจัดแนวนี้
ทำการปรับให้เหมาะสมแบบ piecewise-rigid deformation โดยอาศัย keypoint ที่ติดป้ายด้วยมือ เพื่อกู้คืนโพสกล้องและเรขาคณิตแบบหนาแน่น

Pipeline การประมวลผล

ความลึกของแต่ละภาพทำนายด้วย Marigold
ตัวเลือก transient mask ได้จาก SAM
ผู้ใช้ติดป้าย จุดสอดคล้อง ระหว่างภาพและทำเครื่องหมายพื้นที่ transient ด้วย Toon3D Labeler
ในขั้นตอนการปรับให้เหมาะสม จะจัดโพสกล้องและ warp ภาพเพื่อให้ได้กล้อง perspective ที่ถูกปรับแก้แล้ว
สุดท้าย initialize Gaussians จาก point cloud แบบหนาแน่นที่จัดแนวแล้ว และดำเนินการ refinement

การปรับให้เหมาะสมพร้อมกันของกล้องและการ deform

เป้าหมายหลักสองอย่างของ Toon3D คือ camera alignment และ deformation alignment
camera alignment objective กู้คืนพารามิเตอร์ของกล้อง
deformation alignment objective warp mesh เพื่อให้จัดแนวได้ใกล้เคียงยิ่งขึ้น
ในการปรับให้เหมาะสมจริง จะปรับทั้งสองเป้าหมายพร้อมกัน
การแสดงภาพวิธีการประกอบด้วยหลายเลเยอร์ เช่น กล้อง, sparse correspondences, warping meshes, point clouds และ gaussians

การสังเคราะห์มุมมองใหม่และ fly-through render

Toon3D กู้คืนโพสกล้องและ point cloud ที่จัดแนวแล้วก่อน
จากนั้น initialize Gaussians จาก point cloud แบบหนาแน่น และปรับ Gaussian Splatting ให้เหมาะสมด้วยกล้องที่กู้คืนมา
การทำงานอิง Nerfstudio และรวม depth regularization
ผลลัพธ์สามารถดูได้เป็น fly-through render ของฉากการ์ตูน
ฉากตัวอย่างประกอบด้วย Bob's Burgers, Family Guy, SpongeBob SquarePants, Rick and Morty, Simpsons, Spirited Away, Futurama, Avatar, BoJack Horseman, Magic School Bus และ Scooby-Doo

Toon3D Dataset และเครื่องมือติดป้ายกำกับ

Toon3D Dataset ประกอบด้วย ภาพ multiview จากการ์ตูนและแอนิเมชัน
dataset มี annotation ของ sparse correspondences ที่เชื่อถือได้
งาน annotation ใช้ Toon3D annotation tool ที่เป็นมิตรต่อผู้ใช้
point cloud ที่กู้คืนได้เชื่อมต่อกับวิธี novel-view synthesis ทำให้สามารถดูการ์ตูนจากมุมมองที่ไม่ได้ถูกวาดจริง
หน้านี้แสดงภาพ point cloud และกล้องที่กู้คืนแล้วของฉากการ์ตูน 12 ฉาก

การสร้างภายในบ้านของ Rick and Morty ขึ้นใหม่

ภายในบ้านของ Rick and Morty ถูกสร้างขึ้นใหม่ด้วยวิธีติดป้ายระหว่างผนังกับเพดานเพื่อเชื่อมห้องต่าง ๆ เข้าด้วยกัน
วิดีโอแรกแสดง point cloud, กล้อง และอินเทอร์เฟซติดป้ายกำกับแบบกำหนดเอง
ในวิดีโอที่สอง สามารถดู walkthrough ภายในบ้านได้ด้วย slider
ภาพจากกล้องที่อยู่ใกล้ที่สุดจะแสดงอยู่ที่มุมขวาล่างของหน้าจอ

Sparse-view และกรณีอินพุตอื่น ๆ

Toon3D สามารถสร้างฉากที่มีภาพจำนวนน้อยและมีการเปลี่ยนมุมมองมากขึ้นใหม่ได้
ในสถานการณ์ที่ COLMAP อาจล้มเหลว สามารถเพิ่มจุดสอดคล้องที่มนุษย์ติดป้ายด้วย Toon3D Labeler ได้
มีการนำเสนอ fly-through render สำหรับห้องสองห้องใน Airbnb listing คือ “Living room” และ “Bedroom 2”
COLMAP ไม่สามารถกู้คืนกล้องทั้งหมดได้ แต่ป้ายกำกับสามารถทำให้ COLMAP สำเร็จได้
Toon3D ให้ผลลัพธ์ดีที่สุดในแง่ความสมบูรณ์ของฉาก

การแสดงภาพการ warping และการสร้างภาพวาดขึ้นใหม่

เนื่องจากการ์ตูนวาดด้วยมือ จึงต้อง warp ภาพเพื่อให้ได้ความสอดคล้องแบบ 3D
มีวิดีโอแสดงให้เห็นการ warping ที่เกิดขึ้นระหว่างการปรับให้เหมาะสมของการจัดแนว
รวมถึงการแสดงภาพเปรียบเทียบภาพต้นฉบับ ภาพที่ถูก warp และ overlap ของทั้งสองภาพ
พื้นที่ที่เบลอแสดงตำแหน่งที่เกิดการ warping มาก
Toon3D ยังนำไปใช้กับภาพวาดที่วาดด้วยมือ โดยทำนายความลึกของแต่ละภาพก่อน จากนั้นจัดแนวและ warp point cloud แล้วสร้างวิดีโอด้วย Gaussian refinement

เอกสารและทรัพยากรที่เผยแพร่

arXiv: paper Toon3D
Code: โค้ดการใช้งาน
Toon3D Labeler: เครื่องมือติดป้ายจุดสอดคล้องและพื้นที่ transient
Demo: เดโม Hugging Face
Overview Video: วิดีโอภาพรวมการตั้งปัญหาและวิธีการ

1 ความคิดเห็น

GN⁺ 2024-05-18

ความคิดเห็นจาก Hacker News

น่าสนใจที่ยกอาคาร Planet Express จาก Futurama มาเป็นตัวอย่างของ ความไม่สอดคล้องกันแบบ 3D
ภายนอกอาคารดูใกล้เคียงกับสิ่งที่สร้างด้วยคอมพิวเตอร์จาก โมเดล 3D จริง ๆ มากกว่า พอดูในเรื่องจะเห็นช็อตตั้งฉากที่หมุนวนรอบอาคารอย่างลื่นไหลและซับซ้อนอยู่บ่อย ๆ
- เห็นด้วย อาคาร Planet Express และยานอวกาศส่วนใหญ่หรืออาจทั้งหมดถูกทำเป็น 3D rendering มาตั้งแต่ซีซันแรก ๆ แล้ว และบางฉากของ Bender ในอวกาศก็ใช้ 3D rendering เมื่อจำเป็นต้องมีการเปลี่ยนมุมมองต่อเนื่องที่ซับซ้อน
  งานศิลป์ 3D ที่ไม่ได้ดูเหมือนภาพถ่าย (NPR) ถูกใช้ในแอนิเมชันมานานกว่าที่คนคิด ไม่นานมานี้ฉันกลับไปดูแอนิเมชัน Disney ปี 1988 เรื่อง "Oliver and Company" แล้วก็แปลกใจที่รถยนต์และอาคารเป็นโมเดล 3D แบบ "cell shaded" ตอนแรกนึกว่าเป็นเวอร์ชันรีมาสเตอร์ แต่พอไปหาดูพบว่านี่เป็นหนัง Disney เรื่องแรกที่ใช้ CGI จำนวนมาก[0] และสิ่งที่ฉันเห็นก็อยู่ในต้นฉบับอยู่แล้ว
  ในหน้าที่หาเจอเขียนไว้แบบนี้: "This was the first Disney movie to make heavy use of computer animation. CGI effects were used for making the skyscrapers, the cars, trains, Fagin's scooter-cart and the climactic Subway chase. It was also the first Disney film to have a department created specifically for computer animation."
  อ้างอิง
  0: https://disney.fandom.com/wiki/Oliver_%26_Company
- คิดว่า 3D ในซีรีส์หรือเกมมักใช้ กลลวง เพื่อให้ดูดีสำหรับผู้ชมไม่ใช่หรือ
  จำได้ว่าเคยอ่านบทความที่พูดถึงสิ่งที่นักแอนิเมชัน 3D ทำเพื่อให้ภาพดูเป็นธรรมชาติ เช่น ทำตัวละครให้สูง 9 ฟุตเพราะถ้าใช้สัดส่วนจริงในระบบคีย์แล้วจะดูเตี้ยเกินไปเวลาที่กล้องเคลื่อนผ่าน หรือทำประตูโค้งให้ใหญ่ยักษ์แต่ทำให้ดูปกติในช็อตมุมมองบางแบบ หรือให้ตัวละครตัวเล็กยืนบนกล่องสีน้ำเงินนอกจอเพื่อไม่ให้ความต่างของส่วนสูงดูสุดโต่งจนแปลกตา ในความจริงอาจเป็นทางเดินยาว 1,000 ฟุต แต่เพราะวิธีที่กล้องเคลื่อนผ่านจึงดูเหมือนยาว 100 ฟุตในโลกของเรื่อง และประตูแต่ละบานในทางเดินนั้นก็อาจสูง 18 ฟุต
  ถ้างานอย่าง Futurama ก็ใช้เทคนิคแบบนี้เหมือนกัน การทำ reverse engineer เพื่อสร้างพื้นที่ 3D ที่นักแอนิเมชันใช้ขึ้นมาใหม่ก็อาจทำให้เจอประตูยักษ์ คนสูง 9 ฟุต หรือทางเดินแบบนอกเรขาคณิตแบบยุคลิดได้ การที่มันดูนุ่มนวลเมื่อตอนกล้องเคลื่อนผ่านไม่ได้แปลว่าโมเดล 3D จริงนั้นจะสมเหตุสมผลเมื่อมองจากมุมอื่นด้วย
- ทุกวันนี้แม้แต่แอนิเมชันที่ไม่ได้ดูเหมือนแอนิเมชัน 3D ก็มักมี โมเดล 3D อยู่ที่ไหนสักแห่งในกระบวนการผลิต
  ต่อให้ไม่มีโมเดล 3D ดิจิทัล บางสตูดิโอก็มีแบบจำลองสถานที่สำคัญเป็นวัตถุจริงไว้ให้แอนิเมเตอร์ใช้อ้างอิง
- ใช่เลย Futurama ใช้ องค์ประกอบ 3D ที่นำมาคอมโพสิต ตั้งแต่ตอนแรกในปี 1999 และพาหนะต่าง ๆ ก็แทบจะเป็น 3D เสมอ
- ภายนอกอาคารไม่ได้ถูกสร้างจากโมเดล 3D เดียว แต่ใกล้เคียงกับการสร้างจาก โมเดล 3D หลายตัว ที่ต่างก็แทนวัตถุเดียวกันมากกว่า
  มันอาจเปลี่ยนไปตามกาลเวลาหรือแตกต่างกันในแต่ละฉาก คล้ายกับโมเดลยาน Enterprise ใน Star Trek
มันเจ๋งดี แต่คิดไม่ค่อยออกว่าการใช้งานจริงคืออะไร
โดยทั่วไป ภาพวาด 2D ไม่ได้มีพื้นที่ 3D ที่สอดคล้องกันอยู่แล้ว และตัวงานวิจัยก็ยอมรับจุดนั้น แต่ก็ไม่เหมือนว่าจะเอาชนะปัญหานี้ได้ในความหมายที่ใช้งานได้จริง ทันทีที่ออกจากตำแหน่งกล้องเดิมที่ใช้วาดภาพ ความสอดคล้องของฉากก็อ่อนลงมาก
- อย่าง Futurama กับ Family Guy ใช้ 3D rendering กับพาหนะเป็นต้น แล้วเรนเดอร์ให้ดูเหมือนการ์ตูนก่อนจะนำไปคอมโพสิตกับแอนิเมชัน 2D แบบแบน
  งานลักษณะคล้ายกันนี้อาจเป็นกรณีใช้งานได้
  อีกการใช้งานหนึ่งอาจเป็นสตูดิโอพัฒนาเกมที่ทำเกม 3D จากไลเซนส์การ์ตูน 2D โดยใช้เป็นเครื่องมือช่วยมองภาพระหว่างวางแผนและพัฒนาเพื่อวนรอบงานได้เร็วขึ้น และใช้อ้างอิงว่า 2D ต้นฉบับจะถูกแปลงเป็น 3D อย่างไร
- SpongeBob จงใจละเมิด กฎของพื้นที่ 3D แบบไม่ปิดบัง ตั้งแต่แรกก็เป็นเรื่องที่มีไฟลุกใต้น้ำได้อยู่แล้ว
  ทั้งนักเขียนและศิลปินได้รับอิทธิพลอย่างมากจาก Looney Tunes ซึ่งการทำลายกฎแบบนั้นคือสิ่งที่ทำให้มันตลก
- เวอร์ชันที่ขัดเกลากว่านี้น่าจะใช้ทำการ์ตูนเป็น ภาพสเตอริโอ ได้
  แต่มีแนวโน้มว่าการใช้แค่การทำนายความลึก แล้วให้การสร้างภาพมาเติมพื้นที่ว่าง จะดีกว่ากระบวนการแมปแบบนี้
- มองว่านี่ใกล้เคียงกับเครื่องมือสาธิตเพื่อแสดงและพัฒนาเทคโนโลยีมากกว่า
  สภาพแวดล้อมแบบนี้ไม่ต้องใช้ความพยายามมากในการทำโมเดล 3D อยู่แล้ว จึงน่าสงสัยว่าจะมีการใช้งานจริงในบริบทนี้หรือไม่
- ถ้าพัฒนาต่อไปก็น่าจะสร้าง วิดีโอเกม จากหลายซีรีส์ได้
  ถึงจะยังหยาบอยู่บ้าง แต่ก็ดูเหมือนถ่ายทอดภาพจากต้นฉบับได้ดีกว่าการทำบางแบบในเกมที่สร้างจากการ์ตูน
ไอเดียการสร้าง พื้นที่ 3D จากภาพต้นฉบับที่ไม่สอดคล้องกันนี่น่าสนใจมาก
เมื่อหลายปีก่อนเคยลองทำอะไรคล้าย ๆ กันแบบหยาบมากและผลก็แย่มาก ไม่ได้ลองแค่กับพื้นที่ที่ไม่สอดคล้องกันซึ่งไม่มีคำตอบที่ชัดเจนเท่านั้น แต่ยังลองกับภาพนามธรรมล้วน ๆ ที่ตั้งแต่แรกก็ไม่ได้พยายามจะแสดงเป็นพื้นที่ 3D อยู่แล้วด้วย เป็นความพยายามที่จะเปลี่ยนภาพนามธรรมแบบ Kandinsky หรือ Pollock ให้กลายเป็นพื้นที่เสมือนจริงที่สามารถสำรวจได้ แน่นอนว่าไม่มีคำตอบตายตัวว่า "การเดินอยู่ในภาพของ Pollock" ควรหมายถึงอะไร เป้าหมายก็แค่อยากฝืนทำดูแล้วดูว่าจะเกิดอะไรขึ้น
เวิร์กโฟลว์เป็นแบบนี้: 1. เริ่มจากภาพนามธรรมต้นฉบับภาพเดียว 2. ใช้ SinGan สร้าง "มุมมอง" อื่นของ "ฉาก" 3. นำโปรเจกต์อย่าง 3d-photo-inpainting หรือสาย Ken Burns ไปใช้กับภาพต้นฉบับและภาพจาก SinGan เพื่อสร้างวิดีโอซูม/หมุน/แพนด้วย monocular depth mapping 4. เอาเฟรมจาก 3d-photo-inpainting ใส่เข้าแอป photogrammetry ตอนนั้นยังไม่มี NeRF และปรับทุกอย่างให้ยอมรับความผิดพลาดและความไม่สอดคล้องให้มากที่สุด 5. ภาวนาให้กระบวนการ photogrammetry ไม่พัง ซึ่ง 9 ใน 10 ครั้งมันก็ crash หลังผ่านไป 24 ชั่วโมง โหดร้ายมาก
น่าจะเคยโพสต์ตัวอย่างไว้บน Twitter แต่หาคีย์เวิร์ดไม่เจอ ถึงอย่างนั้นแค่ depth mapping ระดับปี 2019 ก็ยังทำวิดีโอจากภาพนามธรรมที่ค่อนข้างน่าสนใจได้: https://x.com/jonathanfly/status/1174033265524690949 สิ่งที่ใกล้เคียงที่สุดคือผล photogrammetry จากวิดีโอ NVIDIA GauGAN ที่ไม่มีความสอดคล้องกันระหว่างเฟรม: https://x.com/jonathanfly/status/1258127899401609217
สงสัยว่าโปรเจกต์นี้จะทำไอเดียเดียวกันได้ดีกว่าหรือเปล่า อาจจะลองเล่นดูสุดสัปดาห์นี้ก็ได้
- มีเทคนิคหรือไลบรารีอะไรบ้างที่รับภาพสภาพแวดล้อม 3D หรือภาพห้อง แล้วตรวจจับ เมช แบบคร่าว ๆ เพื่อเน้นพื้น ผนัง และสิ่งกีดขวางได้?
หลังจากซื้อ Quest 2 เมื่อก่อน ผมก็หมกมุ่นกับโลกของ photogrammetry และลองดูทั้ง pipeline สำหรับสร้าง โมเดล 3D จากภาพถ่ายของวัตถุจากหลายมุม
ผมใช้ MeshRoom และซอฟต์แวร์อีกไม่กี่ตัวเพื่อเก็บงานเมชให้เรียบร้อยและย้ายเข้า Unity
จากที่พอเข้าใจแบบผิวเผิน หัวใจสำคัญของการย้ายอะไรบางอย่างเข้า VR ใน Unity แบบที่เดินวนรอบวัตถุได้ คือการสร้างเมชที่สะอาด เครื่องมือในโพสต์นี้เท่าที่ดูแบบยังไม่ลึกนัก ดูเหมือนจะสร้างโมเดล 3D ที่ใกล้เคียงกับ point cloud ในพื้นที่ 3D มากกว่า ไม่ได้สร้างเมช 3D
เครื่องมือที่เคยเห็นระหว่างหาข้อมูลมีอย่าง https://developer.nvidia.com/blog/getting-started-with-nvidi... ซึ่งก็ไม่ได้สร้างเมชเหมือนกัน มันใกล้เคียงกับวิดีโอมากกว่า และไม่น่าใช่อะไรที่แค่เอาไปเดินเล่นใน VR ได้ตรง ๆ
แรงจูงใจลึก ๆ คืออยากทำของคล้าย Matterport ขึ้นมาหรือทำเป็นโมเดลแล้วขายให้บริษัทอสังหาริมทรัพย์ ช่องว่างใหญ่ในความเข้าใจของผม และสิ่งที่ทำให้เลิกสนใจไป คือผมไม่แน่ใจว่าจะทำขั้นตอนสร้างเมชที่สะอาดจากภาพถ่ายหลายใบให้เป็นอัตโนมัติได้อย่างไร สำหรับผม ขั้นตอนนี้ดูใช้แรงงานมากที่สุด ภายหลังเคยได้ยินว่ามีโมเดล machine learning ที่ทำขั้นตอนนี้ได้ แต่ผมไม่ค่อยรู้เรื่องฝั่งนั้น
- อาจจะดีกว่าถ้าใช้ Unreal + Nanite + PCVR
  Nanite จัดการเมชที่ซับซ้อนมาก ๆ ได้ และทำการลดความซับซ้อนแบบอัลกอริทึมแบบเรียลไทม์ได้ โดยพื้นฐานแล้วมันคือระบบ LOD ขั้นสูง ผมไม่รู้ว่าข้อจำกัดอยู่ตรงไหน แต่ก็น่าลองมาก สำหรับ photogrammetry ขอแนะนำ Reality Capture อย่างแรง ราคาไม่แพงมากและจ่ายตามจำนวนสแกน
- NeRF เป็นเทคโนโลยีประมาณของปีที่แล้วไปแล้ว ตอนนี้กระแสที่ร้อนแรงอยู่ฝั่ง gaussian splatting
  เท่าที่เข้าใจ เทคโนโลยีแบบนี้รับภาพไม่กี่ภาพเป็นอินพุตแล้วฝึกโมเดล ซึ่งโมเดลนั้นในความหมายหนึ่งคือเรียนรู้วิธีที่ดีที่สุดในการเรนเดอร์ภาพให้เป็นโมเดลของฉาก gaussian splatting แทนภาพด้วย "ก้อน" ชนิดหนึ่งในอวกาศ และแต่ละภาพต้องถูกเรนเดอร์จากชุดก้อนเดียวกันนี้ภายใต้มุมมองเฉพาะ ดังนั้นถ้าหาตำแหน่งของ splat ได้จนแต่ละภาพถูกเรนเดอร์ออกมาถูกต้อง ก็จะสามารถสร้างฉากนั้นขึ้นมาใหม่ได้
  ตอนนี้การฝึกแบบนี้ยังมีต้นทุนสูงมาก และต้องทำใหม่สำหรับแต่ละโมเดล แต่ผลลัพธ์ที่ได้สามารถสำรวจแบบเรียลไทม์ได้
  แนวทาง photogrammetry ที่ Matterport และรายอื่น ๆ ใช้เป็นวิธีเก่ากว่าและต้องการข้อมูลอินพุตคุณภาพสูงกว่ามาก แต่ผมเข้าใจว่าแนวทางสมัยใหม่สามารถทำงานได้แม้มีข้อมูลน้อยกว่าและคุณภาพต่ำกว่า
- https://www.reddit.com/r/sdforall/comments/13lenfm/free_seam...
  https://github.com/3DTopia/OpenLRM
  เขาบอกว่าได้แรงบันดาลใจจาก NeRF แต่ paper ที่เป็นพื้นฐานดูเหมือนจะเลือกใช้ vision transformer และเวอร์ชันโอเพนซอร์ซก็ดูเหมือนจะใช้ DINO ของ Meta เป็นหนึ่งในองค์ประกอบหลัก
- คล้าย ๆ shrink wrap ของ Rhino หรือเปล่า?
ค่อนข้างน่าทึ่งที่สามารถรับฉากที่มีคนจินตนาการแล้ววาดขึ้นมา แล้วสร้างเป็น โมเดล 3D ที่แม้จะไม่ดีนักได้
อนาคตอาจจินตนาการได้ว่าศิลปินแค่วาดสเก็ตช์ฉากไม่กี่ภาพก็จะได้โมเดล 3D ที่แม่นยำ
หรือศิลปิน 2D อาจแค่สเก็ตช์ท่าโพสบางแบบ แล้วได้ทั้งโมเดล 3D ที่มีโครงสร้างดีและ texture ออกมาโดยอัตโนมัติ
ในอุตสาหกรรมมีความกังวลกันมากเกี่ยวกับผลกระทบที่ AI และเครื่องมือคล้ายกันจะมีต่อศิลปิน แต่ก็พอจะนึกภาพอนาคตที่ระบบ machine learning ทำงานร่วมกับศิลปินโดยตรงมากกว่าการเรนเดอร์จาก language prompt ได้เหมือนกัน
สำหรับข้อถกเถียงทางศีลธรรมเรื่องการฝึก AI ผมเองก็ยังไม่มีความรู้สึกที่ชัดเจน สิ่งที่ผมห่วงมากกว่าไม่ใช่ว่ามันถูกฝึกมาอย่างไร แต่คือมันจะส่งผลอย่างไรต่อผู้คน ต่อให้มีโมเดลที่ฝึกมาอย่าง "มีจริยธรรม" อย่างสมบูรณ์และสร้างงานศิลปะที่สมบูรณ์แบบได้ จนศิลปินกลายเป็นอาชีพเฉพาะกลุ่ม ก็อาจยังเป็นผลลัพธ์ที่ไม่ดีต่ออารยธรรมโดยรวม เพราะผมคิดว่าการที่มนุษย์เป็นผู้สร้างศิลปะนั้นมีคุณค่า และการที่งานลักษณะนี้ยังพอเลี้ยงชีพได้ก็มีคุณค่าต่อสังคมในระดับหนึ่งด้วย
ในอีกด้านหนึ่ง ผลลัพธ์ที่ผู้คนสร้างขึ้นจากโมเดลภาพก็น่าทึ่งมากจนผมเองก็ยังไม่แน่ใจ ตามอุดมคติแล้ว ถ้าสามารถสนับสนุนให้คนทำในสิ่งที่ตัวเองอยากทำได้แม้ไม่มีตลาดรองรับก็คงดี แต่โลกทุกวันนี้ยังไม่พร้อมสำหรับแบบนั้น
แม้จะไม่ใช่กราฟิกอาร์ติสต์ แต่ก็รู้สึกว่างานของนักวาดภาพประกอบมีเทคนิคการแสดงออกเชิงสร้างสรรค์มากมายที่ใช้ถ่ายทอดความหมายอันซับซ้อน
แต่ การสร้างพื้นที่ 3D ขึ้นใหม่แบบเละเทะ ที่เห็นในวิดีโอกลับทำให้นึกถึงกระแสคลั่งไคล้โมเดลภาษาขนาดใหญ่ในช่วงหลัง
กล่าวคือ ผลงานที่แสดงออกมามีความเชื่อมโยงชัดเจนกับ "ความจริง" หรือ "ข้อเท็จจริง" ของข้อมูลต้นทาง แต่ก็ยังไม่แม่นยำพอจะถือว่ามีประโยชน์ในฐานะข้อมูลต้นทางสำหรับงานต่อเนื่องได้
- เคยพูดเรื่องนี้มาก่อนแล้ว แต่ก็หวังว่าจะได้เห็นว่า LLM จะสามารถเขียนตอนใหม่ที่มีอารมณ์และแนวทางเดียวกับตอนเดิมได้ไหม
  การได้เห็นตอน "ใหม่" ของการ์ตูนเก่า ๆ น่าจะสนุกมาก แน่นอนว่าเรื่องลิขสิทธิ์อันวุ่นวายที่จะตามมาเป็นอีกเรื่องหนึ่ง
รู้สึกแปลกใจที่มันถ่ายทอดภาพจากมุมมองของภาพบางภาพได้แย่มาก
ตัวอย่างเช่น Magic School Bus ด้านล่าง ทำให้นึกว่าอัลกอริทึมน่าจะปรับไปในทางที่ เชื่อภาพมากขึ้น ได้
- ส่วนสำคัญอย่างหนึ่งของศิลปะคือการแยกแยะระหว่างสิ่งที่ถูกต้องตามความเป็นจริง กับสิ่งที่ ให้ความรู้สึกว่าถูกต้อง
  แม้แต่ในงานแอนิเมชัน 3D และภาพยนตร์ที่ฉันทำเป็นหลัก ฉากหลังหรือวัตถุเบลอ ๆ ด้านหน้าก็มักถูกบิดและจัดวางอย่างประหลาดให้ดูถูกต้อง แม้เมื่อเอาไปแมปกับองค์ประกอบของโลกจริงแล้วจะไม่สมเหตุสมผลก็ตาม ศิลปะ 2D ยิ่งผูกติดกับการแทนโลกจริงน้อยกว่านั้นอีก
  เมื่อดูการประยุกต์แบบนี้ ก็ยิ่งเห็นว่าการที่สมองของเราสามารถสร้างแนวคิดจากการแสดงออกที่ค่อนข้างเป็นนามธรรมได้นั้นน่าทึ่งแค่ไหน และความสามารถของศิลปินในการทำงานอยู่ในพื้นที่ที่นิยามไม่ชัดนั้นก็น่าอัศจรรย์เพียงใด ฉากหนึ่งอาจทำให้ผู้ชมรู้สึกว่ามีมุมมองภาพที่สอดคล้องกัน แต่โซฟากับโต๊ะข้างในฉากหลังอาจถูกวาดราวกับถ่ายด้วยเลนส์ 120mm ขณะที่ฉากหน้าอาจถูกวาดให้ดูอึดอัดแบบเลนส์ 30mm โดยตั้งใจ เราไม่จำเป็นต้องอนุมานพื้นที่ 3D ที่สมจริงซึ่งตัวละครอยู่ในนั้น แค่เข้าใจว่าพวกเขาอยู่ในพื้นที่แบบนั้นก็เพียงพอแล้วจึงดูไม่ขัดตา เรารู้ว่าการอยู่ในพื้นที่เป็นอย่างไร และผู้คนมีปฏิสัมพันธ์กับพื้นที่นั้นอย่างไร
  ศิลปะที่ดีจะให้มาเพียงเท่าที่จำเป็นต่อการสื่อแนวคิดหลัก แล้วทำให้สิ่งนั้นเป็นจุดโฟกัสของสาร จากนั้นปล่อยให้สมองสร้างความเชื่อมโยงและเติมบริบทโดยไม่รู้ตัวจนกลายเป็น "ประสบการณ์" ที่สมบูรณ์ ทุกอย่างตั้งแต่ชนิดของโซฟาและโต๊ะข้าง ไปจนถึงสัดส่วนและความสัมพันธ์ระหว่างวัตถุที่มักถูกบิดหรือขยายเกินจริง ล้วนเป็นชั้นของการสื่อสารเพื่อผลทางศิลปะที่ตั้งใจไว้ และหลายครั้งก็ไม่ได้มีรูปแบบการแทนที่สอดคล้องกันในโลกจริงเลย อีกทั้งในช็อตใด ๆ ก็เป็นไปได้ชัดเจนว่าวัตถุจะถูกย้ายเพื่อช่วยองค์ประกอบภาพหรือเน้นปฏิสัมพันธ์ ถ้าสังเกตเห็นก็คือปัญหาความต่อเนื่อง แต่ถ้าไม่สังเกตเห็นก็ถือว่าทำได้ดี ในกรณีส่วนใหญ่แบบท่วมท้น ไม่มีใครสังเกต และเพียงรู้สึกเหมือนได้เห็นโลกที่มีองค์ประกอบภาพน่าเชื่อถือจากทุกมุม
  อัลกอริทึมที่ต้องมองเส้นแล้วพยายามหาสถานการณ์ในโลกจริงที่สอดคล้องกับการแสดงออกนั้น อาจกำลังพยายามสร้างสิ่งที่ตั้งแต่ต้นก็ไม่อาจมีอยู่ในรูปแบบที่สอดคล้องกันได้เลย
ไม่เข้าใจว่าทำไมเว็บไซต์ที่มีวิดีโอเต็มไปหมดถึงต้องเปิด เล่นอัตโนมัติ และวนซ้ำไม่รู้จบทั้งหมดด้วย
ตอนฉันดูวิดีโอในหน้าจอที่สอง เว็บกระตุกทุกครั้งที่เปิดไซต์
- เป็นปัญหาของ Chrome หรือเปล่า? บน Firefox ของ Windows วิดีโอไม่เล่นอัตโนมัติ
- งั้นก็อาจเป็นสาเหตุที่ Firefox บน iPhone ของฉันค้างตอนโหลด
  ต้องรีสตาร์ตเครื่องถึงจะหาย
ถ้าเอาตัวอย่าง Spirited Away นี้ไปให้ Miyazaki ดู เขาน่าจะเรียกมันว่าเป็น การดูหมิ่นต่อชีวิตเอง
- สำหรับคนที่สงสัย นี่คือการอ้างอิงถึงวิดีโอเก่า: https://www.youtube.com/watch?v=ngZ0K3lWKRc
  เพราะงั้นนี่ไม่ใช่การพูดเกินจริง
น่าแปลกใจที่ดูเหมือนผู้เขียนไม่ได้คุยกับแอนิเมเตอร์ 3D ก่อนเขียนบทความนี้ ประโยคข้างล่างนี้ผิดเฉย ๆ

The hand-drawn images are usually faithful representations of the world, but only in a qualitative sense, since it is difficult for humans to draw multiple perspectives of an object or scene 3D consistently. Nevertheless, people can easily perceive 3D scenes from inconsistent inputs!
เป็นความจริงที่ศิลปินมนุษย์รักษาความสอดคล้องเชิงเรขาคณิตแบบสมบูรณ์ได้ยาก แต่สาเหตุที่ฉาก 3D ใน แอนิเมชัน 2D มีความไม่สอดคล้องเชิงเรขาคณิตไม่ใช่เพราะเรื่องนั้น เหตุผลคือศิลปินทำให้ฉาก 3D มีสไตล์และขับเน้นเพื่อเจตนาทางศิลปะบางอย่าง โดยเฉพาะในงานเหนือจริงอย่าง SpongeBob และแม้แต่ King of the Hill ก็ยังมีการทำให้มีสไตล์แบบ "perspective ห้องนั่งเล่น" หรือ "perspective ห้องครัว" ศิลปินไม่ได้พยายามทำให้มันดูสมจริง แต่พยายามทำให้มันดูดี และก็ไม่ได้พยายามให้มนุษย์สร้างภาพ 3D ที่สมบูรณ์ขึ้นมาใหม่ด้วย แค่ต้องการกระตุ้นจินตนาการ 3D ของเราเท่านั้น ซึ่งเป็นคนละเรื่องกันโดยสิ้นเชิง
Pixar และสตูดิโอแอนิเมชัน 3D คุณภาพสูงอื่น ๆ ตั้งใจบิดเบือนเรขาคณิตจริงของฉากเพื่อผลทางภาพยนตร์ เด็กเล็กที่มองจากระดับสายตาของผู้ใหญ่อาจถูกเรนเดอร์ให้มีคอยาวผิดธรรมชาติและลำตัวสั้นตันอย่างประหลาด เพราะแอนิเมเตอร์จงใจขยาย visual foreshortening เพื่อเน้นผลกระทบทางอารมณ์ของความเป็นเด็กเล็ก มุมมองตามจริงนั้นแค่น่าเบื่อ เทคนิคแบบนี้มีอยู่ทั่วหนังของ Pixar และนั่นทำให้มันดูดีกว่าผลงานจากสตูดิโอราคาถูกที่แค่ขยับกล้องเสมือนในปริภูมิ 3D แบบยูคลิดมาก
ไม่อยากลงรายละเอียดทางเทคนิค แต่ดูเหมือนผู้เขียนจะพลาดหัวใจทางศิลปะไป
- ในฐานะคนที่ทำงานในวงการนี้ นี่ใกล้เคียงกับการเจอฝ่ามือตบหน้าและใบหน้ามากที่สุดแล้ว
  ตัวโปรเจกต์เองไม่มีปัญหา งานวิจัยก็คืองานวิจัย และก็ไม่ได้พยายามขายมันว่าเป็น "ปัญหาที่แก้จบแล้ว" ด้วย แต่ในหมู่คนสายเทคบางประเภท เครื่องมือภาพ AI กลับปลุกความมั่นหน้าแบบ เราแก้ศิลปะได้แล้ว ขึ้นมาอย่างไร้หลักฐาน ผลก็คือมีการตั้งสมมติฐานเรื่องหลักการพื้นฐานของศิลปะอย่างไร้เหตุผลด้วยท่าทีหยิ่งผยอง บางครั้งถึงขั้นวางอำนาจ
  ฉันทำงานในสายซอฟต์แวร์มานาน และความหยิ่งของโลกซอฟต์แวร์ก็ไม่ใช่เรื่องใหม่ แถมบางครั้งยังมีประโยชน์ด้วย แต่แทบไม่เคยเห็นความมั่นใจเกินจริงแบบหมู่คณะต่อประเด็นเดียวที่รุนแรงขนาดนี้ในโลกซอฟต์แวร์
- ยิ่งตลกเมื่อคิดว่าเรื่องเดียวกันนี้ก็เกิดขึ้นกับกล้องทีวีจริง ๆ
  ตัวอย่างง่าย ๆ คือฉากเซ็ตจำนวนมากในซิตคอมที่ดูเหมือนห้องสี่เหลี่ยมจัตุรัส แท้จริงแล้วเป็น สี่เหลี่ยมคางหมู และผนังก็บรรจบกันด้วยมุมป้าน แทบไม่มีใครสังเกตเห็นเลย
- ต่อให้พักเรื่องการทำให้มีสไตล์เพื่อเหตุผลทางศิลปะเฉพาะไว้ก่อน งานในบริบทแบบนี้ก็เลี่ยงการบิดเบือนไม่ได้อยู่ดีเพราะความจำเป็นพื้นฐานของกล้องหรือ "กล้อง"
  งานก่อนยุค HD เป็นแบบนั้นยิ่งกว่าอีก เพราะถ้าจะดึงระยะภาพให้ใกล้พอที่จะอ่านสีหน้าและภาษากายได้ คนหรือคาแรกเตอร์ก็ต้องอยู่ในเฟรมแบบค่อนข้างแน่น เจาะลึกดูแม้แต่รายการยุคนั้นที่ "สมจริง" และสุขุมที่สุด สุดท้ายคุณก็จะเจอช่วงที่มีการขยับเฟอร์นิเจอร์หรือแม้แต่ผนังอย่างแนบเนียนเพื่อให้ช็อตบางช็อตใช้ได้

Toon3D: มองการ์ตูนจากมุมมองใหม่

เหตุผลที่ SfM ยากในฉากวาดมือ

วิธีจัดแนวที่ดูดซับความไม่สอดคล้อง

Pipeline การประมวลผล

การปรับให้เหมาะสมพร้อมกันของกล้องและการ deform

การสังเคราะห์มุมมองใหม่และ fly-through render

Toon3D Dataset และเครื่องมือติดป้ายกำกับ

การสร้างภายในบ้านของ Rick and Morty ขึ้นใหม่

Sparse-view และกรณีอินพุตอื่น ๆ

การแสดงภาพการ warping และการสร้างภาพวาดขึ้นใหม่

เอกสารและทรัพยากรที่เผยแพร่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News