World Labs: เทคโนโลยีสร้างโลก 3D จากภาพเดียว
(worldlabs.ai)-
ระบบ AI สร้างโลก 3D
- World Labs กำลังพัฒนาระบบ AI ที่สามารถสร้างโลก 3D จากภาพเพียงภาพเดียว
- เทคโนโลยีนี้มีศักยภาพในการปฏิวัติวิธีการสร้างคอนเทนต์ดิจิทัลหลากหลายรูปแบบ เช่น ภาพยนตร์ เกม และซิมูเลเตอร์
-
การสำรวจโลก
- ผู้ใช้สามารถสำรวจโลก 3D ที่สร้างขึ้นได้ โดยใช้ปุ่มลูกศรหรือปุ่ม WASD เพื่อเคลื่อนที่ และใช้เมาส์ปรับมุมมอง
-
เอฟเฟกต์กล้อง
- เรนเดอร์ฉากแบบเรียลไทม์ผ่านกล้องเสมือน และสามารถสร้างเอฟเฟกต์ภาพถ่ายอย่างระยะชัดตื้นหรือ dolly zoom ได้
-
เอฟเฟกต์ 3D
- การคาดการณ์ฉาก 3D มอบความสมจริงที่ต่อเนื่อง การควบคุมแบบเรียลไทม์ และโครงสร้างเรขาคณิตที่ถูกต้อง
- สามารถแสดงระยะห่างระหว่างกล้องกับแต่ละพิกเซลได้ผ่าน depth map
-
ก้าวเข้าไปในภาพวาด
- สร้างโลกเพื่อให้สามารถสัมผัสผลงานศิลปะชื่อดังได้ในรูปแบบใหม่
- ส่วนที่ไม่มีอยู่ในภาพวาดต้นฉบับจะถูกสร้างขึ้นโดยโมเดล
-
เวิร์กโฟลว์เชิงสร้างสรรค์
- การสร้างโลก 3D สามารถผสานเข้ากับเครื่องมือ AI อื่น ๆ ได้อย่างเป็นธรรมชาติ เพื่อสร้างประสบการณ์รูปแบบใหม่
- ใช้โมเดล text-to-image เพื่อสร้างภาพจากข้อความ แล้วนำภาพนั้นมาใช้เป็นฐานในการสร้างโลก 3D
-
แนวโน้มในอนาคต
- World Labs กำลังปรับปรุงทั้งขนาดและความสมจริงของโลก 3D พร้อมทดลองวิธีการโต้ตอบกับผู้ใช้รูปแบบต่าง ๆ
- สามารถติดตามข้อมูลเกี่ยวกับการเปิดตัวในอนาคตได้ผ่านรายชื่อรอ และแนะนำให้ผู้ที่สนใจเข้าร่วม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
พอลองเดโมแล้ว ภาพเคลื่อนไหวทำให้เข้าใจผิด เดินไปได้ไม่กี่ก้าวก็ชนกำแพงล่องหน ทำให้ผิดหวังค่อนข้างมาก เข้าใจว่าเป็นช่วงเริ่มต้น แต่ก็ให้ความรู้สึกว่าโฆษณาเกินจริง
เวลาใส่ชุดหูฟัง VR ดูหนัง 3D ถ้าขยับศีรษะ ภาพลวงตาแบบ 3D จะพังลง แต่ในเกม 3D ถ้าขยับศีรษะก็สามารถสำรวจพื้นที่ได้ ถ้านำสิ่งนี้ไปใช้กับทุกเฟรมของภาพยนตร์ ก็อาจคงการเคลื่อนไหวเล็กน้อยและการเปลี่ยนมุมมองไว้ได้ แต่ก็อาจกระทบต่อเจตนาของผู้กำกับและผู้กำกับภาพ
แม้จะมีข้อบ่นเรื่องพื้นที่ที่เล็ก แต่การแปลงภาพให้เป็นโลก 3D ก็เป็นเทคโนโลยีที่น่าทึ่ง แม้ AI จะกลายเป็นเรื่องทั่วไปมากขึ้นเรื่อยๆ แต่นี่ยังคงเป็นความสำเร็จที่น่าประทับใจ
มีวิธีใช้ Depth Anywhere แปลงภาพ 360º เป็น virtual depth map แล้วนำไปใช้กับ point cloud เพื่อเรนเดอร์ ต่างจากตัวอย่างของ World Lab ตรงที่สามารถตรวจสอบข้อบกพร่องของแนวทางนี้ได้เมื่อเลยขอบเขตของ point cloud ไป แต่ก็ยังต้องปรับปรุงอีกมาก
เทคโนโลยีนี้เจ๋งดี แต่ยังไม่น่าประทับใจเท่า cat-4d.github.io
อาจเป็นเพราะเห็นเดโม AI มาเยอะ เลยเริ่มด้านชากับเรื่องที่ต้องหาวิธีทำให้เทคโนโลยีมีประโยชน์ใช้งานได้จริง ส่วน "Step into Paintings" นั้นสนุกดี แต่พอออกนอกขอบเขตของข้อมูลต้นทาง ข้อจำกัดของโมเดลก็ชัดเจนขึ้น แม้จะทำให้สัมผัสงานศิลปะได้ในรูปแบบใหม่ แต่ก็ไม่ใช่ประสบการณ์ที่ดีนัก
มีความคาดหวังว่า XYZ อาจทำให้การบันทึกจาก Unreal และ NVIDIA Isaac กลายเป็นสิ่งที่ใช้ได้ทั่วไปได้ สงสัยว่า XYZ เป็น diffusion-transformers, Chameleon หรือเป็นสถาปัตยกรรมใหม่ การพัฒนาโมเดลใช้เวลานานและอาจมีต้นทุนสูง ทีมนี้มีความสามารถมาก แต่ก็อาจมีเงินทุนไม่เพียงพอ
ข้อดีของโปรเจ็กต์แบบนี้มักถูกกลบด้วยการกล่าวอ้างเกินจริง
ภาพพื้นฐานดูเหมือนเป็นภาพที่เรนเดอร์แล้ว มีแสง เงา และอื่นๆ ครบ พอใช้เครื่องมืออื่นกลับใช้งานได้ดีแค่กับภาพตัวอย่าง แต่ถ้าใช้ภาพอื่นจะได้รูปทรงสีดำแบนๆ ดังนั้นพาดหัวควรเป็น "สร้างโลก 3D จากภาพเดียวด้วยโมเดลที่เราฝึกเอง" มากกว่า
ตอนลองครั้งแรกแล้วเจอข้อความ "Out of bounds" ก็แอบตกใจ พอไปดูส่วน "Looking Ahead" ก็เห็นว่ากำลังปรับปรุงเรื่องขนาดและความแม่นยำอยู่