- WorldGen ของ Meta คือ ระบบ AI เชิงกำเนิดแบบ end-to-end ที่สร้าง โลก 3D ที่สำรวจได้ โดยอัตโนมัติจากข้อความพรอมต์เพียงชุดเดียว
- ผสาน การให้เหตุผลเชิงกระบวนการ, การสร้าง 3D แบบ diffusion-based, และ การแยกฉากด้วยการรู้จำวัตถุ เพื่อสร้างสภาพแวดล้อมที่ สอดคล้องกันทางเรขาคณิตและอุดมด้วยรายละเอียดด้านภาพ
- กระบวนการสร้างประกอบด้วย 4 ขั้นตอน ได้แก่ Planning, Reconstruction, Decomposition และ Refinement
- ผลลัพธ์รองรับมาตรฐานเกมเอนจินอย่าง Unity และ Unreal และสามารถนำไปใช้ได้โดยไม่ต้องผ่านกระบวนการแปลงเพิ่มเติม
- มีศักยภาพในการ ทำให้การสร้างคอนเทนต์ 3D ที่ซับซ้อนและมีต้นทุนสูงเป็นสิ่งที่ใครก็ทำได้ พร้อมเพิ่มประสิทธิภาพ
ภาพรวมของ WorldGen
- WorldGen สามารถสร้าง โลก 3D ที่โต้ตอบได้ ภายในไม่กี่นาที จากข้อความอย่าง “cartoon medieval village” หรือ “sci-fi base station on Mars” เพียงอย่างเดียว
- โลกที่สร้างขึ้นจะคง ความสอดคล้องของสไตล์และธีม และเชื่อมต่อกันเป็นโครงสร้างที่ตัวละครเคลื่อนที่ได้อย่างอิสระ
- อาศัย ความก้าวหน้าของเทคโนโลยี generative AI เพื่อสร้าง สภาพแวดล้อม 3D ที่สมบูรณ์ จากข้อความหรือพรอมต์ภาพเพียงชุดเดียว
โครงสร้างเทคโนโลยีและขั้นตอนการสร้าง
- WorldGen เริ่มจาก ขั้นตอนการวางแผน ที่รวม การสร้าง procedural blockout, การสกัด Navmesh และ การสร้างภาพอ้างอิง
- จากนั้นเข้าสู่ ขั้นตอนการประกอบกลับ ที่ทำ การแปลงภาพเป็น 3D, การสร้างฉากบนพื้นฐานของ Navmesh และ การสร้างพื้นผิวเบื้องต้น
- ใช้ AutoPartGen สำหรับ การแยกองค์ประกอบฉากและการคิวเรตข้อมูล เพื่อแยกรายละเอียดต่าง ๆ ออกมา
- สุดท้ายดำเนิน ขั้นตอนการปรับแต่ง ผ่าน การปรับปรุงภาพ, การขัดเกลา mesh และ โมเดลทำพื้นผิว
ความแตกต่างจากแนวทางเดิม
- ระบบแบบเดิมสร้างโดยยึด มุมมองเดียว (viewpoint) เป็นหลัก ทำให้คุณภาพลดลงอย่างรวดเร็วเมื่อออกห่างจากจุดศูนย์กลาง
- WorldGen สร้าง ฉากพร้อมพื้นผิวเต็มรูปแบบขนาด 50×50 เมตร โดยยังคง ความสอดคล้องของสไตล์และเรขาคณิต
- ขณะนี้กำลังเดินหน้าวิจัยเพื่อรองรับโลกที่มีขนาดใหญ่ยิ่งขึ้นในอนาคต
ความเข้ากันได้และศักยภาพในการใช้งาน
- ปัจจุบันยังอยู่ใน ขั้นวิจัย และยังไม่ได้เปิดให้นักพัฒนาใช้งาน แต่คอนเทนต์ที่สร้างขึ้นสามารถใช้ได้ทันทีใน Unity และ Unreal
- ไม่จำเป็นต้องแปลง rendering pipeline เพิ่มเติม
ข้อจำกัดและทิศทางในอนาคต
- โมเดลปัจจุบันยังมีช่องให้ปรับปรุงในด้าน ขนาดพื้นที่ และ ความหน่วงในการสร้าง (latency)
- เวอร์ชันถัดไปจะมุ่งสู่ การสร้างพื้นที่ที่ใหญ่ขึ้น และ ความเร็วที่ดีขึ้น
นัยสำคัญต่ออุตสาหกรรม
- ช่วยลด ความซับซ้อนและภาระด้านต้นทุน ของการสร้างคอนเทนต์ 3D และเปิดโอกาสให้ ผู้ที่ไม่ใช่ผู้เชี่ยวชาญก็สร้างโลกเสมือนได้
- สอดคล้องกับวิสัยทัศน์ที่ Meta นำเสนอในงาน Connect ว่า อนาคตที่ใครก็สร้างโลกเสมือนได้โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว
รายชื่อผู้มีส่วนร่วม
- โปรเจกต์นี้ดำเนินการโดย ทีม Reality Labs 3D GenAI
- ผู้มีส่วนร่วมหลัก: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn และคนอื่น ๆ (สัญลักษณ์ † หมายถึงหัวหน้าโปรเจกต์)
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เป็นเดโมที่น่าสนใจดี แต่เข้าไปในอาคารไม่ได้ ขนาดอาคารกับผังหมู่บ้านก็แทบเหมือนกันหมด แถมยังมีความไม่สอดคล้องทางภาพเยอะ
สุดท้ายแล้วมันดูเหมือนแค่ เอากล่องหน้าตาคล้าย ๆ กันมาวางบนกริด แล้วให้เดินวนอยู่ระหว่างนั้น
แม้จะเข้าใจว่าความก้าวหน้ามักเกิดขึ้นแบบค่อยเป็นค่อยไป แต่เมื่อเทียบกับเดโมสร้างโลกอื่น ๆ แล้ว มันดูเป็นก้าวที่เล็กเกินไป
อาคารทุกหลังถูกวางห่างกันอย่างสม่ำเสมอบนกริด และเหมือนจะมีข้อจำกัดเรื่องความสูงด้วย
เกมโอเพนเวิลด์ที่สมจริงอย่าง GTA, Cyberpunk เป็นต้น จงใจใส่ 'ความแออัดที่ถูกออกแบบไว้' เช่น ทางตันหรือประตูที่ล็อก
ถ้าทุกถนนพาไปยังที่น่าสนใจหมด ความสนุกของการสำรวจก็อาจหายไป
ถ้าเป็นแนวทางที่ใช้ asset แบบชัดเจน ก็อาจเหมาะกับการทำเกมมากกว่า
Meta ก็มีงานวิจัยแกนหลักในสายนี้ออกมาหลายชิ้นและมี Hyperscape อยู่แล้ว จึงอาจมองได้ว่าเป็น การทดลองอีกทิศทางหนึ่ง
เลยสงสัยว่าเมื่อไรผู้ใช้ทั่วไปจะได้ลองใช้ engine สร้างโลก แบบนี้ด้วยตัวเอง
ไม่เข้าใจเหมือนกันว่าทำไม Google, Meta, Tencent ถึงมีแต่สาธิต แต่ไม่ปล่อยให้ใช้งานจริงเสียที
นี่ดูเหมือน engineering pipeline ที่เอาเทคโนโลยี GenAI ที่มีอยู่มาประกอบกัน
ผลลัพธ์เองก็ยังไม่ถึงระดับ SOTA และดูเหมือน แนวทางที่ตันแล้ว มากกว่าจะเป็นความก้าวหน้า
นวัตกรรมจริงน่าจะเป็นการสร้าง mesh พร้อม texture โดยตรงด้วย โมเดลที่เรียนรู้แบบ end-to-end แต่การที่ยังทำไม่ได้ก็อาจหมายความว่าเทคโนโลยีแกนกลางยังไม่พร้อม
ถึงอย่างนั้น มันก็น่าจะใช้เป็นเครื่องมือบูตสแตรปชุดข้อมูลสำหรับฝึกโมเดลในอนาคตได้
นี่ใกล้เคียงกับ 3DAssetGen มากกว่าจะเป็น "world model"
มันไม่ได้สร้างโลกจริง ๆ แต่แค่เอา asset มาประกอบกัน
โลกที่ทำด้วยมือยังดีกว่ามาก และเสน่ห์ยังน้อยกว่าเกมที่ทำด้วย RPG Maker เสียอีก
ถึงอย่างนั้นก็ยังมีความหมายในฐานะความพยายามครั้งแรก และหวังว่า AI จะช่วย ลดกำแพงในการสร้างโลกเมตาเวิร์ส ได้
ยิ่งนึกถึงความจริงที่ว่าแค่จะสร้างเกาะเล็ก ๆ แบบ GTA สักแห่งก็ต้องใช้ทั้งเวลาและเงินมหาศาล ก็ยิ่งเป็นแบบนั้น
สู้ไปซื้อโมเดลอาคารจาก asset store ราคา 5 ดอลลาร์ ยังดีกว่า
อดสงสัยไม่ได้ว่าจำเป็นด้วยหรือที่จะต้องทุ่มเงินหลายหมื่นล้านดอลลาร์สร้างดาต้าเซ็นเตอร์และทำลายสิ่งแวดล้อมเพื่อทำสิ่งนี้
และก็สงสัยด้วยว่าทุกวันนี้ศิลปิน 3D ยังเต็มใจแจก asset ฟรีกันอยู่ไหม
บรรยากาศของวิดีโอแรกทำให้นึกถึง Warcraft 3 หรือ DotA
เคยมีช่วงเวลาที่แผนที่เรียบง่ายเพียงแผนที่เดียวเปลี่ยนเกมออนไลน์และ e-sports ไปโดยสิ้นเชิง
ตอนนี้แม้เราจะสร้าง โลกแบบออนดีมานด์ที่คุณภาพสูงกว่า ได้มากแล้ว แต่แผนที่เรียบง่ายในตอนนั้นกลับยังดูยิ่งใหญ่กว่าเสียอีก
สุดท้ายแล้ว สิ่งที่เราต้องการก็แค่ SimCity ที่ดีกว่าเดิม แต่ไม่เข้าใจว่าทำไมต้องมีโมเดลสร้างโลกและดาต้าเซ็นเตอร์มากมายขนาดนี้
การใช้ทั้งไฟฟ้าและน้ำมหาศาลเพื่อสร้างหมู่บ้านปลอม ๆ มันช่างย้อนแย้ง
ผมเองก็ไม่ซื้อคอนโซลเพราะกลัวจะติดเกมอย่าง Red Dead
เลยอดสงสัยไม่ได้ว่าเทคโนโลยีแบบนี้ เป็นประโยชน์กับใครกันแน่
กดลิงก์แล้วขึ้น 404 ก็เลยลองค้นดู พบว่ามี โปรเจกต์ Worldgen ชื่อเดียวกันตั้งแต่เดือนพฤษภาคมแล้ว
ฝั่งนั้นดูจะทำ ฉาก 3D ที่สมจริงกว่า ได้ดีกว่ามาก
ขยับกล้องนิดเดียวก็พังแล้ว
ตัวบทความวิจัยเองถือว่าค่อนข้างดี
มีรายละเอียดที่น่าสนใจเกี่ยวกับ วิธีประมวลผล mesh รายชิ้น
ลิงก์งานวิจัย
เห็นใช้คำว่า "interactive" หลายครั้ง เลยนึกว่าจะมี การโต้ตอบจริง อย่างเปิดประตูหรือหยิบของได้
แต่ที่จริงหมายถึงแค่สามารถเดินดูได้ในมุมมองบุคคลที่หนึ่ง
ถ้านิยามแบบนั้น โมเดล 3D ทุกอันก็คงเรียกว่า interactive ได้หมด
การสร้างพาโนรามาด้วย diffusion แบบ 2D → แปลงเป็น point cloud → 3D lifting → 2D inpainting → ปรับเหมาะค่า 3D Gaussian splatting
มันคือการเอาภาพมาต่อ ๆ กันให้กลายเป็น 3D
ในเชิงแนวคิดนี่เป็น แนวทางที่เรียกว่า world model ได้ไม่เต็มปากนัก จึงน่าเสียดายที่คำศัพท์ยังคลุมเครือ