3 คะแนน โดย GN⁺ 2025-11-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • WorldGen ของ Meta คือ ระบบ AI เชิงกำเนิดแบบ end-to-end ที่สร้าง โลก 3D ที่สำรวจได้ โดยอัตโนมัติจากข้อความพรอมต์เพียงชุดเดียว
  • ผสาน การให้เหตุผลเชิงกระบวนการ, การสร้าง 3D แบบ diffusion-based, และ การแยกฉากด้วยการรู้จำวัตถุ เพื่อสร้างสภาพแวดล้อมที่ สอดคล้องกันทางเรขาคณิตและอุดมด้วยรายละเอียดด้านภาพ
  • กระบวนการสร้างประกอบด้วย 4 ขั้นตอน ได้แก่ Planning, Reconstruction, Decomposition และ Refinement
  • ผลลัพธ์รองรับมาตรฐานเกมเอนจินอย่าง Unity และ Unreal และสามารถนำไปใช้ได้โดยไม่ต้องผ่านกระบวนการแปลงเพิ่มเติม
  • มีศักยภาพในการ ทำให้การสร้างคอนเทนต์ 3D ที่ซับซ้อนและมีต้นทุนสูงเป็นสิ่งที่ใครก็ทำได้ พร้อมเพิ่มประสิทธิภาพ

ภาพรวมของ WorldGen

  • WorldGen สามารถสร้าง โลก 3D ที่โต้ตอบได้ ภายในไม่กี่นาที จากข้อความอย่าง “cartoon medieval village” หรือ “sci-fi base station on Mars” เพียงอย่างเดียว
    • โลกที่สร้างขึ้นจะคง ความสอดคล้องของสไตล์และธีม และเชื่อมต่อกันเป็นโครงสร้างที่ตัวละครเคลื่อนที่ได้อย่างอิสระ
  • อาศัย ความก้าวหน้าของเทคโนโลยี generative AI เพื่อสร้าง สภาพแวดล้อม 3D ที่สมบูรณ์ จากข้อความหรือพรอมต์ภาพเพียงชุดเดียว

โครงสร้างเทคโนโลยีและขั้นตอนการสร้าง

  • WorldGen เริ่มจาก ขั้นตอนการวางแผน ที่รวม การสร้าง procedural blockout, การสกัด Navmesh และ การสร้างภาพอ้างอิง
  • จากนั้นเข้าสู่ ขั้นตอนการประกอบกลับ ที่ทำ การแปลงภาพเป็น 3D, การสร้างฉากบนพื้นฐานของ Navmesh และ การสร้างพื้นผิวเบื้องต้น
  • ใช้ AutoPartGen สำหรับ การแยกองค์ประกอบฉากและการคิวเรตข้อมูล เพื่อแยกรายละเอียดต่าง ๆ ออกมา
  • สุดท้ายดำเนิน ขั้นตอนการปรับแต่ง ผ่าน การปรับปรุงภาพ, การขัดเกลา mesh และ โมเดลทำพื้นผิว

ความแตกต่างจากแนวทางเดิม

  • ระบบแบบเดิมสร้างโดยยึด มุมมองเดียว (viewpoint) เป็นหลัก ทำให้คุณภาพลดลงอย่างรวดเร็วเมื่อออกห่างจากจุดศูนย์กลาง
  • WorldGen สร้าง ฉากพร้อมพื้นผิวเต็มรูปแบบขนาด 50×50 เมตร โดยยังคง ความสอดคล้องของสไตล์และเรขาคณิต
  • ขณะนี้กำลังเดินหน้าวิจัยเพื่อรองรับโลกที่มีขนาดใหญ่ยิ่งขึ้นในอนาคต

ความเข้ากันได้และศักยภาพในการใช้งาน

  • ปัจจุบันยังอยู่ใน ขั้นวิจัย และยังไม่ได้เปิดให้นักพัฒนาใช้งาน แต่คอนเทนต์ที่สร้างขึ้นสามารถใช้ได้ทันทีใน Unity และ Unreal
  • ไม่จำเป็นต้องแปลง rendering pipeline เพิ่มเติม

ข้อจำกัดและทิศทางในอนาคต

  • โมเดลปัจจุบันยังมีช่องให้ปรับปรุงในด้าน ขนาดพื้นที่ และ ความหน่วงในการสร้าง (latency)
  • เวอร์ชันถัดไปจะมุ่งสู่ การสร้างพื้นที่ที่ใหญ่ขึ้น และ ความเร็วที่ดีขึ้น

นัยสำคัญต่ออุตสาหกรรม

  • ช่วยลด ความซับซ้อนและภาระด้านต้นทุน ของการสร้างคอนเทนต์ 3D และเปิดโอกาสให้ ผู้ที่ไม่ใช่ผู้เชี่ยวชาญก็สร้างโลกเสมือนได้
  • สอดคล้องกับวิสัยทัศน์ที่ Meta นำเสนอในงาน Connect ว่า อนาคตที่ใครก็สร้างโลกเสมือนได้โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว

รายชื่อผู้มีส่วนร่วม

  • โปรเจกต์นี้ดำเนินการโดย ทีม Reality Labs 3D GenAI
  • ผู้มีส่วนร่วมหลัก: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn และคนอื่น ๆ (สัญลักษณ์ † หมายถึงหัวหน้าโปรเจกต์)

1 ความคิดเห็น

 
GN⁺ 2025-11-24
ความคิดเห็นจาก Hacker News
  • เป็นเดโมที่น่าสนใจดี แต่เข้าไปในอาคารไม่ได้ ขนาดอาคารกับผังหมู่บ้านก็แทบเหมือนกันหมด แถมยังมีความไม่สอดคล้องทางภาพเยอะ
    สุดท้ายแล้วมันดูเหมือนแค่ เอากล่องหน้าตาคล้าย ๆ กันมาวางบนกริด แล้วให้เดินวนอยู่ระหว่างนั้น
    แม้จะเข้าใจว่าความก้าวหน้ามักเกิดขึ้นแบบค่อยเป็นค่อยไป แต่เมื่อเทียบกับเดโมสร้างโลกอื่น ๆ แล้ว มันดูเป็นก้าวที่เล็กเกินไป

    • หมู่บ้านที่ AI สร้างดูราวกับผ่าน ข้อบังคับผังเมืองที่เข้มงวดมาก
      อาคารทุกหลังถูกวางห่างกันอย่างสม่ำเสมอบนกริด และเหมือนจะมีข้อจำกัดเรื่องความสูงด้วย
      เกมโอเพนเวิลด์ที่สมจริงอย่าง GTA, Cyberpunk เป็นต้น จงใจใส่ 'ความแออัดที่ถูกออกแบบไว้' เช่น ทางตันหรือประตูที่ล็อก
      ถ้าทุกถนนพาไปยังที่น่าสนใจหมด ความสนุกของการสำรวจก็อาจหายไป
    • เดโมนี้อาจมีประโยชน์กับ pipeline การผลิตคอนเทนต์ มากกว่าตัวอย่างอื่นอย่าง World Labs
      ถ้าเป็นแนวทางที่ใช้ asset แบบชัดเจน ก็อาจเหมาะกับการทำเกมมากกว่า
      Meta ก็มีงานวิจัยแกนหลักในสายนี้ออกมาหลายชิ้นและมี Hyperscape อยู่แล้ว จึงอาจมองได้ว่าเป็น การทดลองอีกทิศทางหนึ่ง
    • มองไม่เห็น ลิงก์เดโมที่ใช้งานได้จริง
    • เกมส่วนใหญ่ก็เข้าอาคารไม่ได้อยู่แล้ว แม้แต่ใน Cyberpunk เอง ประตูที่เปิดได้ก็มีน้อยมาก
      เลยสงสัยว่าเมื่อไรผู้ใช้ทั่วไปจะได้ลองใช้ engine สร้างโลก แบบนี้ด้วยตัวเอง
      ไม่เข้าใจเหมือนกันว่าทำไม Google, Meta, Tencent ถึงมีแต่สาธิต แต่ไม่ปล่อยให้ใช้งานจริงเสียที
  • นี่ดูเหมือน engineering pipeline ที่เอาเทคโนโลยี GenAI ที่มีอยู่มาประกอบกัน
    ผลลัพธ์เองก็ยังไม่ถึงระดับ SOTA และดูเหมือน แนวทางที่ตันแล้ว มากกว่าจะเป็นความก้าวหน้า
    นวัตกรรมจริงน่าจะเป็นการสร้าง mesh พร้อม texture โดยตรงด้วย โมเดลที่เรียนรู้แบบ end-to-end แต่การที่ยังทำไม่ได้ก็อาจหมายความว่าเทคโนโลยีแกนกลางยังไม่พร้อม
    ถึงอย่างนั้น มันก็น่าจะใช้เป็นเครื่องมือบูตสแตรปชุดข้อมูลสำหรับฝึกโมเดลในอนาคตได้

    • อยากรู้ว่า เทคโนโลยี SOTA ในสายนี้ตอนนี้คืออะไร
    • แม้นักพัฒนาคงพยายามอย่างเต็มที่เพื่อตอบโจทย์จากเบื้องบน แต่นี่ก็ดูเป็นตัวอย่างของ ข้อจำกัดด้านนวัตกรรมของบริษัทใหญ่
  • นี่ใกล้เคียงกับ 3DAssetGen มากกว่าจะเป็น "world model"
    มันไม่ได้สร้างโลกจริง ๆ แต่แค่เอา asset มาประกอบกัน
    โลกที่ทำด้วยมือยังดีกว่ามาก และเสน่ห์ยังน้อยกว่าเกมที่ทำด้วย RPG Maker เสียอีก

    • ดูเหมือนว่าจะสร้างได้จริงแค่พื้นที่สี่เหลี่ยมจัตุรัสเล็ก ๆ เท่านั้น โลกแบบเป็นกริด อย่างนี้น่าจะทำให้ผู้เล่นอึดอัด
      ถึงอย่างนั้นก็ยังมีความหมายในฐานะความพยายามครั้งแรก และหวังว่า AI จะช่วย ลดกำแพงในการสร้างโลกเมตาเวิร์ส ได้
      ยิ่งนึกถึงความจริงที่ว่าแค่จะสร้างเกาะเล็ก ๆ แบบ GTA สักแห่งก็ต้องใช้ทั้งเวลาและเงินมหาศาล ก็ยิ่งเป็นแบบนั้น
    • ไม่มีคำว่า "world model" อยู่ตรงไหนในหน้านั้นเลย
  • สู้ไปซื้อโมเดลอาคารจาก asset store ราคา 5 ดอลลาร์ ยังดีกว่า
    อดสงสัยไม่ได้ว่าจำเป็นด้วยหรือที่จะต้องทุ่มเงินหลายหมื่นล้านดอลลาร์สร้างดาต้าเซ็นเตอร์และทำลายสิ่งแวดล้อมเพื่อทำสิ่งนี้

    • ผมว่าควรเอาเงินนั้นไปสนับสนุน ศิลปิน low-poly อย่าง Quaternius มากกว่า
      และก็สงสัยด้วยว่าทุกวันนี้ศิลปิน 3D ยังเต็มใจแจก asset ฟรีกันอยู่ไหม
  • บรรยากาศของวิดีโอแรกทำให้นึกถึง Warcraft 3 หรือ DotA
    เคยมีช่วงเวลาที่แผนที่เรียบง่ายเพียงแผนที่เดียวเปลี่ยนเกมออนไลน์และ e-sports ไปโดยสิ้นเชิง
    ตอนนี้แม้เราจะสร้าง โลกแบบออนดีมานด์ที่คุณภาพสูงกว่า ได้มากแล้ว แต่แผนที่เรียบง่ายในตอนนั้นกลับยังดูยิ่งใหญ่กว่าเสียอีก

  • สุดท้ายแล้ว สิ่งที่เราต้องการก็แค่ SimCity ที่ดีกว่าเดิม แต่ไม่เข้าใจว่าทำไมต้องมีโมเดลสร้างโลกและดาต้าเซ็นเตอร์มากมายขนาดนี้
    การใช้ทั้งไฟฟ้าและน้ำมหาศาลเพื่อสร้างหมู่บ้านปลอม ๆ มันช่างย้อนแย้ง
    ผมเองก็ไม่ซื้อคอนโซลเพราะกลัวจะติดเกมอย่าง Red Dead
    เลยอดสงสัยไม่ได้ว่าเทคโนโลยีแบบนี้ เป็นประโยชน์กับใครกันแน่

  • กดลิงก์แล้วขึ้น 404 ก็เลยลองค้นดู พบว่ามี โปรเจกต์ Worldgen ชื่อเดียวกันตั้งแต่เดือนพฤษภาคมแล้ว
    ฝั่งนั้นดูจะทำ ฉาก 3D ที่สมจริงกว่า ได้ดีกว่ามาก

    • แต่จริง ๆ แล้วอันนั้นก็แทบจะเป็น ลูกเล่นที่ทำให้ภาพ 2D ดูเหมือน 3D มากกว่า
      ขยับกล้องนิดเดียวก็พังแล้ว
  • ตัวบทความวิจัยเองถือว่าค่อนข้างดี
    มีรายละเอียดที่น่าสนใจเกี่ยวกับ วิธีประมวลผล mesh รายชิ้น
    ลิงก์งานวิจัย

  • เห็นใช้คำว่า "interactive" หลายครั้ง เลยนึกว่าจะมี การโต้ตอบจริง อย่างเปิดประตูหรือหยิบของได้
    แต่ที่จริงหมายถึงแค่สามารถเดินดูได้ในมุมมองบุคคลที่หนึ่ง
    ถ้านิยามแบบนั้น โมเดล 3D ทุกอันก็คงเรียกว่า interactive ได้หมด

  • การสร้างพาโนรามาด้วย diffusion แบบ 2D → แปลงเป็น point cloud → 3D lifting → 2D inpainting → ปรับเหมาะค่า 3D Gaussian splatting
    มันคือการเอาภาพมาต่อ ๆ กันให้กลายเป็น 3D
    ในเชิงแนวคิดนี่เป็น แนวทางที่เรียกว่า world model ได้ไม่เต็มปากนัก จึงน่าเสียดายที่คำศัพท์ยังคลุมเครือ