1 คะแนน โดย GN⁺ 2024-08-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Diffusion Models Are Real-Time Game Engines

  • GameNGen: เอนจินเกมตัวแรกที่ขับเคลื่อนด้วยโมเดลประสาท ซึ่งมอบการโต้ตอบกับสภาพแวดล้อมที่ซับซ้อนแบบเรียลไทม์ด้วยคุณภาพสูง
  • การจำลอง DOOM: สามารถจำลองเกมคลาสสิก DOOM แบบโต้ตอบได้ที่มากกว่า 20 เฟรมต่อวินาทีบน TPU เพียงตัวเดียว
  • PSNR: ทำได้ 29.4 PSNR ในการทำนายเฟรมถัดไป ซึ่งใกล้เคียงกับการบีบอัด JPEG แบบสูญเสียข้อมูล
  • ผู้ประเมินที่เป็นมนุษย์: ผู้ประเมินที่เป็นมนุษย์แยกความต่างระหว่างคลิปเกมจริงกับคลิปจำลองได้ดีกว่าการเดาสุ่มเพียงเล็กน้อย

วิดีโอการเล่นเกมแบบเต็ม

การเก็บข้อมูลผ่านการเล่นของเอเจนต์

  • เอเจนต์ RL อัตโนมัติ: เนื่องจากไม่สามารถเก็บข้อมูลการเล่นเกมของมนุษย์ในปริมาณมากได้ ขั้นตอนแรกจึงฝึกเอเจนต์ RL อัตโนมัติให้เล่นเกม แล้วบันทึกการกระทำและการสังเกตจากเอพิโสดการฝึกเหล่านี้เพื่อนำไปใช้เป็นข้อมูลฝึกของโมเดลเชิงกำเนิด

การฝึกโมเดล diffusion เชิงกำเนิด

  • Stable Diffusion v1.4: นำโมเดล diffusion ขนาดเล็กที่ใช้ลำดับของการกระทำและการสังเกต (เฟรม) ก่อนหน้าเป็นเงื่อนไขกลับมาใช้ใหม่
  • การเพิ่ม Gaussian noise: ระหว่างการฝึก จะเพิ่ม Gaussian noise ลงในเฟรมที่ถูกเข้ารหัสเพื่อทำให้เฟรมบริบทเสียหาย เพื่อให้เครือข่ายสามารถแก้ไขข้อมูลที่สุ่มตัวอย่างมาจากเฟรมก่อนหน้าได้ ซึ่งสำคัญต่อการรักษาเสถียรภาพด้านภาพในช่วงเวลาที่ยาวนาน

การปรับละเอียด latent decoder

  • ออโตเอนโค้ดเดอร์ที่พรีเทรนของ Stable Diffusion v1.4: บีบอัดแพตช์ขนาด 8x8 พิกเซลให้เหลือ 4 ช่องสัญญาณ latent ซึ่งก่อให้เกิดอาร์ติแฟกต์ที่มีนัยสำคัญเมื่อทำนายเฟรมของเกม โดยเฉพาะกับรายละเอียดเล็ก ๆ และ HUD แถบล่าง
  • การฝึก decoder: เพื่อปรับปรุงคุณภาพของภาพ จะฝึกเฉพาะ decoder ของ latent autoencoder โดยคำนวณค่า MSE loss เทียบกับพิกเซลของเฟรมเป้าหมาย

สรุปของ GN⁺

  • GameNGen เป็นเอนจินเกมตัวแรกที่ใช้โมเดลประสาทเพื่อโต้ตอบกับสภาพแวดล้อมเกมที่ซับซ้อนแบบเรียลไทม์ได้
  • ผ่าน การจำลอง DOOM ระบบสามารถให้การทำนายเฟรมคุณภาพสูงได้อย่างประณีตจนผู้ประเมินที่เป็นมนุษย์แยกจากเกมจริงได้ยาก
  • มีการนำโมเดลที่มีอยู่เดิมอย่าง Stable Diffusion v1.4 กลับมาใช้เพื่อเพิ่มประสิทธิภาพ และรักษาเสถียรภาพด้านภาพด้วยเทคนิคอย่างการเพิ่ม Gaussian noise
  • การ ปรับละเอียด latent decoder ช่วยยกระดับคุณภาพของภาพและคงรายละเอียดของเฟรมเกมไว้

1 ความคิดเห็น

 
GN⁺ 2024-08-29
ความคิดเห็นจาก Hacker News
  • โมเดลการแพร่กระจายของ Google ที่ใช้ SD 1.4 มีการรวมเหตุและผล รวมถึงลำดับขั้นมากกว่าที่คาดไว้

    • ให้เอเจนต์เล่น Doom เพื่อให้ได้ข้อมูลฝึกแบบไม่สิ้นสุด
    • เพิ่ม Gaussian noise ลงในเฟรมต้นทาง และให้รางวัลแก่เอเจนต์เมื่อ "แก้ไข" เฟรมถัดไปตามลำดับได้
    • สิ่งสำคัญคือการสอนให้โมเดลแก้ข้อผิดพลาดและคงเสถียรภาพไว้ได้
    • น่าสงสัยว่าจะสามารถ fine-tune โมเดลนี้ให้เป็นสไตล์ "ภาพถ่ายสมจริง" หรือเรย์เทรซิงได้หรือไม่
  • งานวิจัยนี้ไม่ได้อธิบายระบบที่รับอินพุตจากผู้ใช้แบบเรียลไทม์แล้วปรับเอาต์พุตตามนั้น

    • ฝึกด้วยชุดข้อมูลขนาดใหญ่ที่เอเจนต์เล่น Doom
    • อินพุตของผู้ใช้ไม่ได้สะท้อนเข้าสู่การจำลองแบบเรียลไทม์
    • ในงานวิจัยไม่มีคำอธิบายเกี่ยวกับการเล่นเกมแบบเรียลไทม์ของผู้ใช้
  • น่าทึ่งที่โมเดลนี้เรนเดอร์ได้ที่ 20fps

    • ดูเหมือนจุดตัดระหว่าง diffusion model กับ RNN
    • คล้ายกับโมเดลกำลังฝันถึงเกมที่มันเล่นมามาก
    • มนุษย์เองก็อาจเป็นเครื่องจักรที่คาดเดาช่วงเวลาถัดไปเช่นกัน
  • ความพยายามที่จะให้ Doom รันบนทุกสิ่งยังคงดำเนินต่อไป

    • โมเดลนี้คือ Doom ที่มีความต้องการฮาร์ดแวร์สูงที่สุด
    • Doom อยู่ทั้งสองสุดขั้วของสเปกฮาร์ดแวร์
  • อ่านคอมเมนต์ที่ชี้ว่าสิ่งนี้ไร้ความหมายแล้วก็สนุกดี

    • ไม่ใช่ว่าทุกอย่างจำเป็นต้องถูกสร้างขึ้นมาเพื่อกำไร
    • การสร้างบางอย่างเพื่อประสบการณ์การเรียนรู้ ความท้าทาย และความอยากรู้อยากเห็นก็สำคัญเช่นกัน
    • เวลาที่รู้สึกสนุกไม่เคยเป็นเวลาที่สูญเปล่า
  • เปรียบเทียบความต้องการระบบของ Doom กับ Stable Diffusion v1

    • Doom: RAM 4MB, พื้นที่ดิสก์ 12MB
    • Stable Diffusion v1: 860M UNet และ CLIP ViT-L/14, ขนาดเช็กพอยต์ 4.27GB, รันบน TPU-v5e
    • แม้โมเดลจะมีความจุมากพอที่จะจดจำเกมได้หลายร้อยครั้ง แต่ก็ยังมีพื้นที่ให้ปรับแต่งอีกมาก
    • หากทำให้เกมเป็นอัตโนมัติได้มากพอ ก็อาจทำซ้ำเกมนั้นได้
  • บทบาทของเกมเอนจินคือการเรนเดอร์โลก

    • ข้อความ "ประตูนี้ต้องใช้กุญแจสีน้ำเงิน" ไม่ได้มอบกุญแจสีน้ำเงินให้ผู้ใช้
    • เกมเอนจินสามารถสร้างเกมใหม่และแก้กฎของเกมเดิมแบบเรียลไทม์ได้
    • diffusion model ไม่ใช่เกมเอนจิน
  • แม้จะไม่มีการให้ text condition แต่ก็อาจเป็นไปได้ที่จะสร้างเกมใหม่ด้วย text prompt เพียงอย่างเดียว

    • ใช้ RL เพื่อเรียนรู้รูปลักษณ์และการทำงานของ Doom
    • การจำลองเกมโอเพนเวิลด์ที่มีสถานะไม่สิ้นสุดน่าจะเป็นเรื่องยากมาก