Diffusion Models Are Real-Time Game Engines
- GameNGen: เอนจินเกมตัวแรกที่ขับเคลื่อนด้วยโมเดลประสาท ซึ่งมอบการโต้ตอบกับสภาพแวดล้อมที่ซับซ้อนแบบเรียลไทม์ด้วยคุณภาพสูง
- การจำลอง DOOM: สามารถจำลองเกมคลาสสิก DOOM แบบโต้ตอบได้ที่มากกว่า 20 เฟรมต่อวินาทีบน TPU เพียงตัวเดียว
- PSNR: ทำได้ 29.4 PSNR ในการทำนายเฟรมถัดไป ซึ่งใกล้เคียงกับการบีบอัด JPEG แบบสูญเสียข้อมูล
- ผู้ประเมินที่เป็นมนุษย์: ผู้ประเมินที่เป็นมนุษย์แยกความต่างระหว่างคลิปเกมจริงกับคลิปจำลองได้ดีกว่าการเดาสุ่มเพียงเล็กน้อย
วิดีโอการเล่นเกมแบบเต็ม
การเก็บข้อมูลผ่านการเล่นของเอเจนต์
- เอเจนต์ RL อัตโนมัติ: เนื่องจากไม่สามารถเก็บข้อมูลการเล่นเกมของมนุษย์ในปริมาณมากได้ ขั้นตอนแรกจึงฝึกเอเจนต์ RL อัตโนมัติให้เล่นเกม แล้วบันทึกการกระทำและการสังเกตจากเอพิโสดการฝึกเหล่านี้เพื่อนำไปใช้เป็นข้อมูลฝึกของโมเดลเชิงกำเนิด
การฝึกโมเดล diffusion เชิงกำเนิด
- Stable Diffusion v1.4: นำโมเดล diffusion ขนาดเล็กที่ใช้ลำดับของการกระทำและการสังเกต (เฟรม) ก่อนหน้าเป็นเงื่อนไขกลับมาใช้ใหม่
- การเพิ่ม Gaussian noise: ระหว่างการฝึก จะเพิ่ม Gaussian noise ลงในเฟรมที่ถูกเข้ารหัสเพื่อทำให้เฟรมบริบทเสียหาย เพื่อให้เครือข่ายสามารถแก้ไขข้อมูลที่สุ่มตัวอย่างมาจากเฟรมก่อนหน้าได้ ซึ่งสำคัญต่อการรักษาเสถียรภาพด้านภาพในช่วงเวลาที่ยาวนาน
การปรับละเอียด latent decoder
- ออโตเอนโค้ดเดอร์ที่พรีเทรนของ Stable Diffusion v1.4: บีบอัดแพตช์ขนาด 8x8 พิกเซลให้เหลือ 4 ช่องสัญญาณ latent ซึ่งก่อให้เกิดอาร์ติแฟกต์ที่มีนัยสำคัญเมื่อทำนายเฟรมของเกม โดยเฉพาะกับรายละเอียดเล็ก ๆ และ HUD แถบล่าง
- การฝึก decoder: เพื่อปรับปรุงคุณภาพของภาพ จะฝึกเฉพาะ decoder ของ latent autoencoder โดยคำนวณค่า MSE loss เทียบกับพิกเซลของเฟรมเป้าหมาย
สรุปของ GN⁺
- GameNGen เป็นเอนจินเกมตัวแรกที่ใช้โมเดลประสาทเพื่อโต้ตอบกับสภาพแวดล้อมเกมที่ซับซ้อนแบบเรียลไทม์ได้
- ผ่าน การจำลอง DOOM ระบบสามารถให้การทำนายเฟรมคุณภาพสูงได้อย่างประณีตจนผู้ประเมินที่เป็นมนุษย์แยกจากเกมจริงได้ยาก
- มีการนำโมเดลที่มีอยู่เดิมอย่าง Stable Diffusion v1.4 กลับมาใช้เพื่อเพิ่มประสิทธิภาพ และรักษาเสถียรภาพด้านภาพด้วยเทคนิคอย่างการเพิ่ม Gaussian noise
- การ ปรับละเอียด latent decoder ช่วยยกระดับคุณภาพของภาพและคงรายละเอียดของเฟรมเกมไว้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โมเดลการแพร่กระจายของ Google ที่ใช้ SD 1.4 มีการรวมเหตุและผล รวมถึงลำดับขั้นมากกว่าที่คาดไว้
งานวิจัยนี้ไม่ได้อธิบายระบบที่รับอินพุตจากผู้ใช้แบบเรียลไทม์แล้วปรับเอาต์พุตตามนั้น
น่าทึ่งที่โมเดลนี้เรนเดอร์ได้ที่ 20fps
ความพยายามที่จะให้ Doom รันบนทุกสิ่งยังคงดำเนินต่อไป
อ่านคอมเมนต์ที่ชี้ว่าสิ่งนี้ไร้ความหมายแล้วก็สนุกดี
เปรียบเทียบความต้องการระบบของ Doom กับ Stable Diffusion v1
บทบาทของเกมเอนจินคือการเรนเดอร์โลก
แม้จะไม่มีการให้ text condition แต่ก็อาจเป็นไปได้ที่จะสร้างเกมใหม่ด้วย text prompt เพียงอย่างเดียว