โมเดลสร้างวิดีโอในฐานะตัวจำลองโลก

(openai.com)

1 คะแนน โดย GN⁺ 2024-02-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI สำรวจผ่าน Sora ว่าโมเดลสร้างวิดีโอสามารถขยายจากการสังเคราะห์ภาพเคลื่อนไหวธรรมดาไปสู่การ จำลองโลกทางกายภาพและดิจิทัล ได้หรือไม่
การออกแบบหลักคือการนำวิดีโอและภาพเข้าไปไว้ใน latent space ที่บีบอัดตามเวลาและพื้นที่ แล้วแบ่งออกเป็นแพตช์เชิงเวลา-พื้นที่เพื่อฝึกเหมือนโทเคนของ Transformer
Sora ไม่ได้ตัดเป็นขนาดคงที่ แต่เรียนรู้ ความยาว ความละเอียด และอัตราส่วนภาพที่เปลี่ยนแปลงได้ ตามต้นฉบับ จึงจัดการการสร้างวิดีโอไวด์สกรีน วิดีโอแนวตั้ง และภาพความละเอียดสูงได้ในโมเดลเดียวกัน
นำเทคนิค recaptioning ของ DALL·E 3 มาใช้กับวิดีโอ และใช้ GPT ขยายพรอมป์สั้น ๆ ให้เป็นแคปชันละเอียด เพื่อเพิ่มความสอดคล้องกับข้อความและคุณภาพวิดีโอ
ความสอดคล้องแบบ 3D, ความคงอยู่ของวัตถุ และการจำลองโลกดิจิทัลอย่าง Minecraft ทำได้บางส่วน แต่ยังมีข้อจำกัดกับ ปฏิสัมพันธ์ทางกายภาพที่ต้องมีการเปลี่ยนสถานะ เช่น กระจกแตกหรือการกินอาหาร

ปัญหาที่ Sora จัดการและขอบเขตของรายงาน

OpenAI สำรวจการ ฝึกโมเดลสร้างข้อมูลขนาดใหญ่ สำหรับข้อมูลวิดีโอ
Sora เป็นโมเดล diffusion แบบมีเงื่อนไขจากข้อความ ที่ฝึกร่วมกับวิดีโอและภาพซึ่งมีความยาว ความละเอียด และอัตราส่วนภาพหลากหลาย
โมเดลที่ใหญ่ที่สุดอย่าง Sora สามารถสร้างวิดีโอความสมจริงสูงได้ยาวสูงสุด 1 นาที
รายงานเทคนิคนี้มุ่งเน้นสองเรื่อง
- วิธีแปลงข้อมูลภาพหลากหลายชนิดให้เป็น ตัวแทนแบบรวมศูนย์ ที่เหมาะกับการฝึกโมเดลสร้างข้อมูลขนาดใหญ่
- การประเมินเชิงคุณภาพเกี่ยวกับความสามารถและข้อจำกัดของ Sora
ไม่รวมรายละเอียดโครงสร้างโมเดลและรายละเอียดการนำไปใช้งาน
งานวิจัยด้านการสร้างวิดีโอก่อนหน้านี้ใช้หลายวิธี เช่น recurrent neural network, GAN, autoregressive Transformer และ diffusion model แต่มักเน้นหมวดข้อมูลที่แคบ วิดีโอสั้น และวิดีโอขนาดคงที่
Sora ถูกออกแบบให้เป็น โมเดลข้อมูลภาพอเนกประสงค์ ที่สร้างวิดีโอและภาพได้ครอบคลุมความยาว อัตราส่วนภาพ และความละเอียดที่หลากหลาย

วิธีรวมข้อมูลภาพเป็นแพตช์

เช่นเดียวกับที่โมเดลภาษาขนาดใหญ่รวมโค้ด คณิตศาสตร์ และภาษาธรรมชาติด้วยโทเคนข้อความ Sora ใช้ แพตช์ กับข้อมูลภาพ
วิดีโอจะถูกบีบอัดเป็น latent space มิติต่ำก่อน จากนั้นจึงแยกออกเป็น แพตช์เชิงเวลา-พื้นที่
การแทนข้อมูลแบบแพตช์ทำงานได้อย่างขยายสเกลได้และมีประสิทธิภาพในการเรียนรู้วิดีโอและภาพหลายประเภท

การบีบอัดวิดีโอและแพตช์ latent เชิงเวลา-พื้นที่

Sora ไม่ได้จัดการวิดีโอต้นฉบับโดยตรงในพื้นที่พิกเซล แต่เรียนรู้และสร้างใน latent representation ที่ถูกบีบอัดตามเวลาและพื้นที่
โมเดล decoder แยกต่างหากจะ map latent representation ที่สร้างขึ้นกลับไปยังพื้นที่พิกเซล
ลำดับแพตช์เชิงเวลา-พื้นที่ที่ดึงมาจากวิดีโออินพุตที่ถูกบีบอัด ทำหน้าที่เหมือนโทเคนของ Transformer
ภาพสามารถมองเป็นวิดีโอที่มีเฟรมเดียว จึงประมวลผลด้วยวิธีเดียวกันได้
ตอน inference จะควบคุมขนาดของวิดีโอที่สร้างโดยวางแพตช์ที่สุ่มเริ่มต้นไว้ในกริดขนาดที่ต้องการ

การขยาย diffusion Transformer สำหรับการสร้างวิดีโอ

Sora เป็น diffusion model ที่ฝึกให้รับแพตช์ปน noise และข้อมูลเงื่อนไข เช่น พรอมป์ข้อความ แล้วทำนาย แพตช์สะอาด ดั้งเดิม
ในขณะเดียวกัน Sora ก็เป็น diffusion Transformer
Transformer แสดงคุณสมบัติการขยายสเกลในหลายด้าน เช่น language modeling, computer vision และ image generation และใน Sora ก็ขยายเป็นโมเดลวิดีโอได้อย่างมีประสิทธิภาพ
เมื่อใช้ seed และอินพุตเดียวกัน คุณภาพตัวอย่างจะดีขึ้นอย่างชัดเจนเมื่อการฝึกคืบหน้าและปริมาณการคำนวณเพิ่มขึ้น
- ตัวอย่างเปรียบเทียบประกอบด้วย base compute, 4x compute และ 32x compute

ข้อดีของการฝึกด้วยขนาดต้นฉบับ

แนวทางสร้างภาพและวิดีโอเดิมมัก resize, crop และ trim เป็นขนาดมาตรฐาน เช่น 4 วินาที, 256x256
Sora ได้ประโยชน์หลายด้านจากการฝึกข้อมูลด้วย ขนาดต้นฉบับ
ความยืดหยุ่นในการ sampling
- Sora สามารถ sampling วิดีโอไวด์สกรีน 1920x1080p, วิดีโอแนวตั้ง 1080x1920 และวิดีโอหลากหลายรูปแบบระหว่างนั้นได้
- สามารถสร้างคอนเทนต์ให้เหมาะกับอุปกรณ์ต่าง ๆ ได้โดยตรงในอัตราส่วนภาพ native
- ใช้โมเดลเดียวกันทำ prototype ที่ขนาดต่ำได้อย่างรวดเร็ว แล้วจึงสร้างที่ความละเอียดเต็มภายหลัง
การปรับปรุง framing และ composition
- การฝึกด้วยอัตราส่วนภาพต้นฉบับช่วยปรับปรุง composition และ framing
- โมเดลที่ crop วิดีโอฝึกทั้งหมดเป็นสี่เหลี่ยมจัตุรัสบางครั้งสร้างวิดีโอที่เห็นวัตถุหลักเพียงบางส่วน
- Sora สร้างวิดีโอที่มี framing ดีขึ้นเมื่อเทียบกับโมเดล crop สี่เหลี่ยมจัตุรัส

ความเข้าใจภาษาและการจัดการแคปชัน

การฝึกระบบสร้างวิดีโอจากข้อความต้องใช้วิดีโอจำนวนมากที่มีแคปชันข้อความสอดคล้องกัน
OpenAI นำเทคนิค recaptioning ที่เปิดตัวใน DALL·E 3 มาใช้กับวิดีโอ
เริ่มจากฝึกโมเดลที่สร้างแคปชันละเอียดมาก แล้วใช้โมเดลดังกล่าวสร้างแคปชันข้อความให้วิดีโอฝึกทั้งหมด
การฝึกด้วยแคปชันวิดีโอที่ละเอียดช่วยปรับปรุงความสอดคล้องกับข้อความและคุณภาพวิดีโอโดยรวม
คล้ายกับ DALL·E 3 ใช้ GPT แปลงพรอมป์ผู้ใช้สั้น ๆ ให้เป็นแคปชันยาวที่ละเอียด แล้วส่งต่อให้โมเดลวิดีโอ
วิธีนี้ใช้เพื่อให้ Sora สร้างวิดีโอคุณภาพสูงที่ทำตามพรอมป์ผู้ใช้ได้แม่นยำขึ้น

การสร้างและแก้ไขโดยใช้ภาพและวิดีโอเป็นอินพุต

Sora รับได้ไม่เพียงข้อความ แต่ยังรับภาพหรือวิดีโอเดิมเป็นพรอมป์ได้ด้วย
ฟังก์ชันนี้ใช้กับงานต่าง ๆ เช่น การสร้างวิดีโอที่วนซ้ำได้อย่างสมบูรณ์ การทำให้ภาพนิ่งเป็นแอนิเมชัน และการขยายวิดีโอไปข้างหน้าหรือย้อนกลับตามเวลา
ทำภาพ DALL·E ให้เป็นแอนิเมชัน
- Sora สามารถรับภาพและพรอมป์เป็นอินพุตเพื่อสร้างวิดีโอได้
- ตัวอย่างประกอบด้วยการสร้างวิดีโอจากภาพของ DALL·E 2 และ DALL·E 3
การขยายวิดีโอที่สร้างขึ้น
- Sora สามารถขยายวิดีโอไปข้างหน้าหรือย้อนหลังตามเวลาได้
- วิดีโอสามรายการที่เริ่มจากช่วงหนึ่งของวิดีโอที่สร้างขึ้นแล้วขยายไปยังเวลาถัดไป มีจุดเริ่มต้นต่างกันแต่ไปสู่ตอนจบเดียวกัน
- ใช้วิธีเดียวกันขยายวิดีโอไปข้างหน้าและย้อนกลับเพื่อสร้าง ลูปไม่รู้จบ ที่ต่อเนื่องไร้รอยต่อได้
การแก้ไขและเชื่อมต่อแบบวิดีโอสู่วิดีโอ
- นำ SDEdit ซึ่งเป็นหนึ่งในวิธีแก้ไขภาพและวิดีโอที่อิง diffusion model มาใช้กับ Sora
- เทคนิคนี้ทำให้ Sora แปลงสไตล์และสภาพแวดล้อมของวิดีโออินพุตแบบ zero-shot ได้
- สามารถ interpolate ระหว่างวิดีโออินพุตสองรายการอย่างค่อยเป็นค่อยไป เพื่อสร้างการเปลี่ยนผ่านที่ลื่นไหลแม้ระหว่างวิดีโอที่หัวข้อและองค์ประกอบฉากแตกต่างกันโดยสิ้นเชิง

ความสามารถในการสร้างภาพ

Sora สร้างภาพได้ด้วย
สร้างภาพโดยวางแพตช์ Gaussian noise ลงในกริดเชิงพื้นที่ที่มีความยาวเวลาเท่ากับหนึ่งเฟรม
ขนาดภาพที่สร้างได้เปลี่ยนแปลงได้ และทำได้สูงสุดถึงความละเอียด 2048x2048
ตัวอย่างพรอมป์ประกอบด้วยภาพ close-up บุคคลในฤดูใบไม้ร่วง, แนวปะการัง, digital art ลูกเสือใต้ต้นแอปเปิล และหมู่บ้านภูเขาปกคลุมด้วยหิมะพร้อมแสงออโรรา

ความสามารถในการจำลองที่เกิดขึ้นจากการขยายสเกล

โมเดลวิดีโอที่ฝึกในขนาดใหญ่แสดง ความสามารถเชิงอุบัติใหม่ ในการจำลองบางแง่มุมของคน สัตว์ และสภาพแวดล้อม
คุณสมบัติเหล่านี้ถูกมองว่าเป็นปรากฏการณ์จากการขยายสเกล โดยไม่มี inductive bias ที่ระบุชัดเจนเกี่ยวกับ 3D หรือวัตถุ
ความสอดคล้องแบบ 3D
- Sora สามารถสร้างวิดีโอที่มีกล้องเคลื่อนไหวแบบไดนามิกได้
- เมื่อกล้องเคลื่อนที่หรือหมุน คนและองค์ประกอบของฉากจะเคลื่อนไหวอย่างสอดคล้องกันในพื้นที่สามมิติ
ความสอดคล้องระยะยาวและความคงอยู่ของวัตถุ
- การรักษาความสอดคล้องตามเวลาในตัวอย่างวิดีโอยาวเป็นโจทย์สำคัญของระบบสร้างวิดีโอ
- Sora ไม่ได้ทำได้เสมอไป แต่บางครั้งสามารถโมเดลความสัมพันธ์พึ่งพาทั้งระยะสั้นและระยะยาวได้อย่างมีประสิทธิภาพ
- บางกรณีสามารถคงคน สัตว์ และวัตถุไว้ได้แม้ถูกบังหรือออกนอกเฟรม
- สามารถสร้างหลายช็อตของตัวละครเดียวกันในตัวอย่างเดียว และคงรูปลักษณ์ไว้ตลอดทั้งวิดีโอได้
ปฏิสัมพันธ์กับโลก
- บางครั้ง Sora จำลองการกระทำที่ส่งผลต่อสถานะของโลกในรูปแบบง่าย ๆ ได้
- ตัวอย่างคือรอยแปรงที่จิตรกรทิ้งไว้บนผืนผ้าใบยังคงอยู่เมื่อเวลาผ่านไป หรือคนกินแฮมเบอร์เกอร์แล้วเหลือรอยกัดไว้
การจำลองโลกดิจิทัล
- Sora สามารถจำลองกระบวนการประดิษฐ์อย่างวิดีโอเกมได้ด้วย
- ในตัวอย่าง Minecraft สามารถควบคุมผู้เล่นด้วยนโยบายพื้นฐาน พร้อม render โลกและ dynamics ได้ด้วยความสมจริงสูง
- ความสามารถนี้สามารถดึงออกมาแบบ zero-shot ได้เพียงใช้พรอมป์แคปชันที่กล่าวถึง “Minecraft”

ข้อจำกัดปัจจุบันและบทสรุป

Sora มีข้อจำกัดหลายด้านในฐานะตัวจำลอง
ยังโมเดลฟิสิกส์ของปฏิสัมพันธ์พื้นฐานหลายอย่าง เช่น กระจกแตก ได้ไม่แม่นยำ
กรณีที่สถานะของวัตถุต้องเปลี่ยนอย่างถูกต้อง เช่น ปฏิสัมพันธ์ของการกินอาหาร ก็ไม่ได้แม่นยำเสมอไป
ตัวอย่างความล้มเหลว เช่น ความสอดคล้องพังในตัวอย่างยาว หรือวัตถุปรากฏขึ้นกะทันหัน มีนำเสนอเพิ่มเติมใน หน้า landing page ของ Sora
ความสามารถปัจจุบันแสดงให้เห็นว่าการขยายสเกลโมเดลวิดีโออย่างต่อเนื่องอาจเป็นเส้นทางสู่การพัฒนาตัวจำลองที่มีความสามารถในการจัดการโลกทางกายภาพและดิจิทัล รวมถึงวัตถุ สัตว์ และคนภายในโลกเหล่านั้น

1 ความคิดเห็น

GN⁺ 2024-02-17

ความคิดเห็นจาก Hacker News

ดูเหมือนว่าหลายคนยังไม่เห็นว่าเทคโนโลยีนี้ทำให้อะไรเป็นไปได้บ้าง มันสามารถสร้าง ฉากต่อเนื่องของวิดีโอที่ดูสมเหตุสมผล พร้อมกฎฟิสิกส์ที่สมจริงได้ และถ้ามันเร็วพอจนทำงานได้แบบ เรียลไทม์ ก็จะเกิดการเปลี่ยนแปลงครั้งใหญ่
ถ้าเชื่อมต่อเข้ากับหุ่นยนต์ที่มีฟีดกล้องแบบเรียลไทม์ แล้วให้มันสร้างฉากอนาคตที่เป็นไปได้หลายแบบจากภาพที่เข้ามาอย่างต่อเนื่อง มันก็จะกลายเป็นหุ่นยนต์อัตโนมัติที่สร้างแบบจำลองโลกโดยรอบแบบเรียลไทม์และทำนายอนาคตได้ ถ้าเพิ่มการปรับแก้ข้อผิดพลาดโดยอิงจากว่าแต่ละคำทำนายตรงกับผลลัพธ์จริงแค่ไหน ผมคิดว่ามันอาจเข้าใกล้ AGI ได้มากจริง ๆ
เอาต์พุตสามารถเชื่อมกับการสร้างข้อความหรือการควบคุมการเคลื่อนไหวของตัวเองได้ และยังจินตนาการได้ถึงวิธีที่มันคาดการณ์ผลลัพธ์ของการกระทำต่าง ๆ ที่ตัวเองทำได้ แล้วเลือกการกระทำที่ดีที่สุด สำหรับการใช้งานแบบนี้ ภาพไม่จำเป็นต้องเหมือนจริงสมบูรณ์แบบ ไร้ข้อผิดพลาด หรือมีความละเอียดสูงเลยด้วยซ้ำ ลองคิดดูก็น่าสนใจว่า จินตนาการของเราเองเกี่ยวกับโลกนั้นสมจริงแค่ไหน
ตัวอย่างเช่น หุ่นยนต์ทำความสะอาดบ้านมองภาพห้องนั่งเล่น สร้างภาพห้องนั่งเล่นหลังทำความสะอาดเสร็จ แล้วจินตนาการโดยแทรกกลางเป็น วิดีโอของตัวเองกำลังทำความสะอาดห้อง จากนั้นทำตามวิดีโอนั้นเท่าที่ทำได้ แล้วสร้างฉากต่อเนื่องใหม่และลงมือทำต่อไป หากจำเป็นก็ทำซ้ำได้หลายครั้งต่อวินาที
- นี่ใกล้เคียงกับเอเจนต์ที่มี world model สำหรับใช้วางแผน จริง ๆ แล้วไม่จำเป็นต้องสร้างภาพที่สมจริงมากนัก และ world model ก็ทำงานอยู่ภายในการแทนเชิงนามธรรมแบบบีบอัดของมันเอง
  ระบบลักษณะนี้น่าดู V-Jepa: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- ในทางทฤษฎีก็ใช่ แต่ปัญหาคือเราเคยมี AGI ในทางทฤษฎีกันมาหลายครั้งแล้ว ตัวอย่างเช่น Q-learning คือการป้อนสถานะของเกมหรือระบบใด ๆ เข้าไปในโครงข่ายประสาท ให้มันทำนายรางวัลในอนาคตที่เป็นไปได้ แล้วปรับปรุงความแม่นยำของการทำนายนั้นซ้ำ ๆ ซึ่งท้ายที่สุดก็จะไปถึงการกระทำที่เหมาะที่สุดในระบบใด ๆ ได้
  ถ้าเคยทดลอง reinforcement learning จะรู้ว่าความคาดหวังแบบ “แค่เปิดใช้งานก็น่าจะทำงานได้ดีและค้นพบวิธีแก้เจ๋ง ๆ เพียบ” นั้นน่าตื่นเต้นเสมอ แต่ในความเป็นจริง แม้มันอาจเป็นแบบนั้นได้ ส่วนใหญ่ก็ไม่ได้เป็นอย่างนั้น มักจะเห็นสัญญาณของการเรียนรู้ แต่ไม่ได้ให้ผลลัพธ์ที่น่าทึ่ง
  เหตุผลที่ผมยังคอยดูว่าจะมี AI ที่แข็งแกร่งในวิดีโอเกมอย่าง Civilization ออกมาหรือไม่ ก็เพราะอยากดูว่ามันแก้ปัญหาของระบบที่ซับซ้อนได้ ขณะเดียวกันก็ยังสมจริงพอที่ผู้พัฒนาเกมจะนำไปใช้จริงได้หรือเปล่า ทีมผู้เชี่ยวชาญอาจแก้ Civilization ได้ในฐานะโปรเจกต์วิจัย แต่ก็ยังห่างไกลจากการใช้งานจริง ผมสงสัยว่าแค่ให้โมเดลวิดีโอดูวิดีโอคนเล่น Civilization มันจะทำนายตาที่ดีที่สุดได้หรือไม่ ก่อนที่ AI ในเกมจะทำนายตาที่ดีที่สุดได้เสียอีก
- สิ่งที่น่าสนใจคือข้อมูลวิดีโอมีมากมหาศาล จนตอนนี้เรามีโมเดลที่สามารถ ฉายภาพอนาคตในพื้นที่พิกเซล 2D ได้แล้ว
  เป้าหมายปลายทางของวิทยาการหุ่นยนต์จริง ๆ คือการ ฉายภาพอนาคตในพื้นที่โลก 3D และผมคิดว่าโมเดลฉายภาพ 3D ที่ใช้งานได้อาจมีขนาดเล็กกว่ามาก ขึ้นอยู่กับว่า world model แบบ 3D นั้นซับซ้อนแค่ไหน
  เพียงแต่ข้อมูลที่สอดคล้องกันแบบนั้นไม่ได้มีอยู่บนอินเทอร์เน็ตอย่างหาได้ง่ายเท่านี้
- อย่างที่คำตอบอื่นพูดไว้ สิ่งนี้สอดคล้องกับแนวคิด AI ที่มุ่งเป้าหมาย ที่ Yann LeCun เสนอไว้ใน [1] แม้ใน论文จะไม่ได้ใช้ชื่อนั้น แต่ LeCun เรียกมันแบบนั้นในการบรรยายและสไลด์ และในขณะเดียวกันก็พูดมาตลอดว่าสิ่งแบบนี้จะไม่เกิดจาก generative model
  ถ้าอยู่ในวงการ AI มานาน จะได้เห็น “ทางทะลุ” หลายครั้งที่ผู้คนคิดว่าจะนำไปสู่ AGI ตั้งแต่ DeepBlue, convolutional neural networks, deep reinforcement learning ไปจนถึง large language models ในปัจจุบัน แต่ละครั้งอาจหมายความว่าสิ่งที่ผู้คนคิดว่าเป็นทางทะลุนั้นไม่ใช่อย่างที่คิด หรือ AGI ต้องการอะไรมากกว่าการก้าวกระโดดทางวิศวกรรมเพียงอย่างเดียว
  ถ้าคิดว่าแนวคิดนี้เป็นไปได้ ก็ลองทำเองในสภาพแวดล้อมง่าย ๆ ได้ สร้างโลกตารางเล็ก ๆ หรือเกมแบบข้อความที่ลดความซับซ้อนจาก Nethack [2] แล้วนำไปทดลองในสภาพแวดล้อมควบคุม เพื่อดูว่ามันทำงานได้ดีแค่ไหน น่าจะเขียน论文ได้ด้วย
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] ไม่ควรเริ่มจาก Nethack ตัวจริง สำหรับ “AI” แล้วมันยากเกินไป
- ระบบอย่าง Sora จำเป็นแน่นอน แต่ตัวมันเองเพียงอย่างเดียวยังไม่พอ หากผสานกับ โมเดลมัลติโมดัล ที่ให้เหตุผลได้อย่างถูกต้อง ก็อาจเข้าใกล้ AGI หรือพูดให้แม่นกว่านั้นคือ ASI ได้
  เพราะมันมีข้อได้เปรียบ เช่น ความยาวบริบทที่ยาวกว่ามนุษย์ modality ของประสาทสัมผัสเพิ่มเติมอย่างอินฟราเรดหรือการรับรู้ไฟฟ้า ความเชี่ยวชาญที่กว้างกว่ามาก และแบนด์วิดท์มหาศาล
  ผมมองว่าโมเดลรุ่นต่อไปในอนาคตของ Sora + โมเดลรุ่นต่อไปที่มีแนวโน้มสูงของ GPT-4 = ASI
  คอมเมนต์อื่นที่เขียนเกี่ยวกับเรื่องนี้: https://news.ycombinator.com/item?id=39391971
ชอบตรงที่หน้านี้ไม่ได้โชว์แค่ผลลัพธ์ระดับท็อป แต่ยังโชว์ ตัวอย่างความล้มเหลว อยู่บ้างด้วย
เช่น ตอนท้ายเซิร์ฟเฟอร์ดันไปโต้คลื่นกลางอากาศ: https://cdn.openai.com/tmp/s/prompting_7.mp4
มีฉากที่กระจกซึ่งควรจะแตกกลับไม่แตก และมีแค่ของเหลวไหลออกมาในแบบแปลก ๆ: https://cdn.openai.com/tmp/s/discussion_0.mp4
วิธีเดินของคนนี้ก็ดูแปลก: https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
แผนที่อันนี้ก็ไม่รู้โผล่มาจากไหน: https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- แม้แต่ในวิดีโอตัวอย่างบางตัวก็ยังเห็น ข้อผิดพลาดด้านมุมมองและพารัลแลกซ์ อยู่ ตัวแบบที่เป็นคนบางครั้งใหญ่เกินไปเมื่อเทียบกับคนในฉากหลัง หรือยืนอยู่บนระนาบแนวนอนที่ไม่สอดคล้องกัน ดูแล้วถึงขั้นเวียนหัวนิด ๆ แต่ก็ยังน่าประทับใจมาก
- ในฉากแผนที่ ประมาณวินาทีที่ 6 จะเห็น มือที่สาม กำลังเอาแผนที่ออกไป
- ในฉาก “วิธีเดินของคนนี้” ก็แปลกตรงที่ทำไม ร่ม ถึงโผล่ออกมาจากบริเวณใต้เอว
เห็นส่วนที่บอกว่า “การโต้ตอบอย่างการกินอาหารไม่ได้สร้างการเปลี่ยนสถานะของวัตถุที่ถูกต้องเสมอไป” แล้วก็เลยคิดว่า นั่นคงเป็นเหตุผลที่ไม่โชว์ฉาก Will Smith กินสปาเก็ตตี้
ประโยคที่ว่า “การขยายขนาดโมเดลวิดีโอเป็นเส้นทางที่มีแนวโน้มสำหรับการพัฒนาซิมูเลเตอร์ประสิทธิภาพสูงของโลกกายภาพและโลกดิจิทัล” น่าสนใจสำหรับหุ่นยนต์ก็จริง แต่การใช้งานที่ใกล้ตัวกว่าอาจเป็น การเติมช่องว่างในฉาก Gaussian splatting
ถ้าจะทำ 3D walkthrough ของพื้นที่หนึ่ง ต้องใช้ภาพถ่ายหลายร้อยถึงหลายพันภาพเพื่อครอบคลุมทุกมุมที่เป็นไปได้อย่างต่อเนื่อง และถึงอย่างนั้นก็ยังมีส่วนที่ขาดหายอยู่ดี โมเดลระดับนี้น่าจะกู้คืนมุมที่ถูกบัง รายละเอียดระยะใกล้ และส่วนที่ในการ reconstruct มาตรฐานจะกลายเป็นรูหรือความพร่า ได้อย่างสมจริงพอสมควร
แค่มีภาพถ่ายสถานที่ 5–10 ภาพ ก็อาจได้ฉาก 3D ที่ลื่นไหลและสมจริง ซึ่งสำรวจได้จากทุกมุม และยังทำให้ลบคนหรือวัตถุที่ไม่ต้องการออกจากฉากได้ด้วย การ reconstruct แบบ extrapolate เช่นนี้คงไม่ได้ตรงกับความจริงครบทุกจุดในรายละเอียดทั้งหมด แต่ก็ยังน่าจะเปิดทางให้แอปพลิเคชันได้มากมาย
- แบบนั้นเรียกว่า ภาพตามจินตนาการของศิลปิน น่าจะถูกกว่าเรียกว่า “การ reconstruct” เหมาะกับกรณีที่รายละเอียดแม่นยำไม่สำคัญ แต่ถ้ารายละเอียดไม่สำคัญ ภาพที่พร่าหน่อยก็อาจเพียงพอแล้ว
เหตุผลที่ AlphaGo กับ AlphaZero ทำผลงานได้เหนือมนุษย์ ก็เพราะมี ซิมูเลเตอร์ที่สมบูรณ์แบบ สำหรับเกมโกะ โลกจริงที่เราอาศัยอยู่ไม่มีซิมูเลเตอร์แบบนั้น โมเดลภาษาขนาดใหญ่ล้วน ๆ แม้จะเรียนรู้ภาพแทนแบบหยาบและนามธรรมของโลกที่มนุษย์รับรู้ได้ในระดับหนึ่ง แต่ Sora คือความพยายามที่จะสร้างซิมูเลเตอร์แบบนั้นด้วย deep learning
ประโยคสำคัญคือ “ผลลัพธ์ของเราชี้ว่า การขยายขนาดโมเดลสร้างวิดีโอเป็นเส้นทางที่มีแนวโน้มสำหรับการสร้างซิมูเลเตอร์ทั่วไปของโลกกายภาพ”
หากซิมูเลเตอร์แบบนี้ดีพอ เราอาจได้ความสามารถด้านหุ่นยนต์ที่ทั่วไปและเหนือมนุษย์ในเชิงซอฟต์แวร์ ส่วนแนวทางนี้จะทำได้จริงแค่ไหนยังไม่แน่ชัด
ที่ว่าเหนือมนุษย์ก็เพราะความยาว context ที่ยาวกว่า working memory ของเราเป็นข้อได้เปรียบชัดเจน และความสามารถในการจำลอง modality ทางประสาทสัมผัสอื่น ๆ หรือรายละเอียดที่มนุษย์ส่วนใหญ่ไม่คุ้นเคยได้ละเอียดกว่า ก็อาจเป็นข้อได้เปรียบเช่นกัน
- สิ่งที่น่าสนใจจริง ๆ คือมันสวนทางกับสัญชาตญาณของผม ผมเคยคิดว่าการวิเคราะห์สตรีมจากกล้องในโลกจริง แล้วแปลงสิ่งที่เห็นเป็น การแทนด้วยรูปหลายเหลี่ยม แบบวิดีโอเกม จากนั้นให้ AI ตัดสินใจบนโครงสร้างเรขาคณิตนั้น น่าจะง่ายกว่ามาก
  แต่ทิศทางของ AI กลับเป็นการข้ามขั้นกลาง แล้วทำงานโดยตรงจากข้อมูลพิกเซล คาดหวังให้ความเข้าใจเรื่องเรขาคณิต 3D, perspective และฟิสิกส์ เกิดขึ้นเองตามธรรมชาติจากข้อมูลฝึก
- ซิมูเลเตอร์ที่สมบูรณ์แบบของโลกจริงมีอยู่แล้ว แค่บันทึกด้วยกล้องก็พอ ขอเวลาให้นักวิจัยตั้งทิศทางและหาวิธีเรียนรู้ให้เร็วขึ้นอีกระดับเลขหลักเดียวสักหน่อย ก็จะไปถึงจุดนั้นได้
เหมือนว่า Ylecun เคยพูดหลายครั้งว่าวิดีโอดีกว่าสำหรับฝึกโมเดลขนาดใหญ่ เพราะวิดีโอมี ความหนาแน่นของข้อมูล สูงกว่า
ผลลัพธ์น่าประทับใจจริง ๆ การสร้างวิดีโอคุณภาพสูงแบบนี้ และขยายอดีตกับอนาคตของวิดีโอได้ แสดงให้เห็นว่าโมเดล “เข้าใจ” โลกจริง การโต้ตอบของวัตถุ โครงสร้าง 3D ฯลฯ มากแค่ไหน
การสร้างภาพก็ต้องรู้เรื่องโลกมากอยู่แล้ว แต่ผมมองว่าการสร้างวิดีโอนั้นห่างกันมากกว่า เพราะโมเดลต้องรู้เรื่อง 3D การเคลื่อนไหวของวัตถุ และการโต้ตอบ
รู้สึกบ้ามากที่ฉากคนกำลังวาดรูปทั้งหมดเป็นวิดีโอที่สร้างขึ้นมา
อยากลองใช้เอง แต่จินตนาการไม่ออกเลยว่าค่าใช้จ่ายจะแพงแค่ไหน ทั้งฝึกด้วยความละเอียดเต็ม และสร้างวิดีโอได้ยาวสูงสุด 1 นาที
เพราะการสร้างวิดีโอเคยแย่มาก ผมคิดว่ากว่าจะมาถึงระดับนี้คงต้องใช้เวลาอีกหลายปี แต่นี่ดูเหมือนเป็นอีกกรณีหนึ่งของ แค่เพิ่มข้อมูลกับปริมาณการคำนวณเข้าไปก็พอ Transformer ดูเหมือนจะพิสูจน์อีกครั้งว่ามันเรียนรู้และทำได้ดีแทบทุกอย่าง
บทความหลักก็มีคนตอบรับเยอะอยู่แล้ว แต่หน้านี้นี่สุดจริง ๆ ผลลัพธ์ทรงพลังมาก
ตัวอย่างหุ่นยนต์ค่อนข้างน่าผิดหวัง แต่คนและตัวละครพื้นหลังส่วนใหญ่ทำออกมาได้ดีมาก และดีกว่าโมเดล diffusion สำหรับภาพนิ่งส่วนใหญ่มาก การรักษาให้เป็นคนเดิมต่อเนื่องระหว่างที่คนโต้ตอบกับวัตถุ ก็เป็นสิ่งที่ผมไม่คิดว่าโมเดลแบบนี้จะทำได้ดีเร็วขนาดนี้
น่าทึ่งที่โมเดลนี้สร้างวิดีโอที่มีความสอดคล้องแบบ 3D ได้ขนาดนี้ แม้จะไม่มี ความรู้ล่วงหน้าแบบ 3D ที่ระบุไว้อย่างชัดเจน ถึงขั้นสามารถเรียนรู้ representation แบบ 3D คล้าย NeRF จากวิดีโอนั้นได้เลย: https://twitter.com/BenMildenhall/status/1758224827788468722
- งานที่ดัดแปลง Stable Diffusion เพื่อสร้าง HDR spherical environment map จากภาพเดิมก็น่าทึ่งในทำนองเดียวกัน: https://diffusionlight.github.io/
  ที่น่าทึ่งยิ่งกว่าคือให้โมเดล inpaint ลูกบอลโครเมียมไว้ตรงกลางภาพ เพื่อทำให้สิ่งที่อยู่ด้านหลังกล้องปรากฏเป็นภาพสะท้อน โมเดลตีความบริบทและจินตนาการสิ่งที่น่าจะมีอยู่ในสภาพแวดล้อมทั้งหมดได้อย่างสมเหตุสมผล
- ถ้าดูละเอียด ๆ แล้วไม่ใช่แบบนั้น ตัวอย่างมีความไม่สอดคล้องกันเยอะมาก ตอนกล้องหมุน perspective เพี้ยนไปหมด perspective ของหน้าต่างเปลี่ยนไป ลาน patio อยู่ ๆ ก็ลึกขึ้นหรือตื้นลง เงาก็ปรากฏแล้วหายไปเมื่อกล้องเคลื่อนที่
  ในตัวอย่างอื่น ๆ ถนน วัตถุ และคนปรากฏขึ้นหรือหายไปกะทันหัน ก้อนหินกลายเป็นคน ม้าอยู่ ๆ ก็มีหัวที่สอง แล้วกลายเป็นม้าอีกตัวที่มีแค่สองขา
  มองผ่าน ๆ แล้วน่าประทับใจ แต่ถ้าจ้องดูจริง ๆ มัน ใกล้เคียงความฝัน มากกว่าความสมจริง เป็นลักษณะนึกภาพถัดไปจากภาพหนึ่ง โดยไม่มีความสอดคล้องระยะยาวด้านเวลา พื้นที่ และเหตุปัจจัย คงพูดยากว่ามันน่าประทับใจกว่า Google DeepDream เมื่อ 10 ปีก่อนมากนัก
- สงสัยว่า variant แบบไหนของโมเดลจะสามารถให้ output เป็น 3D mesh และ camera animation โดยตรง แทนที่จะเป็นภาพได้
- โมเดล diffusion แบบ 2D ก็เป็นแบบเดียวกัน[1] ดูเหมือนว่าต้องเข้าใจว่า 3D ทำงานอย่างไร เพราะมีเรื่องแสง เงา การบังกันของวัตถุ ฯลฯ
  [1] https://dreamfusion3d.github.io/
- สงสัยว่าถ้าฝึกด้วยข้อมูลภาพสเตอริโอจะดีขึ้นได้อีกแค่ไหน
เป็นไอเดียที่น่าสนใจ โมเดลภาษาขนาดใหญ่เป็นแค่ “ตัวทำนายข้อความ” แต่เพื่อจะทำนายข้อความที่สอดคล้องกันได้ดี ก็ต้องเรียนรู้โมเดลของภาษาและโลก ในทำนองเดียวกัน ตัวทำนายวิดีโอ ก็ต้องเรียนรู้ world model ที่สมเหตุสมผลด้วย จึงเป็นเรื่องธรรมชาติ
สงสัยว่ากว่าพวกมันจะมีประโยชน์ในทำนองเดียวกัน จะต้องพัฒนาไปอีกกี่ลำดับขั้นของขนาด
ถ้าอนุญาตความสามารถแบบนี้ บางทีในโมเดลระดับพรีเมียมหรือสูงกว่า อีกไม่นานอาจทำลาย อุตสาหกรรมสื่อลามกทั้งหมด ได้ ไม่ใช่เว็บไซต์ แต่หมายถึงฝั่ง sex workers ที่มักถูกแสวงหาประโยชน์
ใครก็ตามที่บรรยายรสนิยมของตัวเอง ก็สามารถทำให้เห็นเป็นภาพได้ทันที โดยไม่จำเป็นต้องมีมนุษย์จริง ๆ ต้องเจ็บปวดเพื่อสร้างวิดีโอแบบนี้ ผมรู้ว่านี่เป็นประเด็นอ่อนไหวที่คนไม่ค่อยอยากพูดถึง โดยเฉพาะในสหรัฐฯ แต่ตลาดใหญ่มาก และถ้าทำได้ดี ก็อาจเป็นประโยชน์ต่อมนุษยชาติได้
- ต่อหนึ่งนักแสดงหนังโป๊ มีผู้บริโภคสื่อลามกที่วงจรรางวัลในสมองพังเป็นพัน ๆ คน และในบรรดานักแสดงนั้นมีเพียงบางส่วนที่ถูกทารุณกรรม ขณะที่หลายคนได้รับค่าตอบแทนค่อนข้างดี
  การสร้าง สิ่งเร้าเสพติด แบบไม่มีที่สิ้นสุดเป็นสิ่งที่ห่างไกลที่สุดจากการเป็นประโยชน์ต่อมนุษยชาติ
  ถ้าอยากทำสิ่งดี ๆ ในด้านนี้ ควรศึกษาวิธีจำกัดการบริโภคจะดีกว่า

โมเดลสร้างวิดีโอในฐานะตัวจำลองโลก

ปัญหาที่ Sora จัดการและขอบเขตของรายงาน

วิธีรวมข้อมูลภาพเป็นแพตช์

การบีบอัดวิดีโอและแพตช์ latent เชิงเวลา-พื้นที่

การขยาย diffusion Transformer สำหรับการสร้างวิดีโอ

ข้อดีของการฝึกด้วยขนาดต้นฉบับ

ความยืดหยุ่นในการ sampling

การปรับปรุง framing และ composition

ความเข้าใจภาษาและการจัดการแคปชัน

การสร้างและแก้ไขโดยใช้ภาพและวิดีโอเป็นอินพุต

ทำภาพ DALL·E ให้เป็นแอนิเมชัน

การขยายวิดีโอที่สร้างขึ้น

การแก้ไขและเชื่อมต่อแบบวิดีโอสู่วิดีโอ

ความสามารถในการสร้างภาพ

ความสามารถในการจำลองที่เกิดขึ้นจากการขยายสเกล

ความสอดคล้องแบบ 3D

ความสอดคล้องระยะยาวและความคงอยู่ของวัตถุ

ปฏิสัมพันธ์กับโลก

การจำลองโลกดิจิทัล

ข้อจำกัดปัจจุบันและบทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News