โมเดลสร้างวิดีโอในฐานะตัวจำลองโลก
(openai.com)การใช้โมเดลสร้างวิดีโอเป็นตัวจำลองโลก
- สำรวจการฝึกโมเดลเชิงกำเนิดกับข้อมูลวิดีโอขนาดใหญ่
- ฝึกโมเดล diffusion แบบมีเงื่อนไขด้วยข้อความร่วมกันกับทั้งวิดีโอและภาพที่มีความยาว ความละเอียด และอัตราส่วนภาพหลากหลาย
- ใช้สถาปัตยกรรม Transformer ที่ทำงานกับแพตช์เชิงกาล-อวกาศของโค้ดแฝงสำหรับวิดีโอและภาพ
- Sora ซึ่งเป็นโมเดลที่ใหญ่ที่สุด สามารถสร้างวิดีโอความยาว 1 นาทีคุณภาพสูงได้
การแปลงข้อมูลภาพเป็นแพตช์
- ได้รับแรงบันดาลใจจากโมเดลภาษาขนาดใหญ่ที่ได้ความสามารถทั่วไปจากการฝึกด้วยข้อมูลอินเทอร์เน็ตขนาดใหญ่
- นำความสำเร็จของการใช้โทเค็นที่รวมข้อความหลากหลายประเภทมาประยุกต์ใช้กับโมเดลสร้างข้อมูลภาพ
- แปลงวิดีโอเป็นแพตช์เพื่อค้นหาวิธีแทนข้อมูลที่มีประสิทธิภาพสำหรับการฝึกโมเดลเชิงกำเนิดกับวิดีโอและภาพหลากหลายประเภท
เครือข่ายบีบอัดวิดีโอ
- ฝึกเครือข่ายเพื่อลดมิติของข้อมูลภาพ
- รับวิดีโอดิบเป็นอินพุตและส่งออกการแทนค่าแฝงที่ถูกบีบอัดทั้งเชิงเวลาและเชิงพื้นที่
- Sora ถูกฝึกและสร้างวิดีโอใน latent space ที่ถูกบีบอัดนี้
แพตช์แฝงเชิงกาล-อวกาศ
- ดึงลำดับของแพตช์เชิงกาล-อวกาศจากวิดีโออินพุตที่ถูกบีบอัด
- การแทนค่าแบบอิงแพตช์นี้ทำให้สามารถฝึกกับวิดีโอและภาพที่มีความละเอียด ความยาว และอัตราส่วนภาพหลากหลายได้
การขยายขนาดการสร้างวิดีโอด้วย Transformer
- Sora เป็นโมเดล diffusion ที่ถูกฝึกให้รับแพตช์ที่มีสัญญาณรบกวนและทำนายแพตช์ต้นฉบับที่ "สะอาด"
- Transformer แสดงความสามารถในการขยายขนาดได้อย่างยอดเยี่ยมในหลายสาขา เช่น language modeling, computer vision และการสร้างภาพ
ความยาว ความละเอียด และอัตราส่วนภาพที่หลากหลาย
- แนวทางการสร้างภาพและวิดีโอแบบเดิมมักปรับวิดีโอให้เป็นขนาดมาตรฐาน
- การฝึกด้วยข้อมูลในขนาดดั้งเดิมมีข้อดีหลายประการ
ความเข้าใจภาษา
- การฝึกระบบสร้างวิดีโอจากข้อความต้องการวิดีโอจำนวนมากที่มาพร้อมข้อความบรรยาย
- มีการฝึกโมเดลสร้างคำบรรยายที่มีความสามารถในการอธิบายสูง และใช้มันสร้างคำบรรยายข้อความให้กับวิดีโอทั้งหมดในชุดฝึก
การพรอมป์ต์ด้วยภาพและวิดีโอ
- Sora สามารถรับพรอมป์ต์ได้ไม่เพียงแค่ข้อความ แต่ยังรวมถึงอินพุตอื่นอย่างภาพหรือวิดีโอที่มีอยู่แล้ว
- ความสามารถนี้ช่วยให้ทำงานแก้ไขภาพและวิดีโอได้หลากหลายรูปแบบ
การเกิดขึ้นของความสามารถด้านการจำลอง
- เมื่อฝึกในสเกลใหญ่ จะเริ่มปรากฏความสามารถด้านการจำลองที่น่าสนใจบางอย่าง
- ความสามารถเหล่านี้ทำให้ Sora สามารถจำลองบางแง่มุมของมนุษย์ สัตว์ และสภาพแวดล้อมในโลกกายภาพได้
อภิปราย
- Sora ยังแสดงให้เห็นข้อจำกัดหลายประการในฐานะตัวจำลอง
- มันยังไม่สามารถจำลองฟิสิกส์ของปฏิสัมพันธ์พื้นฐานได้อย่างแม่นยำ และปฏิสัมพันธ์อื่น ๆ ก็ไม่ได้ทำให้สถานะของวัตถุเปลี่ยนไปอย่างถูกต้องเสมอ
GN⁺ ความเห็น:
- Sora เป็นก้าวสำคัญที่ขยายจากการสร้างวิดีโอและภาพไปสู่การจำลองทั้งโลกกายภาพและโลกดิจิทัล
- เทคโนโลยีนี้มีศักยภาพสูงต่อการสร้างคอนเทนต์แบบปรับแต่งเฉพาะ เพราะสามารถสร้างวิดีโอได้ในหลายความละเอียดและอัตราส่วนภาพ
- ความสามารถด้านการจำลองของ Sora มอบมุมมองที่น่าสนใจว่า AI สามารถเข้าใจและสร้างโลกกายภาพขึ้นมาใหม่ได้อย่างไร
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สรุปความคิดเห็นแรก:
สรุปความคิดเห็นที่สอง:
สรุปความคิดเห็นที่สาม:
สรุปความคิดเห็นที่สี่:
สรุปความคิดเห็นที่ห้า:
สรุปความคิดเห็นที่หก:
สรุปความคิดเห็นที่เจ็ด:
สรุปความคิดเห็นที่แปด:
สรุปความคิดเห็นที่เก้า:
สรุปความคิดเห็นที่สิบ: