Meta Movie Gen - มาตรฐานใหม่ของคอนเทนต์ AI แบบสมจริง
(ai.meta.com)- Meta Movie Gen เป็นงานวิจัยโมเดลสื่อ AI ที่จัดการทั้งการสร้างวิดีโอและเสียงจาก ข้อความที่ป้อน แบบง่าย ๆ, การตัดต่อวิดีโอเดิม, และการสร้างวิดีโอจากภาพส่วนบุคคลไว้ในที่เดียว
- การสร้างวิดีโอรองรับ ผลลัพธ์ความละเอียดสูง แบบยาวและอัตราส่วนภาพที่หลากหลาย โดย Meta ระบุว่านี่เป็นความสามารถแรกของอุตสาหกรรม
- สำหรับวิดีโอเดิม สามารถใช้ข้อความสั่งให้เปลี่ยนสไตล์, ทรานซิชัน และ การแก้ไขอย่างแม่นยำ ได้ เช่น เปลี่ยนโคมไฟให้กลายเป็น ฟองสบู่ ที่ลอยขึ้นไปกลางอากาศ
- เมื่อใส่รูปภาพและข้อความร่วมกัน ก็จะสร้างวิดีโอเฉพาะบุคคลที่คงไว้ซึ่ง อัตลักษณ์และการเคลื่อนไหว ของบุคคลนั้น พร้อมตัวอย่างอย่างห้องทดลอง, เซลฟี, คาวบอยตะวันตก และฉาก DJ
- สามารถสร้างหรือขยายเอฟเฟกต์เสียง ดนตรีประกอบ และแม้แต่ซาวด์แทร็กทั้งชุดได้ ทำให้เวิร์กโฟลว์การผลิตวิดีโอต่อเนื่องจากการสร้างภาพไปสู่ การจัดองค์ประกอบเสียง
งานที่ Movie Gen รองรับ
- Meta Movie Gen คือ AI media foundation model ที่เปิดเผยในฐานะผลงานวิจัยล่าสุดของ Meta
- รองรับงานสร้างสรรค์หลายอย่างภายใต้โฟลว์การป้อนข้อความเดียว
- การสร้างวิดีโอแบบปรับแต่งได้
- การสร้างเสียง
- การตัดต่อวิดีโอเดิม
- การแปลงภาพส่วนบุคคลเป็นวิดีโอเฉพาะตัว
- Meta นำเสนอ Movie Gen ให้เป็นมาตรฐานใหม่ของ คอนเทนต์ AI แบบสมจริง
การสร้างวิดีโอจากข้อความ
- Movie Gen สร้าง วิดีโอความละเอียดสูง แบบยาวในอัตราส่วนภาพที่หลากหลายจากข้อความที่ป้อน
- Meta ระบุว่านี่เป็นความสามารถแรกของอุตสาหกรรม
- พรอมป์ตสามารถระบุฉาก, ตัวแบบ, การเคลื่อนไหว, พื้นหลัง และสภาพแสงได้พร้อมกัน
- สลอธสวมแว่นกันแดดสีชมพูนอนเอนอยู่บนห่วงยางโดนัทพร้อมถือเครื่องดื่มเมืองร้อน
- ชายคนหนึ่งถือเครื่องมือจุดไฟในมือทั้งสองข้างและสร้างการเคลื่อนไหวเป็นวงกลมริมทะเล
- โคอาลากำลังกระดานโต้คลื่นโดยจับเซิร์ฟบอร์ดสีเหลืองไว้
- ผีผ้าขาวเต้นอยู่หน้ากระจกในห้องใต้หลังคาที่มีฝุ่นเกาะ
- ลิงหน้าแดงกำลังเล่นเรือใบลำเล็กในบ่อน้ำพุร้อน
ตัดต่อวิดีโอเดิมด้วยข้อความ
- Movie Gen รองรับ การแก้ไขอย่างแม่นยำ ที่เปลี่ยนวิดีโอเดิมผ่านข้อความที่ป้อน
- ขอบเขตการใช้งานครอบคลุมตั้งแต่การเปลี่ยนสไตล์, ทรานซิชัน ไปจนถึงการแก้ไขแบบละเอียด
- ในตัวอย่างมีการแปลงโคมไฟให้กลายเป็น ฟองสบู่ ที่ลอยขึ้นไปกลางอากาศ
วิดีโอแบบปรับแต่งจากภาพส่วนบุคคล
- หากผู้ใช้อัปโหลดรูปของตนเองและใส่ข้อความสั้น ๆ Movie Gen จะสร้าง วิดีโอเฉพาะบุคคล
- ผลลัพธ์ที่สร้างขึ้นถูกออกแบบให้คงอัตลักษณ์และการเคลื่อนไหวของบุคคลนั้นไว้
- ฉากตัวอย่างครอบคลุมหลายสภาพแวดล้อมและหลายพฤติกรรม
- ชายคนหนึ่งกำลังทดลองในห้องแล็บที่มีวอลเปเปอร์สีรุ้ง
- ผู้หญิงกำลังวาดภาพบนผ้าใบที่วางบนขาตั้งในห้องผนังไม้
- ชายคนหนึ่งกับสุนัขบีเกิลกำลังถ่ายเซลฟีที่ลานหลังบ้าน
- ชายสวมหมวกปีกกว้างและโค้ตสีน้ำตาลกำลังถือชาอยู่ในทะเลทราย
- คาวเกิร์ลขี่ม้าสีขาวในเมืองตะวันตกเก่า
- ดีเจหญิงกับเสือชีตาห์กำลังเปิดแผ่นเสียงบนดาดฟ้าใน LA
การสร้างเสียงให้เข้ากับวิดีโอ
- Movie Gen สามารถสร้างหรือขยาย เอฟเฟกต์เสียง, ดนตรีประกอบ และซาวด์แทร็กทั้งชุดจากข้อความที่ป้อน
- เสียงที่สร้างขึ้นถูกออกแบบให้สะท้อนโทน, จังหวะ และสไตล์ของวิดีโอ
- ข้อความตัวอย่างระบุทั้งเสียงเฉพาะทางและบรรยากาศของดนตรีร่วมกัน
- ฉากที่ฝนเทลงมาบนหน้าผาและผู้คน พร้อมมีดนตรีประกอบเล่นอยู่
- เสียงใบไม้เสียดสีกัน, เสียงกิ่งไม้หัก และดนตรีออร์เคสตรา
- ฉากที่เครื่องยนต์ ATV คำรามแล้วเร่งความเร็ว พร้อมมีดนตรีกีตาร์
- เสียงล้อสเก็ตบอร์ดหมุนและเสียงกระแทกตอนลงจอดบนคอนกรีต
- บทเพลงออร์เคสตราที่ปลุกความรู้สึกพิศวง
- เสียงผิวปากตามด้วยการระเบิดแหลมคมและเสียง crackling ดังสนั่น
ความร่วมมือกับครีเอเตอร์และอุตสาหกรรมบันเทิง
- Meta ร่วมมือกับ Blumhouse บริษัทผู้ผลิตที่ได้รับรางวัล ผ่าน Creative Industry Feedback Program
- Blumhouse คัดเลือกผู้สร้างภาพยนตร์ที่จะทำวิดีโอก่อนการเปิดตัวสู่สาธารณะของ Movie Gen
- ครีเอเตอร์ถูกขอให้ใช้ชุดเครื่องมือสื่อ AI เพื่อสร้างผลงานที่พวกเขามองว่าน่าสนใจหรือมีประโยชน์
- วิดีโอของผู้กำกับ Aneesh Chaganty มีชื่อว่า
"i h8 ai"
ตัวอย่างที่เผยแพร่และข้อมูลอ้างอิง
- Meta ระบุว่าครีเอเตอร์กำลังใช้ Movie Gen เพื่อเปลี่ยนวิธีการเล่าเรื่อง
- ตัวอย่างบน Instagram มีบัญชีและพรอมป์ตดังต่อไปนี้
- @paigepiskin: มือที่ถือทารันทูลาหน้าขนฟูเหมือนลูกแมวตัวเล็ก, การตัดต่อเปลี่ยนสุนัขให้เป็นลูกมังกรสีเทา
- @ka5sh: เอเลียนการ์ตูนสีเขียวสวมรองเท้าตลกสีชมพู, การตัดต่อเปลี่ยนคนให้เป็นเอเลียนสีเขียวสวมหมวก bucket hat สีแดง
- @girls: เด็กผู้หญิงเดินบนทางต้นไม้ในฤดูใบไม้ร่วง, ผู้หญิงสองคนดื่มกาแฟหน้ากำแพงที่ตกแต่งด้วยของฮาโลวีน
- @memezar: การชกมวยระหว่างลูกฮิปโปกับกอริลลากล้ามโต
- @ravivora: เพิ่มหมอกหนาในฉากหน้า, ผู้หญิงลอยขึ้นสู่ผิวน้ำท่ามกลางแมงกะพรุน
- มีการให้ข้อมูลเพิ่มเติมผ่าน บทความวิจัย Movie Gen และ Meta ระบุว่าได้สร้าง benchmark ใหม่ของอุตสาหกรรมในการสร้างสื่อด้วย AI
- บทความที่เกี่ยวข้องเชื่อมไปยังบล็อกเรื่อง ความร่วมมือกับอุตสาหกรรมบันเทิงและครีเอเตอร์ และ ยุคของการสร้างคอนเทนต์ด้วย AI
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ฟีเจอร์ที่น่าสนใจที่สุดคือการ ตัดต่อวิดีโอด้วยข้อความ ดูเหมือนจะเอาไปใช้กับหนังอินดี้ที่ไม่มีงบ CGI ได้ทันที
เช่น ถ่ายฉากโรงหนังบนเก้าอี้เลานจ์ก่อน แล้วค่อยเปลี่ยนให้ดูเหมือนโรงหนังภายหลัง
ถ้าใช้ให้ดี คุณภาพของหนังอินดี้หรือหนังสั้นน่าจะสูงขึ้น และขีดจำกัดก็มีแค่จินตนาการเท่านั้น
ยังไงโมเดลก็คงถูกเทรนมาจากนักแสดงที่ดีกว่านักแสดงอินดี้อยู่แล้ว
นี่ไม่ใช่หนัง แต่เป็น คลิป อุตสาหกรรมภาพและวิดีโอสต็อกคงกังวลแน่ ๆ และคงฟ้องร้องด้วย เพราะมีโอกาส 100% ที่โมเดลเหล่านี้ถูกเทรนจากผลงานของพวกเขา
ถ้าวันหนึ่งเทคโนโลยีนี้สร้างหนังได้ ก็คงออกมาเป็นค่าเฉลี่ยของทุกสิ่งที่เคยถูกสร้างมา เหมือนที่โมเดลข้อความ รูปภาพ และเพลงทำ ทำให้ผลลัพธ์ธรรมดาอย่างไม่น่าเชื่อ
จากนั้นก็ปรับฉากต่อไป บันทึก แล้วไปฉากถัดไปได้ ถ้า AI สามารถทำแอนิเมชันต่อเนื่องกันได้ ก็ไม่เห็นเหตุผลว่าทำไมเมื่อพัฒนามากขึ้นแล้วมันจะจำลองโมเดลที่กำหนดให้อย่างซื่อสัตย์ไม่ได้
ไม่รู้ว่ามีหนังยาวออกมาแล้วหรือกำลังอยู่ระหว่างการสร้างหรือยัง
ไม่อยากพูดแบบนี้เลย แต่ในสภาพปัจจุบัน ถ้า AI ยังเติบโตต่อไปแบบนี้ บริษัทเทคโนโลยีก็มีแนวโน้มสูงที่จะซึมเข้าไปทุกที่และทรงอำนาจมาก
ไม่เข้าใจว่าทำไมเว็บไซต์จำนวนมากที่โดยพื้นฐานแล้วเป็น HTML แบบสแตติก ถึงทำให้มือถือกระตุกได้ขนาดนี้
วิดีโอดูเท่ก็จริง แต่ถ้ามือถือค้างทุก 2 วินาที ก็อ่านบทความที่เกี่ยวข้องอย่างเพลิดเพลินไม่ได้
เวลาเลื่อนหน้า ข้อความบางส่วนหายไปแล้วโผล่กลับมา ไม่ใช่แอนิเมชันตามการเลื่อนหน้า และเกือบจะสุ่ม เหมือนมีบางอย่างไปบล็อกลูปเรนเดอร์ของเบราว์เซอร์จนวาดข้อความจริงตามไม่ทัน ถ้าเป็นหน้าเว็บที่เรียบง่ายแบบนี้ก็เป็นบั๊กที่เหลือเชื่อมาก แต่ถ้าใช้ React ตรงนี้ ตอนนี้ก็คงเป็นไปได้ทุกอย่างแล้ว
มนุษย์พึ่งพาอินพุตทางสายตาและความบันเทิงทางภาพมากเกินไป แต่ภาพเหล่านั้นกลับยิ่งรู้สึกไร้ความหมายขึ้นเรื่อย ๆ และทั้งหมดดูเหมือน คอนเทนต์ขยะสไตล์ฟาสต์ฟู้ด
การที่เด็กก่อนวัยเรียนก็สร้างอะไรก็ได้ที่จินตนาการออกภายในไม่กี่วินาที ไม่ได้ทำให้มันดีขึ้นหรือมีคุณค่าจริง ๆ บางทีนั่นอาจเป็นคุณค่าของเทคโนโลยีนี้ก็ได้ อาจถึงยุคที่เราลืมสิ่งอย่างภาพยนตร์ ซึ่งเป็นการจินตนาการเรื่องราวผ่านภาพไปได้เลย เพราะจะไม่มีใครสนใจอีกต่อไป
แต่คนกลับยอมจ่ายเงินให้สิ่งนั้น ไม่เข้าใจเลย
หลายปีแล้วที่พูดกันว่า สึนามิคอนเทนต์ที่สร้างขึ้น จะกลืนเสียงมนุษย์จริง ๆ บนโลกออนไลน์ ผลคืออินเทอร์เน็ตอาจแทบใช้งานเพื่ออย่างอื่นนอกจากความบันเทิงไม่ได้อีกต่อไป
ในแชตกลุ่มก็เห็นเพื่อนคนหนึ่งใช้คำตอบจาก AI แต่สมาชิกคนอื่นไม่รู้ตัวและตอบอย่างจริงจัง สิ่งแบบนี้ทำให้รู้สึกขยะแขยง และสัญชาตญาณก็อยากหลีกเลี่ยงคอนเทนต์ขยะจาก AI ตอนนี้ไม่รู้แล้วว่าต่อไปคืออะไร หรือควรไปที่ไหน ไม่รู้ว่า “ฟอรัมมนุษย์” จะถูกผลักไปอยู่มุมลึกกว่าเดิมของอินเทอร์เน็ต หรือทุกคนจะหันไปชอบพบกันออฟไลน์มากขึ้น
ถ้าอินเทอร์เน็ตตายแล้วทุกคนกลับไปสู่คอมมูนิตี้ที่เล็กลง ผมว่าไม่ได้เลวร้ายขนาดนั้น ตั้งแต่แรกเราก็ไม่ได้วิวัฒนาการมาเพื่อการสื่อสารในระดับทั้งโลกอยู่แล้ว
เคยเห็นไหมว่ามนุษย์ส่วนใหญ่พูดอะไร ถ้า AI พูดอะไรที่ฉลาดกว่า ผมก็เห็นด้วย
ทุกวันนี้อยากใช้เวลาออฟไลน์มากกว่า ยังมีที่หลบภัยบนอินเทอร์เน็ตแบบอื่นที่ไม่มีโฆษณา การเรียกร้องความสนใจ และคอนเทนต์ขยะจาก AI อยู่ไหม?
คงหาคำที่ดีกว่านี้มาอธิบายทุกวิดีโอไม่ได้ แต่มันมี ความมันวาว แบบเฉพาะตัวของ AI สร้างภาพที่ดูออกได้ทันที อีกจุดที่เห็นชัดที่สุดคือการเปลี่ยนแปลงเล็ก ๆ ตรงขอบภาพ ซึ่งทำให้เกิดอาร์ติแฟกต์พร่ามัว
มีการพิสูจน์ให้เห็นแล้วด้วยว่า เมื่อผู้คนไม่ได้คาดว่าจะเจอคอนเทนต์ AI พวกเขาจะสังเกตได้น้อยลงมากว่ามันเป็น AI ถ้าผมไม่ได้ตั้งการ์ดไว้ ก็คงเชื่อว่าวิดีโอส่วนใหญ่เหล่านี้เป็นของจริง 100%
มี Reels จำนวนมากที่มีแพตเทิร์นแบบใส่นอยส์ให้คอนเทนต์ที่ขโมยมามากพอเพื่อเลี่ยงฟิลเตอร์ตรวจจับคอนเทนต์ แล้วในคอมเมนต์ก็มีลิงก์เว็บหลอกลวง พร้อมข้อความว่า “หน้า IMDB ของคอนเทนต์นี้”
แต่ปัญหาตรงขอบภาพก็ยังหนักอยู่ดี
ผู้บริโภคทั่วไปดูเหมือนจะชอบลักษณะเหล่านี้มากกว่าเวลาเปรียบเทียบภาพหรือวิดีโอ และใช้มันเป็นฮิวริสติกในการตัดสินคุณภาพ เคยมีการเปรียบเทียบโมเดลสร้างภาพจากข้อความรุ่นเก่ากับเจเนอเรชันล่าสุด โดยอ้างว่าโมเดลเก่าที่ถูกปรุงแต่งน้อยกว่านั้นไม่ได้เอนเอียงไปสู่ผลลัพธ์ที่คิตช์และโอ้อวดเหมือนโมเดลใหม่ ๆ
อาจเป็นผมที่มองแบบปิดเกินไปก็ได้ แต่ใครกันแน่ที่ต้องการสิ่งนี้ และมีใครคิดถึงผลลัพธ์ของ การสร้างขยะด้วย AI ที่เข้าถึงได้ง่ายหรือเปล่า?
ตอนนี้ถ้าไม่รู้ว่าควรไปดูตรงไหนบนอินเทอร์เน็ต ก็แทบเป็นไปไม่ได้อยู่แล้วที่จะเจอคอนเทนต์คุณภาพ
ลูก ๆ ของผมทั้งสองคนมีแนวโน้มด้านความคิดสร้างสรรค์สูง และกลัวว่า AI จะทำให้หาเลี้ยงชีพจากงานสร้างสรรค์ไม่ได้ แต่ช่วงหลังผมก็เริ่มคิดอีกแบบ
เราใช้เงินหลายพันล้าน หรืออาจถึงหลายล้านล้านดอลลาร์ตลอดหลายทศวรรษเพื่อปรับปรุงเทคโนโลยีความบันเทิง เมื่อ AI สามารถสร้างความบันเทิงใด ๆ ที่จินตนาการได้ เราอาจเริ่มรู้สึกว่าความบันเทิงเหล่านั้นน่าเบื่อ ตอนนั้นเราอาจตัดสินว่าการสำรวจอวกาศ การขยายความรู้ด้านฟิสิกส์และเคมี และการต่อสู้กับโรคภัยนั้นน่าสนใจกว่ามาก เพราะสิ่งเหล่านั้นเป็นความจริง ในมุมมองเดียวกัน ศิลปะที่มนุษย์สร้างก็อาจน่าสนใจขึ้นเพราะมันเป็นของจริงเช่นกัน
คนที่คลั่งไคล้ AI มักเห็นได้หลัก ๆ แค่บนออนไลน์ และถ้าไม่มีคำที่ดีกว่านี้ก็คงต้องบอกว่าพวกเขาดูจมอยู่กับโลกออนไลน์มากจริง ๆ และดูเหมือนเป็นคนที่ไม่มีทักษะ ความรู้ หรือความสามารถในการสร้างศิลปะด้วยตัวเอง ทันทีที่ใครพูดว่า “สร้างด้วย AI” ความน่าสนใจในเชิงศิลปะก็หายไปทันที มันต่างจากการใช้ Photoshop หรือเครื่องมือดิจิทัลอาร์ต การยกการมีส่วนร่วมของมนุษย์ให้น้อยที่สุดมาเป็นจุดเด่นนั้น สำหรับผมแล้ว เมื่อมันถูกนำเสนอในฐานะศิลปะ มันก็ไม่ตั้งต้นได้ตั้งแต่แรก ผมจะรอดูว่าวิสัยทัศน์แบบยูโทเปียของเทคโนโลยีนี้จะเป็นจริงไหม แต่ผมเคยเห็นหลายครั้งแล้วว่าการมองโลกในแง่ดีแบบหายใจไม่ทันกับเทคโนโลยีใหม่ ๆ สุดท้ายแข็งตัวกลายเป็นขยะจืด ๆ สไตล์ MBA ที่ขับเคลื่อนด้วยโฆษณา เลยไม่ได้มองในแง่ดีนัก
ผมติดตามคอมมูนิตี้สร้างด้วย AI ใหม่ ๆ จำนวนมากบน Twitter และในคอมมูนิตี้เหล่านี้มีคนในอุตสาหกรรมครีเอทีฟเยอะ คนหนึ่งที่เคยทำงานในวงการโฆษณาเพิ่งแชร์เรื่องการถ่ายทำให้แบรนด์ดัง มีการเซ็ตซาวด์สเตจ นักแสดง เสียง แต่งหน้า แสง ฯลฯ เป็นเวลา 3 วัน และมีคนประมาณ 25 คนทำงานอยู่ 3 วัน แต่ถ้ารวมพรีโปรดักชันและโพสต์โปรดักชันแล้ว เบื้องหลังมีความพยายามราว 3 เดือน ลองนึกถึงการตัดต่อ เกรดสี ตัดต่อเสียง ดนตรี และอื่น ๆ เด็กที่มีความคิดสร้างสรรค์อาจได้อยู่ในโลกที่สามารถทำผลลัพธ์คล้ายกันได้ด้วยตัวเอง เป็นทีมเล็ก ๆ ที่คนหนึ่งรับผิดชอบตัวละคร คนหนึ่งรับผิดชอบเสียง คนหนึ่งรับผิดชอบบท โดยไม่ต้องมีอุปกรณ์เช่าราคาหลายหมื่นดอลลาร์และผู้เชี่ยวชาญ 25 คน แค่มีความพยายามและเครื่องมือสร้างด้วย AI ก็สามารถทำไอเดียในหัวให้เป็นรูปเป็นร่างได้ ผมเชื่อจริง ๆ ว่าเครื่องมือใหม่เหล่านี้จะเปิด ศักยภาพ ได้มากกว่าที่เราจินตนาการกันตอนนี้
ผลงานที่สร้างด้วย AI จะหาที่ทางของมันข้าง ๆ ผลงานที่มนุษย์สร้าง อาจถึงขั้นทำให้ตลาดภาพยนตร์ศิลป์และการแสดงชั้นยอดดีขึ้น ด้วยการเน้นให้เห็นความแตกต่างที่พรสวรรค์ของมนุษย์แม้เพียงเล็กน้อยสร้างขึ้น สิ่งที่ตกอยู่ในความเสี่ยงไม่ใช่ศิลปะ แต่คือ งานจิปาถะ สิ่งที่เปลี่ยนไปคือขนาดของงานห่วยที่มนุษย์ผลิตซึ่งเคยจ้างคนเป็นล้าน ๆ จะย้ายไปเป็นงานห่วยที่ AI ผลิตซึ่งจ้างคนแค่หลักสิบ
นี่มันสุดยอดจริง ๆ ความสอดคล้องเชิงพื้นที่และเวลา น่าเหลือเชื่อมาก
ผลลัพธ์ที่คาดได้คือแบบนี้ บทภาพยนตร์ทั้งหมดของ Hollywood ต่อไปจะถูกส่งพร้อม ภาพยนตร์พรีวิชวลไลเซชัน จะมีตัวแปลงการ์ตูนเป็นแอนิเมชันออกมา และจะมีโฆษณาออนไลน์ของผลิตภัณฑ์มากขึ้นมาก
หลังจากนั้นคงต้องดูต่อไปว่าเทคโนโลยีนี้จะหยุดนิ่งหรือไปได้ไกลขึ้น
การเปลี่ยนการ์ตูนเป็นแอนิเมชันมีอยู่แล้ว โฆษณา โดยเฉพาะโฆษณาบนโซเชียลและออนไลน์ ก็เกิดขึ้นอยู่แล้ว