Lumiere: โมเดลการแพร่เชิงกาล-อวกาศเพื่อสร้างวิดีโอที่สมจริง

(lumiere-video.github.io)

1 คะแนน โดย GN⁺ 2024-01-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เพื่อปรับปรุง ความสอดคล้องของการเคลื่อนไหว ซึ่งเป็นโจทย์ที่ยากในการสร้างวิดีโอ Lumiere ของ Google Research คือโมเดลการแพร่แบบข้อความสู่วิดีโอที่มุ่งสร้างวิดีโอสังเคราะห์ที่สมจริงและหลากหลาย
แกนหลักคือ Space-Time U-Net ซึ่งสร้างช่วงเวลาทั้งหมดในครั้งเดียวด้วยการรันโมเดลเพียงรอบเดียว แทนการสร้าง keyframe ที่อยู่ห่างกันก่อนแล้วค่อยทำการแทรกเฟรม
ใช้การ downsampling และ upsampling ทั้งในมิติพื้นที่และเวลา และอาศัยโมเดลการแพร่แบบข้อความสู่ภาพที่ฝึกไว้ล่วงหน้าเพื่อสร้างวิดีโอความละเอียดต่ำแบบ full-frame-rate ได้โดยตรง
เดโมครอบคลุมงานสร้างและงานแก้ไขอย่างกว้างขวาง ตั้งแต่ข้อความสู่วิดีโอ, ภาพสู่วิดีโอ, การสร้างแบบใส่สไตล์, การใส่สไตล์ให้วิดีโอ, cinemagraph ไปจนถึง video inpainting
แม้ผู้เริ่มต้นจะสร้างคอนเทนต์ภาพได้อย่างยืดหยุ่น แต่ก็จำเป็นต้องมี การตรวจจับอคติและการใช้งานโดยเจตนาร้าย ควบคู่กันไป เพราะมีความเสี่ยงที่จะถูกนำไปใช้สร้างคอนเทนต์ปลอมหรือเป็นอันตราย

เป้าหมายของ Lumiere และเอกสารที่เผยแพร่

Lumiere เป็นโมเดลการแพร่แบบข้อความสู่วิดีโอที่มุ่งยกระดับ การสังเคราะห์วิดีโอ ให้มีความสมจริง ความหลากหลาย และความสอดคล้องเชิงเวลาของการเคลื่อนไหวมากขึ้น
สามารถดูงานวิจัยและวิดีโอเดโมต่าง ๆ ได้จากหน้าโปรเจกต์
แสดงให้เห็นทั้งงานสร้างวิดีโอและแอปพลิเคชันสำหรับการตัดต่อวิดีโอ

โครงสร้างที่สร้างช่วงเวลาทั้งหมดพร้อมกัน

Lumiere นำสถาปัตยกรรม Space-Time U-Net มาใช้เพื่อสร้างความยาวเวลาทั้งหมดของวิดีโอในครั้งเดียวด้วยการรันโมเดลเพียงรอบเดียว
โมเดลวิดีโอแบบเดิมมักสังเคราะห์ keyframe ที่อยู่ห่างกันก่อน แล้วจึงใช้ temporal super-resolution ทำให้รักษาความสอดคล้องเชิงเวลาระดับโลกได้ยาก
โมเดลนี้ใช้ทั้งการ downsampling และ upsampling ไม่เฉพาะในมิติพื้นที่ แต่รวมถึงมิติเวลาด้วย
โดยอาศัยโมเดลการแพร่แบบข้อความสู่ภาพที่ฝึกไว้ล่วงหน้า จึงสามารถสร้างวิดีโอความละเอียดต่ำแบบ full-frame-rate ได้โดยตรงในหลาย สเกลเชิงกาล-อวกาศ

สร้างวิดีโอจากข้อความและภาพ

เดโม Text-to-Video สร้างวิดีโอจากข้อความพรอมป์ตเพียงอย่างเดียว
- ตัวอย่างประกอบด้วยนักเดินเขาบนยอดเขา, นักบินอวกาศใกล้ฐานบนดาวอังคาร, ฉากที่สุนัขใส่แว่นกันแดดกำลังขับรถ, ฉากที่ช็อกโกแลตไซรัปถูกราดลงบนไอศกรีมวานิลลา, ดอกไม้ไฟ, และไทม์แลปส์พระอาทิตย์ตกริมชายหาด
เดโม Image-to-Video สร้างวิดีโอจากภาพอินพุตและพรอมป์ต
- ตัวอย่างประกอบด้วยแมวเศร้าที่ใส่เสื้อลายทาง, หมีเท็ดดี้เต้นรำท่ามกลางหิมะ, เต่าที่ว่ายน้ำในทะเล, ลิงที่ดื่มกาแฟพร้อมใช้แล็ปท็อป, และแมวที่กำลังเล่นเปียโน

การสร้างแบบใส่สไตล์และการตัดต่อวิดีโอ

Stylized Generation ใช้ภาพอ้างอิงเพียงภาพเดียวเพื่อสร้างวิดีโอในสไตล์เป้าหมาย
กระบวนการนี้ใช้ค่าน้ำหนักของโมเดลข้อความสู่ภาพที่ผ่านการ fine-tune
ตัวอย่างสไตล์อ้างอิงได้แก่ Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing, Watercolor painting เป็นต้น
ใน Video Stylization สามารถทำการตัดต่อวิดีโออย่างสม่ำเสมอด้วยวิธีแก้ไขภาพที่อิงข้อความ
- ตัวอย่างสไตล์พรอมป์ตได้แก่ “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers” เป็นต้น

แอนิเมชันแบบระบุพื้นที่และ inpainting

ฟีเจอร์ Cinemagraphs สามารถทำให้เคลื่อนไหวได้เฉพาะบางพื้นที่ที่ผู้ใช้ระบุในเนื้อหาภาพ
เดโม Video Inpainting รับวิดีโอต้นฉบับที่มีการใส่มาสก์เป็นอินพุต แล้วสร้างวิดีโอผลลัพธ์
ตัวอย่างการ inpainting มีพรอมป์ตสำหรับเปลี่ยนชุดหรือเครื่องประดับ
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

ผลกระทบทางสังคมและความปลอดภัย

เป้าหมายสำคัญของ Lumiere คือทำให้ผู้ใช้มือใหม่สามารถสร้างคอนเทนต์ภาพได้อย่าง สร้างสรรค์และยืดหยุ่น
แต่เทคโนโลยีเดียวกันนี้ก็มีความเสี่ยงที่จะถูกนำไปใช้ผิดวัตถุประสงค์ในการสร้างคอนเทนต์ปลอมหรือเป็นอันตราย
เพื่อให้ใช้งานได้อย่างปลอดภัยและเป็นธรรม จำเป็นต้องพัฒนาและนำเครื่องมือสำหรับตรวจจับ อคติ และกรณีการใช้งานโดยเจตนาร้ายมาใช้

1 ความคิดเห็น

GN⁺ 2024-01-26

ความคิดเห็นจาก Hacker News

รู้สึกไม่พอใจมากที่งานนี้ถูกนำเสนอโดยสวมเปลือกของ งานวิจัยทางวิทยาศาสตร์
มันดูเป็นได้แค่การอวด โฆษณา และการตลาด และไม่ได้อธิบายขั้นตอนที่ทำซ้ำได้ไว้เลย
ไดอะแกรมสถาปัตยกรรมอาจสร้างแรงบันดาลใจให้คนอื่นได้ แต่ไม่ได้ให้สิ่งที่สำคัญที่สุดในวิทยาศาสตร์อย่าง การหักล้างได้
ไม่มีทางตรวจสอบได้ว่า Google โกหกหรือไม่ ดังนั้นต้องสันนิษฐานว่าตัวอย่างทั้งหมดถูกคัดเลือกและผ่านการปรับแต่งภายหลังแล้ว
ต้องถือว่าข้อมูลฝึกโมเดลก็ได้มาอย่างผิดกฎหมายด้วย และเพราะตอนนี้ Google พูดอ้างสิ่งที่พิสูจน์ไม่ได้ซ้ำ ๆ จึงต้องเริ่มจากความกังขาอย่างสุดขั้ว
เมื่อเทียบประสิทธิภาพ Gemini ของ Bard กับ GPT-4 ก็ยังตามหลังอยู่มาก และวิดีโอที่อ้างว่าเป็นการโต้ตอบกับโมเดลก็ไม่ได้เป็นแบบนั้นจริง ๆ
ไม่ควรมีองค์กรใดดำเนินงานแบบนี้ แต่ Google กลายเป็นผู้กระทำผิดซ้ำที่หนักเป็นพิเศษ
- ท่าทีแบบนั้นดูไม่เป็นประโยชน์ต่อวิทยาศาสตร์
  ถ้าไม่เชื่อผลลัพธ์ ก็แค่เพิกเฉยต่อผลลัพธ์ที่อ้าง แล้วหยิบเอาเฉพาะไอเดียหลักไปก็พอ
  ไม่จำเป็นต้องตั้งสมมติฐานว่ามีเจตนาร้ายเพื่อทำให้สิ่งที่เรียกว่าโฆษณาของพวกเขาเป็นโมฆะ
  ท่าทีแบบนี้อาจทำให้รู้สึกดีขึ้นบ้าง แต่ทำให้ข้ออ้างกลายเป็นเรื่องการเมือง และถ้ามันเป็นจริงขึ้นมา ก็จะทำให้เราช้าลงเสียเอง
  ในอดีตมีบทความวิจัยของ Google จำนวนไม่น้อยที่แทบไม่มีผลลัพธ์ที่ทำซ้ำได้ แต่สุดท้ายก็กลายเป็นพื้นฐานของเทคโนโลยีที่มีประโยชน์
- ขอเสริมว่า การใช้ข้อมูลเพื่อฝึกโมเดลนั้นโดยตัวมันเองไม่ผิดกฎหมาย
  สิ่งที่ผิดกฎหมายคือการทำให้โมเดลส่งออก ข้อมูลชุดเดียวกันนั้น เพื่อผลประโยชน์เชิงพาณิชย์
  ความแตกต่างนี้ถูกทำให้พร่าเลือนโดยเจตนา แต่ควรทำความเข้าใจไว้
- อยากรู้ว่าเขาเข้าถึง Gemini Ultra ได้อย่างไร
  หรือหมายถึง Gemini Pro ที่ถูกนำไปเทียบกับ GPT-3.5?
- วิดีโอนี้แทบจะแน่นอนว่าดูเหมือนทำมาเพื่อนักลงทุนของ Google: “เรายังไม่ตาย และ Search ก็ยังไม่ตาย! ดูหมีเต้นสิ!”
  ถึงอย่างนั้น ถ้าเทคโนโลยีเป็นอย่างที่โฆษณาจริง ๆ ก็น่าประทับใจมาก
- ในเมื่อ Google เคยถูกจับได้แล้วว่า จัดฉากเดโม AI ก็มีเหตุผลให้คิดได้สูงว่าพวกเขาอาจโกหกหรือคัดเลือกตัวอย่างที่ดูดี
  ในโลกวิจัยจริง ถ้าถูกจับได้ว่าทำแบบนี้ งานหลังจากนั้นรวมถึงงานก่อนหน้านี้ก็จะถูกตรวจสอบอย่างเข้มงวด
ตัวอย่างต่าง ๆ มีความสอดคล้องและต่อเนื่องยาวกว่าวิธีอื่น ๆ ที่เคยเห็นมาก
เมื่อเทียบกับโมเดลอื่น ๆ ขาดูลื่นไถลบนพื้นน้อยกว่า
ในทางกลับกัน ใบหน้าคนยังดูไม่ดี เช่น ฉากรอยยิ้มแบบโมนาลิซา
โดยส่วนตัวแล้ว มันดูเหมือน โมเดลสร้างวิดีโอ ตัวแรกที่พอใช้ได้
แก้ไข: เพิ่งเห็นว่าเป็นผลงานของ Google งั้นคงไม่มีวันเปิดให้ใช้สาธารณะสินะ
- ถ้าเปิดออกมา ผมว่าภายในหนึ่งสัปดาห์จะมี โมเดล NSFW ที่อิงจากมันขึ้นไปบน Civitai
- ไม่หรอก นักวิจัยก็จะต่อยอดจากงานนี้เหมือนที่ทำกันมาตลอด และสุดท้ายบริษัทสักแห่งจะสร้างผลิตภัณฑ์ที่ประสบความสำเร็จโดยอาศัยผลงานวิจัยจำนวนมาก รวมถึงงานนี้ด้วย
  แล้วตอนนั้นเราก็คงบ่นว่า Google ตามหลัง
  ถือว่าน่าทึ่งทีเดียวที่ Google สนับสนุนงานวิจัยล้ำสมัยจำนวนมากและแบ่งปันต่อสาธารณะ
  แค่ไม่รู้ว่าสิ่งนี้จะอยู่ได้นานแค่ไหน
- สงสัยว่ามีกี่ตัวอย่างในวิดีโอเดโมนี้ที่เป็นของจริง
  https://arstechnica.com/information-technology/2023/12/googl...
- บอกว่า “รอยยิ้มแบบโมนาลิซา” แต่จริง ๆ นั่นไม่ใช่ "Mona Lisa"[1] ของ Leonardo da Vinci แต่เป็น "Girl with a Pearl Earring"[2] ของ Johannes Vermeer
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
ตอนนี้บน GitHub ของพวกเขาไม่มีอะไรเลยนอกจากหน้าที่ลิงก์ไว้
https://github.com/lumiere-video
ก็ไม่ได้อ้างตั้งแต่แรกว่าจะมีอะไรอยู่ แต่ผมก็ลองตรวจดู และไม่เห็นลิงก์ไปยังโปรไฟล์ GitHub ด้วย
ฝากลิงก์ไว้ให้คนที่เห็น URL เว็บไซต์ที่โฮสต์อยู่แล้วไม่อยากพิมพ์ที่อยู่โปรไฟล์เอง
- เป็นรูปแบบที่พบบ่อยในสาย AI/แมชชีนเลิร์นนิง: เอาข้อมูลเกี่ยวกับสิ่งที่ยังไม่เปิดเผยไปลง GitHub แล้วบอกว่า “อยู่บน GitHub”
- โมเดลภาษาขนาดใหญ่สร้างเทรนด์ใหม่ที่น่าเสียดายขึ้นมาเสียแล้ว
การ inpainting วิดีโอ น่าสนใจ
ช่วงนี้เด็ก ๆ ดูตอนเก่า ๆ ของ SpongeBob อยู่ แล้วอัตราส่วนภาพ 4:3 ค่อนข้างขัดตา
ผมคิดว่าการ inpaint ขอบสองข้างให้กลับเป็น 16:9 น่าจะเป็นกรณีใช้งานที่น่าสนใจ แต่การจัดการวัตถุที่เข้ามาในเฟรมจากด้านข้างน่าจะต้องมีการปรับแต่งละเอียดบางแบบโดยอิงจากการมองล่วงหน้า
- ฟังดูเหมือนผลิตภัณฑ์ที่คนในอุตสาหกรรมทีวี/ภาพยนตร์อาจซื้อจริง ๆ
  คือการยืดวิดีโออัตราส่วนภาพคงที่ หรือปรับให้เป็นขนาดที่ไม่ใช่ต้นฉบับแบบไดนามิกโดยไม่มีการบิดเบือนที่เห็นชัด
  แค่ต้องคาดเดาขอบที่เพิ่มเข้ามาให้แม่นพอที่ผู้ชมจะไม่สังเกตเห็น
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (แท็บเล็ต/เดสก์ท็อป)
  ยังสามารถทำให้หนังใหม่ดูเหมือนหนังเงียบขาวดำคลาสสิก แล้วใส่เฟรมที่เหมาะสมให้ได้ด้วย
  จะปรับให้หนังเรื่องไหน ๆ ทำงานบนจอ IMAX ได้อย่างเป็นธรรมชาติก็ได้
- แค่ ประมวลผลวิดีโอย้อนกลับ ไม่ได้เหรอ?
พอเห็นลักษณะแปลก ๆ ชวนขนลุกเหมือนความฝันของตัวอย่างสร้างวิดีโอ AI สั้น ๆ แบบนี้ ก็รู้สึกเสียดายเสมอที่ไม่มีบทความไหนใส่พรอมป์ต์ "dreaming of electric sheep" เป็นอีสเตอร์เอ้กสักครั้ง
ให้ตายเถอะ ถ้าประกาศนี้ออกมาเมื่อ 2–3 ปีก่อนคง ช็อกวงการ ไปแล้ว
ทุกคนชินกับการที่รีลีสใหม่ ๆ แบบนี้ออกมาอย่างรวดเร็วมาก แต่ก็ยังน่าทึ่งอยู่ดี
อยากได้ลองใช้ซอฟต์แวร์ที่มีความสามารถแบบนี้เร็ว ๆ
แก้ไข: อ้าว ของ Google นี่นา งั้นจะรอจนกว่าจะมีโอเพนซอร์สออกมา
ดูเหมือนว่ามักจะเอาภาพเก่ามาผสมกับชุดข้อมูลสมัยใหม่อยู่บ่อย ๆ
ถ้าให้ภาพเหมือนของ George Washington แล้วใส่พรอมป์ต์ว่า “ผู้ชายกำลังยิ้ม” จะเห็น[ฟันปลอม][1]ไหม หรือจะเห็นฟันขาวจั๊วะ?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- ข้อมูลนอกการแจกแจง แบบนั้นคงต้องระบุไว้ในพรอมป์ต์อยู่แล้ว
  ยังไม่ชัดเจนว่าโมเดลพวกนี้ได้สร้าง world model ขนาดใหญ่เกี่ยวกับข้อเท็จจริงเหมือนโมเดลภาษาขนาดใหญ่ที่ใหญ่กว่าแล้วหรือยัง และตอนนี้ดูเหมือนจะเน้นทำความเข้าใจว่าวัตถุเคลื่อนไหวอย่างไรมากกว่า
  ในชุดข้อมูล คนส่วนใหญ่โชว์ฟันขาวจั๊วะ และไม่มีวิดีโอปากของ Washington ดังนั้นผมคิดว่าค่าเริ่มต้นก็คงเป็นแบบนั้น เว้นแต่จะบรรยายฟันปลอมที่ต้องการอย่างละเอียด
ความคิดบางอย่าง: เพราะเป็น Google เราคงไม่มีโอกาสได้ลองใช้เอง
แต่ไอเดียน่าสนใจมาก วิธีคือฝึกให้โมเดลสร้าง representation ขนาดเล็กของวิดีโอทั้งช่วงเวลาก่อน จากนั้นค่อยอัปสเกลทั้งในมิติเวลาและพิกเซล
โดยพื้นฐานแล้ว ถ้าเราเคยเห็นโมเดลก่อน ๆ เพิ่ม depth map นี่ก็เหมือนเพิ่ม time map เข้าไปอีกมิติหนึ่ง
ดูด้วยตาแล้วความสม่ำเสมอค่อนข้างดี
ความขัดตาดูเหมือนจะอยู่ที่ส่วนที่โมเดลตัดสินใจว่าเป้าหมายบางอย่าง “ควรทำอะไร” เมื่อเวลาผ่านไป มากกว่าจะเป็นความล้มเหลวแบบที่มักเกิดจากการรักษาความสอดคล้องทีละเฟรม
insight ใหญ่ของนักวิจัย Google คือสามารถ condition, เรียนรู้ และสร้างความสอดคล้องเองก่อน แล้วค่อยเติมเฟรมได้
คิดว่าผู้ให้บริการโมเดลหลายรายอย่าง Stability น่าจะทำซ้ำได้พอสมควร และไม่มีส่วนไหนที่ดูเหมือนทำไม่ได้เป็นพิเศษ
เป็นโพสต์ธีมพิกเซลสำหรับเปเปอร์ธีมพิกเซล
น่าประทับใจทีเดียว และน่าจะนำไปสู่โปรแกรม “สร้างหนังจากย่อหน้าเดียว” ทะลักออกมาอย่างมหาศาลในไม่ช้า
เพราะเป็นผลงานของ Google ก็มีโอกาสสูงที่จะถูกเก็บไว้ในกล่อง กลายเป็นเครื่องมือ Rick and Morty ที่เราไม่มีวันได้เห็น
ชอบรูปแบบการระบุผู้เขียน
สัญลักษณ์อย่าง 1,2,3,4,*,+ เหมาะสำหรับแยกผู้เขียนหลัก สังกัดสถาบัน และผู้มีส่วนร่วมสำคัญ
เวลาอ่านเปเปอร์ดาราศาสตร์กับฟิสิกส์เยอะ ๆ มักเจอผู้เขียนเกิน 10 คน แต่ไม่รู้เลยว่าใครทำอะไร
เช่น ในลิงก์ arXiv ไม่เห็นรูปแบบที่คล้ายกัน
และสิ่งนี้มีแนวโน้มสูงว่าจะถูกใช้ทำ สื่อลามกเพื่อการละเมิด ทันที
ตัวอย่าง Walking Woman รูปแบบที่ 5: “ไม่สวมเสื้อผ้า”
- คิดไม่ถึง แต่จริง เทคโนโลยีแบบนี้จะทำให้ สื่อลามกเพื่อการละเมิด แพร่ระบาดในไม่ช้า
  อีกไม่นานทุกคนทั่วโลกอาจมีสื่อลามกโจ่งแจ้งที่สมจริงพร้อมใบหน้าของตัวเองแปะอยู่
ปีนี้เราจะได้เห็น ภาพยนตร์ยาวที่สร้างด้วย AI เรื่องแรก
ถ้าฟังดูบ้า ลองคิดดูว่าในยุคแรกของภาพยนตร์ ความยาวช็อตเฉลี่ยก็ 12 วินาที และปัจจุบันเหลือเพียง 2.5 วินาทีเท่านั้น
เทคนิคสำคัญบางอย่าง เช่น การรักษาความสม่ำเสมอของตัวแบบระหว่างการสร้าง ยังต้องขัดเกลาอีก
แต่ผมคิดว่าความไม่สอดคล้องจำนวนมากสามารถอุดได้ด้วยวิธีเดิม ๆ เช่น แยกเลเยอร์ตามความลึกเพื่อใช้ภาพที่นิ่งกว่า หรือสร้างโมเดล 3D แบบง่ายที่มี texture ในจุดที่ต้องการมิติลึกมากขึ้น
ถ้ามีความพยายามและฝีมือมากพอ ดูเหมือนว่าเทคโนโลยีปัจจุบันก็ทำได้แล้ว
- จินตนาการได้ง่ายว่าผู้สร้างหนังจะทำเวอร์ชันร่างหลาย ๆ แบบของภาพยนตร์ เพื่อขัดเกลา บทและการถ่ายทำ เหมือนที่ตอนนี้ใช้สตอรีบอร์ด
- ทำไมต้องสร้าง “ภาพยนตร์” ด้วยล่ะ? ทำพล็อตเรื่องหนึ่งที่ผู้ชมเปลี่ยนชุดได้ตามใจไม่ดีกว่าเหรอ?
- ก็คงห่วยแตกสุด ๆ เหมือนสื่ออื่น ๆ ทั้งหมดที่ผู้คนจะผลิตกันล้นหลามด้วยสิ่งนี้

Lumiere: โมเดลการแพร่เชิงกาล-อวกาศเพื่อสร้างวิดีโอที่สมจริง

เป้าหมายของ Lumiere และเอกสารที่เผยแพร่

โครงสร้างที่สร้างช่วงเวลาทั้งหมดพร้อมกัน

สร้างวิดีโอจากข้อความและภาพ

การสร้างแบบใส่สไตล์และการตัดต่อวิดีโอ

แอนิเมชันแบบระบุพื้นที่และ inpainting

ผลกระทบทางสังคมและความปลอดภัย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News