1 คะแนน โดย GN⁺ 2024-01-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ข้อความเป็นวิดีโอ

  • ทีมวิจัยของ Google เปิดตัวโมเดลการแพร่จากข้อความเป็นวิดีโอชื่อ Lumiere
  • โมเดลนี้มุ่งเน้นการสังเคราะห์วิดีโอที่แสดงการเคลื่อนไหวได้อย่างสมจริง หลากหลาย และสอดคล้องกัน
  • ใช้สถาปัตยกรรม space-time U-Net เพื่อสร้างช่วงเวลาทั้งหมดของวิดีโอพร้อมกันในครั้งเดียว

ภาพเป็นวิดีโอ

  • ด้วย Lumiere สามารถสร้างวิดีโอในสไตล์เป้าหมายได้โดยใช้ภาพอ้างอิงเพียงภาพเดียว
  • ใช้น้ำหนักของโมเดลข้อความเป็นภาพที่ผ่านการปรับจูนละเอียด

การทำวิดีโอให้มีสไตล์

  • ผ่าน Lumiere สามารถนำวิธีแก้ไขภาพแบบอิงข้อความที่มีอยู่มาใช้กับการตัดต่อวิดีโออย่างสอดคล้องกันได้

ซิเนมากราฟ

  • โมเดล Lumiere สามารถทำให้เนื้อหาในภาพเคลื่อนไหวได้ภายในบริเวณเฉพาะที่ผู้ใช้กำหนด

การเติมเต็มวิดีโอ

  • โมเดล Lumiere สามารถกู้คืนเนื้อหาของวิดีโอที่ถูกมาสก์ไว้เพื่อสร้างวิดีโอที่สมบูรณ์ได้

ผู้เขียนและคำขอบคุณ

  • ทีมวิจัยประกอบด้วยผู้เขียนร่วมจาก Google Research และมหาวิทยาลัยหลายแห่ง
  • ขอขอบคุณผู้เขียนที่มีส่วนร่วมกับงานวิจัยระหว่างการฝึกงาน ตลอดจนบุคคลต่างๆ ที่ให้ความร่วมมือและการสนับสนุน

GN⁺ ความเห็น:

  • โมเดล Lumiere แสดงถึงความก้าวหน้าครั้งสำคัญในด้านการสังเคราะห์วิดีโอ ความสามารถในการสร้างวิดีโอที่มีการเคลื่อนไหวสมจริงและหลากหลายจะเป็นประโยชน์อย่างมากต่อผู้สร้างคอนเทนต์และผู้ตัดต่อวิดีโอ
  • เทคโนโลยีนี้อาจมีส่วนช่วยเสริมพลังการเล่าเรื่องด้วยภาพ โดยเฉพาะในอุตสาหกรรมภาพยนตร์และโฆษณา และขยายขอบเขตการแสดงออกเชิงสร้างสรรค์
  • การพัฒนา Lumiere เป็นตัวอย่างที่แสดงให้เห็นว่าเครื่องมือสร้างสรรค์ที่ขับเคลื่อนด้วยปัญญาประดิษฐ์กำลังเปลี่ยนแปลงงานสร้างสรรค์อย่างไร

1 ความคิดเห็น

 
GN⁺ 2024-01-26
ความเห็นบน Hacker News
    • รู้สึกไม่พอใจมากกับงานชิ้นนี้ที่ถูกนำเสนอในนามของงานวิจัยทางวิทยาศาสตร์ สิ่งนี้อธิบายได้ว่าเป็นการโอ้อวด การโฆษณา และการตลาดเท่านั้น ไม่มีการอธิบายกระบวนการที่ทำซ้ำได้ และไดอะแกรมสถาปัตยกรรมอาจให้แรงบันดาลใจได้ แต่ไม่เปิดให้มีการหักล้างซึ่งเป็นแง่มุมสำคัญที่สุดของความพยายามทางวิทยาศาสตร์ ไม่มีทางตรวจสอบได้ว่า Google กำลังโกหกอยู่หรือไม่ จึงต้องสมมติว่าตัวอย่างทั้งหมดถูกคัดเลือกมาและผ่านการปรับแต่งภายหลัง ต้องสมมติว่าข้อมูลที่ใช้ฝึกโมเดลได้มาอย่างผิดกฎหมาย ตอนนี้ Google อ้างสิ่งที่พิสูจน์ไม่ได้เป็นเรื่องปกติ จึงต้องเริ่มจากความสงสัยอย่างถึงที่สุด เช่น ประสิทธิภาพของ Gemini ใน Bard เมื่อเทียบกับ GPT-4 นั้นด้อยกว่ามาก ตอนที่เผยแพร่วิดีโอที่อ้างว่าเป็นการโต้ตอบกับโมเดล แท้จริงแล้วก็ไม่ใช่แบบนั้น
    • ตัวอย่างดูมีความสอดคล้องกันมากกว่าและยาวกว่าที่เคยเห็นจากเทคโนโลยีก่อนหน้านี้มาก เมื่อเทียบกับโมเดลอื่น ๆ ขาดูไถลไปกับพื้นน้อยกว่ามาก ในทางกลับกัน ใบหน้ามนุษย์ยังดูไม่ดีนัก เช่น Mona Lisa ที่กำลังยิ้ม นี่ดูเหมือนจะเป็นโมเดลสร้างวิดีโอที่ดีตัวแรก แก้ไข: เพิ่งรู้ว่าทำโดย Google งั้นคงไม่มีวันถูกปล่อยออกมา
    • ใน GitHub ของพวกเขาตอนนี้ไม่มีอะไรนอกจากหน้าที่ลิงก์อยู่ในปัจจุบัน และพวกเขาก็ไม่เคยอ้างว่าจะปล่อยอะไรออกมาด้วย อย่างไรก็ดี ก็ต้องลองตรวจดู และไม่เห็นลิงก์ไปยังโปรไฟล์ GitHub สำหรับคนที่ไม่อยากพิมพ์ URL ของเว็บไซต์ที่โฮสต์เองด้วยมือ จึงแชร์ลิงก์ไว้ที่นี่
    • video inpainting น่าสนใจ ช่วงนี้เด็ก ๆ กำลังดู SpongeBob ตอนเก่าอยู่ แล้วสัดส่วนภาพ 4:3 ก็ดูน่าประหลาดใจ คิดว่าการ inpaint ขอบด้านข้างเพื่อทำให้กลับเป็นอัตราส่วน 16:9 น่าจะเป็นกรณีใช้งานที่น่าสนใจ แต่ดูเหมือนว่าจะต้องมีความสามารถบางอย่างในการคาดการณ์สิ่งที่จะเข้ามาจากด้านข้าง
    • ด้วยความแปลกประหลาดและเหมือนความฝันของตัวอย่างสร้างวิดีโอ AI เล็ก ๆ เหล่านี้ จึงผิดหวังเสมอที่บทความพวกนี้ไม่ใส่พรอมป์ต์ "dreaming of electric sheep" เป็น easter egg
    • ถ้าย้อนการประกาศนี้กลับไปแค่ 2-3 ปีก่อน มันคงน่าทึ่งมาก พวกเราทุกคนเริ่มชินกับการที่ผลิตภัณฑ์ใหม่แบบนี้ออกมาเร็วและบ่อยมาก แต่ผมก็ยังคิดว่ามันน่าทึ่งอยู่ดี แทบรอไม่ไหวที่จะได้มีซอฟต์แวร์ที่มีความสามารถแบบนี้ใช้ แก้ไข: เพราะมันทำโดย Google ผมจะรอจนกว่าจะมีโอเพนซอร์สปล่อยออกมา
    • ดูเหมือนว่ามักจะเอาภาพเก่า ๆ มาปะปนกับชุดข้อมูลสมัยใหม่ ถ้าเอาภาพเหมือนของ George Washington แล้วขอว่า "ผู้ชายที่กำลังยิ้ม" ฟันของเขาจะเป็นฟันปลอมหรือจะเป็นฟันขาวกันแน่?
    • มีข้อสังเกตอยู่สองสามอย่าง: เพราะเป็น Google เราจึงคงไม่ได้ใช้เองโดยตรง ถึงอย่างนั้น แนวคิดก็น่าสนใจมาก -- ฝึกโมเดลให้สร้างการแทนภาพรวมของเวลาทั้งหมดในวิดีโอขนาดเล็กก่อน แล้วค่อยอัปสเกลทั้งในมิติของเวลาและพิกเซล เคยเห็นโมเดลที่เพิ่ม depth map แต่โมเดลนี้เพิ่ม "time map" เป็นอีกมิติหนึ่ง ความสอดคล้องก็ดูค่อนข้างดี สิ่งที่ยังเห็นความกระอักกระอ่วนมากกว่าคือการที่โมเดลต้องตัดสินใจว่าควร "ทำอะไร" ตลอดช่วงเวลา อินไซต์ใหญ่ของชาว Google คือ ความสอดคล้องสามารถถูกกำหนดเงื่อนไข ฝึก และสร้างขึ้นเป็นสิ่งเฉพาะของมันเองได้ ดูเหมือนว่าสิ่งนี้น่าจะถูกทำซ้ำได้โดยผู้ให้บริการโมเดลรายอื่นอย่าง Stability; ไม่มีอะไรที่ดูเหมือนจะนำไปทำจริงไม่ได้
    • เป็นทั้งโพสต์ธีมพิกเซลและงานวิจัยธีมพิกเซล ค่อนข้างน่าประทับใจ และอาจจะทำให้ในไม่ช้ามีโปรแกรมแนว "สร้างหนังจากหนึ่งย่อหน้า" ผุดขึ้นมาเป็นกองทัพ เพราะเป็น Google มันก็น่าจะถูกเก็บใส่กล่องไว้ กลายเป็นอุปกรณ์แบบใน Rick and Morty ที่พวกเราคงไม่มีวันได้เห็น รูปแบบรายชื่อผู้เขียนดูดีมาก ผู้เขียนหลัก การรับรองจากสถาบัน และสัญลักษณ์ 1,2,3,4,*,+ สำหรับผู้มีส่วนร่วมหลักนั้นดี อ่านบทความดาราศาสตร์และฟิสิกส์ที่มีผู้เขียนเกิน 10 คนมาเยอะ แต่ไม่เคยรู้เลยว่าใครทำอะไร เช่น ลิงก์ arXiv ก็ไม่ได้แสดงรูปแบบคล้ายกัน นี่คงจะถูกนำไปใช้กับสื่อลามกเชิงละเมิดในทันทีแน่ ๆ ตัวอย่างผู้หญิงเดิน: (เวอร์ชันที่ 5) "โดยไม่สวมเสื้อผ้า"
    • ปีนี้เราจะได้เห็นภาพยนตร์ที่สร้างด้วย AI แบบความยาวเต็มเรื่องเรื่องแรก ถ้าคิดว่าผมบ้า ลองนึกดูว่าแม้แต่ในยุคเริ่มต้นของภาพยนตร์ ความยาวเฉลี่ยของช็อตก็อยู่ที่ 12 วินาที และปัจจุบันเหลือเพียง 2.5 วินาที ยังมีเทคนิคสำคัญบางอย่างที่ต้องขัดเกลา เช่น การรักษาธีมให้สอดคล้องกันข้ามการสร้างแต่ละครั้ง แต่ความไม่สอดคล้องจำนวนมากสามารถชดเชยได้ด้วยวิธีที่มีอยู่แล้ว เช่น แยกเลเยอร์ตามความลึกเพื่อใช้ภาพที่นิ่งกว่า หรือสร้างโมเดล 3D แบบง่ายที่มีพื้นผิวในส่วนที่ต้องการความลึกมากขึ้น ใครก็ตามที่มีความพยายามและทักษะมากพอ น่าจะทำสิ่งนี้ได้ด้วยเทคโนโลยีที่มีอยู่แล้ว