15 คะแนน โดย xguru 2023-11-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Emu Video: สร้างวิดีโอจากข้อความคุณภาพสูงด้วย Diffusion Model เดี่ยว

  • แยกกระบวนการออกเป็นสองขั้นตอน
    • สร้างภาพที่ถูกกำหนดเงื่อนไขตามข้อความพรอมป์ตก่อน
    • สร้างวิดีโอที่ถูกกำหนดเงื่อนไขจากทั้งข้อความและภาพที่สร้างขึ้น
  • แนวทางแบบ 'Factorized' หรือการแยกส่วนนี้ช่วยให้ฝึกโมเดลสร้างวิดีโอได้อย่างมีประสิทธิภาพ
  • ต่างจากงานก่อนหน้า ที่ต้องซ้อนหลายโมเดลเข้าด้วยกัน (เช่น Make-A-Video ใช้ 5 โมเดล) วิธีนี้ติดตั้งใช้งานง่ายกว่า และสามารถสร้างวิดีโอความยาว 4 วินาที ขนาด 512x512 ที่ 16 เฟรมต่อวินาทีได้ด้วย diffusion model เพียง 2 ตัว
  • ในการทดสอบจริง ผู้ตอบแบบสอบถาม 96% ชอบมากกว่า Make-A-Video ในด้านคุณภาพ และ 85% ชอบมากกว่าในด้านความตรงตามข้อความพรอมป์ต
  • นอกจากนี้ โมเดลยังสามารถนำภาพที่ผู้ใช้ให้มาไปใส่ 'แอนิเมชัน' ตามข้อความพรอมป์ตได้ และทำผลงานเหนือกว่างานก่อนหน้าอย่างชัดเจน

Emu Edit: การแก้ไขภาพอย่างแม่นยำด้วยงานรับรู้และงานสร้าง

  • การสร้างภาพตามต้องการมักต้องปรับพรอมป์ตซ้ำไปมา จึงเกิดสิ่งที่เรียกว่า prompt engineering
  • แต่ก็ยังมีข้อจำกัดในด้านการควบคุมอย่างละเอียดแม่นยำ
  • Emu Edit ช่วยลดความซับซ้อนของงานจัดการภาพหลากหลายรูปแบบ และเพิ่มความสามารถกับความแม่นยำในการแก้ไขภาพ
  • รองรับการแก้ไขแบบอิสระผ่านคำสั่งที่ครอบคลุมทั้งการแก้ไขเฉพาะจุดและทั้งภาพ การลบและเพิ่มพื้นหลัง การเปลี่ยนสีและเรขาคณิต ตลอดจนงานตรวจจับและแบ่งส่วน
  • วิธีการในปัจจุบันมักแก้ไขมากเกินไป หรือให้ประสิทธิภาพต่ำในงานแก้ไขหลายประเภท
  • ต่างจากโมเดล generative AI จำนวนมากในปัจจุบัน Emu Edit ทำตามคำสั่งได้อย่างแม่นยำ จึงคงพิกเซลของภาพต้นฉบับที่ไม่เกี่ยวข้องกับคำสั่งไว้เหมือนเดิม
    • ตัวอย่างเช่น เมื่อต้องเพิ่มข้อความ "Aloha!" ลงบนหมวกเบสบอล ตัวหมวกเองไม่ควรถูกเปลี่ยนแปลง
  • เพื่อฝึกโมเดล Meta ได้พัฒนาชุดข้อมูลที่มีตัวอย่างสังเคราะห์ 10 ล้านรายการ โดยแต่ละรายการประกอบด้วยภาพอินพุต คำอธิบายงานที่ต้องทำ และภาพเอาต์พุตเป้าหมาย
    • เป็นชุดข้อมูลที่มีขนาดใหญ่ที่สุดจนถึงปัจจุบัน
  • ผลลัพธ์คือโมเดล Emu Edit แสดงผลการแก้ไขที่ไม่เคยมีมาก่อนทั้งในด้านความตรงตามคำสั่งและคุณภาพของภาพ
    • ให้ผลลัพธ์ล้ำสมัยใหม่ทั้งในการประเมินเชิงคุณภาพและเชิงปริมาณสำหรับงานแก้ไขภาพหลากหลายประเภท และพิสูจน์ประสิทธิภาพที่เหนือกว่าวิธีเดิม

1 ความคิดเห็น

 
xguru 2023-11-21

ผมสนใจ Emu Edit มากเลยครับ DALL·E เวลาสั่งให้แก้ไขอะไรสักอย่าง ต่อให้ล็อก seed ไว้ก็มักจะสร้างขึ้นมาใหม่หมด ทำให้แก้ไขเล็กน้อยได้ยาก แต่ถ้าแก้ไขได้ด้วยวิธีแบบนั้น ก็น่าจะใช้งานได้สะดวกขึ้นครับ