Emu Video: สร้างวิดีโอจากข้อความคุณภาพสูงด้วย Diffusion Model เดี่ยว
- แยกกระบวนการออกเป็นสองขั้นตอน
- สร้างภาพที่ถูกกำหนดเงื่อนไขตามข้อความพรอมป์ตก่อน
- สร้างวิดีโอที่ถูกกำหนดเงื่อนไขจากทั้งข้อความและภาพที่สร้างขึ้น
- แนวทางแบบ 'Factorized' หรือการแยกส่วนนี้ช่วยให้ฝึกโมเดลสร้างวิดีโอได้อย่างมีประสิทธิภาพ
- ต่างจากงานก่อนหน้า ที่ต้องซ้อนหลายโมเดลเข้าด้วยกัน (เช่น Make-A-Video ใช้ 5 โมเดล) วิธีนี้ติดตั้งใช้งานง่ายกว่า และสามารถสร้างวิดีโอความยาว 4 วินาที ขนาด 512x512 ที่ 16 เฟรมต่อวินาทีได้ด้วย diffusion model เพียง 2 ตัว
- ในการทดสอบจริง ผู้ตอบแบบสอบถาม 96% ชอบมากกว่า Make-A-Video ในด้านคุณภาพ และ 85% ชอบมากกว่าในด้านความตรงตามข้อความพรอมป์ต
- นอกจากนี้ โมเดลยังสามารถนำภาพที่ผู้ใช้ให้มาไปใส่ 'แอนิเมชัน' ตามข้อความพรอมป์ตได้ และทำผลงานเหนือกว่างานก่อนหน้าอย่างชัดเจน
Emu Edit: การแก้ไขภาพอย่างแม่นยำด้วยงานรับรู้และงานสร้าง
- การสร้างภาพตามต้องการมักต้องปรับพรอมป์ตซ้ำไปมา จึงเกิดสิ่งที่เรียกว่า prompt engineering
- แต่ก็ยังมีข้อจำกัดในด้านการควบคุมอย่างละเอียดแม่นยำ
- Emu Edit ช่วยลดความซับซ้อนของงานจัดการภาพหลากหลายรูปแบบ และเพิ่มความสามารถกับความแม่นยำในการแก้ไขภาพ
- รองรับการแก้ไขแบบอิสระผ่านคำสั่งที่ครอบคลุมทั้งการแก้ไขเฉพาะจุดและทั้งภาพ การลบและเพิ่มพื้นหลัง การเปลี่ยนสีและเรขาคณิต ตลอดจนงานตรวจจับและแบ่งส่วน
- วิธีการในปัจจุบันมักแก้ไขมากเกินไป หรือให้ประสิทธิภาพต่ำในงานแก้ไขหลายประเภท
- ต่างจากโมเดล generative AI จำนวนมากในปัจจุบัน Emu Edit ทำตามคำสั่งได้อย่างแม่นยำ จึงคงพิกเซลของภาพต้นฉบับที่ไม่เกี่ยวข้องกับคำสั่งไว้เหมือนเดิม
- ตัวอย่างเช่น เมื่อต้องเพิ่มข้อความ "Aloha!" ลงบนหมวกเบสบอล ตัวหมวกเองไม่ควรถูกเปลี่ยนแปลง
- เพื่อฝึกโมเดล Meta ได้พัฒนาชุดข้อมูลที่มีตัวอย่างสังเคราะห์ 10 ล้านรายการ โดยแต่ละรายการประกอบด้วยภาพอินพุต คำอธิบายงานที่ต้องทำ และภาพเอาต์พุตเป้าหมาย
- เป็นชุดข้อมูลที่มีขนาดใหญ่ที่สุดจนถึงปัจจุบัน
- ผลลัพธ์คือโมเดล Emu Edit แสดงผลการแก้ไขที่ไม่เคยมีมาก่อนทั้งในด้านความตรงตามคำสั่งและคุณภาพของภาพ
- ให้ผลลัพธ์ล้ำสมัยใหม่ทั้งในการประเมินเชิงคุณภาพและเชิงปริมาณสำหรับงานแก้ไขภาพหลากหลายประเภท และพิสูจน์ประสิทธิภาพที่เหนือกว่าวิธีเดิม
1 ความคิดเห็น
ผมสนใจ Emu Edit มากเลยครับ DALL·E เวลาสั่งให้แก้ไขอะไรสักอย่าง ต่อให้ล็อก seed ไว้ก็มักจะสร้างขึ้นมาใหม่หมด ทำให้แก้ไขเล็กน้อยได้ยาก แต่ถ้าแก้ไขได้ด้วยวิธีแบบนั้น ก็น่าจะใช้งานได้สะดวกขึ้นครับ