OmniHuman - โมเดลสร้างวิดีโอสมจริงจากภาพถ่ายเพียงใบเดียว

xguru · 2025-02-13T10:28:01+09:00

ทีมนักวิจัยของ ByteDance ได้พัฒนาระบบ AI ที่ "สร้างวิดีโอของบุคคลที่พูด ร้องเพลง และเคลื่อนไหวได้อย่างเป็นธรรมชาติโดยใช้ภาพถ่ายเพียงภาพเดียว" ก้าวข้ามข้อจำกัดของโมเดล AI เดิมที่ทำได้เพียงทำแอนิเมชันใบหน้าหรือครึ่งบนของร่างกาย โดยสามารถสร้าง "วิดีโอที่สะท้อนการเคลื่อนไหวของทั้งร่างกาย" ได้ เป็นโมเดลแบบรวมศูนย์ตัวแรกที่ใช้ "อินพุตเสียง วิดีโอ หรือการผสมผสานของทั้งสองอย่าง" เพื่อทำแอนิเมชันการเคลื่อนไหวของมนุษย์ให้สมจริง คุณสมบัติหลัก การสร้างวิดีโอจากภาพเดี่ยว สามารถสร้าง วิดีโอที่เป็นธรรมชาติและสะท้อนการเคลื่อนไหวของทั้งร่างกาย ได้จากภาพถ่ายบุคคลเพียงภาพเดียว รองรับอินพุตหลายโมดัล รองรับรูปแบบอินพุตแบบเสียง วิดีโอ หรือการรวมทั้งสองแบบ ความสามารถในการแสดงท่าทางดีขึ้นอย่างมาก เมื่อเทียบกับโมเดลเดิม ประมวลผลภาพได้ทุกอัตราส่วน รองรับ สัดส่วนภาพที่หลากหลาย เช่น ภาพบุคคลแนวตั้ง ภาพครึ่งตัว และภาพเต็มตัว รองรับสไตล์และข้อมูลอินพุตที่หลากหลาย สามารถสะท้อน การ์ตูน ตัวละครสังเคราะห์ สัตว์ และท่วงท่าที่ซับซ้อน ได้หลากหลายสไตล์ แสดงท่าทางร่างกายอย่างเป็นธรรมชาติตามสไตล์ดนตรี สามารถสร้างการเคลื่อนไหวให้เข้ากับ เสียงสูง เสียงต่ำ และแนวดนตรีที่หลากหลาย ได้ เลียนแบบการเคลื่อนไหวจากวิดีโอได้ รองรับ video driving ที่สามารถถอดแบบการเคลื่อนไหวของบุคคลเฉพาะได้โดยตรง

(omnihuman-lab.github.io)

20 คะแนน โดย xguru 2025-02-13 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ทีมนักวิจัยของ ByteDance ได้พัฒนาระบบ AI ที่ "สร้างวิดีโอของบุคคลที่พูด ร้องเพลง และเคลื่อนไหวได้อย่างเป็นธรรมชาติโดยใช้ภาพถ่ายเพียงภาพเดียว"
ก้าวข้ามข้อจำกัดของโมเดล AI เดิมที่ทำได้เพียงทำแอนิเมชันใบหน้าหรือครึ่งบนของร่างกาย โดยสามารถสร้าง "วิดีโอที่สะท้อนการเคลื่อนไหวของทั้งร่างกาย" ได้
เป็นโมเดลแบบรวมศูนย์ตัวแรกที่ใช้ "อินพุตเสียง วิดีโอ หรือการผสมผสานของทั้งสองอย่าง" เพื่อทำแอนิเมชันการเคลื่อนไหวของมนุษย์ให้สมจริง
คุณสมบัติหลัก
- การสร้างวิดีโอจากภาพเดี่ยว
  - สามารถสร้าง วิดีโอที่เป็นธรรมชาติและสะท้อนการเคลื่อนไหวของทั้งร่างกาย ได้จากภาพถ่ายบุคคลเพียงภาพเดียว
- รองรับอินพุตหลายโมดัล
  - รองรับรูปแบบอินพุตแบบเสียง วิดีโอ หรือการรวมทั้งสองแบบ
  - ความสามารถในการแสดงท่าทางดีขึ้นอย่างมาก เมื่อเทียบกับโมเดลเดิม
- ประมวลผลภาพได้ทุกอัตราส่วน
  - รองรับ สัดส่วนภาพที่หลากหลาย เช่น ภาพบุคคลแนวตั้ง ภาพครึ่งตัว และภาพเต็มตัว
- รองรับสไตล์และข้อมูลอินพุตที่หลากหลาย
  - สามารถสะท้อน การ์ตูน ตัวละครสังเคราะห์ สัตว์ และท่วงท่าที่ซับซ้อน ได้หลากหลายสไตล์
- แสดงท่าทางร่างกายอย่างเป็นธรรมชาติตามสไตล์ดนตรี
  - สามารถสร้างการเคลื่อนไหวให้เข้ากับ เสียงสูง เสียงต่ำ และแนวดนตรีที่หลากหลาย ได้
- เลียนแบบการเคลื่อนไหวจากวิดีโอได้
  - รองรับ video driving ที่สามารถถอดแบบการเคลื่อนไหวของบุคคลเฉพาะได้โดยตรง

2 ความคิดเห็น

dhy0613 2025-02-13

ว้าว ถ้าต่อไปจีนทำสงคราม ก็คงมีวิดีโอชวนเชื่อปลอมที่ถูกบิดเบือนออกมาไม่ใช่น้อยแน่ ๆ

colus001 2025-02-13

ว้าว... อันนี้เจ๋งนะ?

OmniHuman - โมเดลสร้างวิดีโอสมจริงจากภาพถ่ายเพียงใบเดียว

บทความที่เกี่ยวข้อง

2 ความคิดเห็น