แนะนำ Infinity AI
- Infinity AI เป็นบริษัทที่ฝึกโมเดลวิดีโอที่มีมนุษย์เป็นศูนย์กลาง
- เป็นกรณีแรกที่ฝึกตัวแปลงการแพร่กระจายวิดีโอซึ่งขับเคลื่อนด้วยอินพุตเสียง
- โมเดลนี้สามารถสร้างตัวละครที่สมจริง มีการแสดงออก และพูดได้จริง
วิธีใช้งาน
- สามารถใช้เครื่องมือของ Infinity AI ใส่สคริปต์เพื่อสร้างวิดีโอที่ตัวละครพูดได้
- ตัวอย่าง:
- "วิดีโอที่โมนาลิซาพูดว่า 'กำลังมองอะไรแล้วยิ้มอยู่?'"
- "วิดีโอที่โนมสไตล์ 3D Pixar สวมหมวกสีแดงอ่านคำประกาศอิสรภาพ"
- "วิดีโอที่ Elon Musk ร้อง 'Fly Me To The Moon' ของ Frank Sinatra"
ปัญหาของเครื่องมือ AI เดิม
- โมเดลวิดีโอ generative AI แบบเดิมไม่สามารถทำให้ตัวละครพูดได้
- บริษัทที่ทำอวตารพูดได้แบบเดิมใช้วิธีเพิ่มลิปซิงก์ทับบนวิดีโอที่มีอยู่แล้ว
- ทำให้เกิดสีหน้าและท่าทางที่ไม่สอดคล้องกับเสียง จนเกิดปรากฏการณ์ "uncanny valley"
ข้อจำกัดของโมเดล V1
- แนวทางแบบลิปซิงก์มีข้อจำกัดหลายอย่างนอกเหนือจากปัญหาท่าทางไม่ตรงกัน
- มีคลังนักแสดงจำกัด และไม่สามารถทำให้ตัวละครในจินตนาการเคลื่อนไหวได้
สิ่งที่ดีขึ้นในโมเดล V2
- ฝึกโมเดลตัวแปลงการแพร่กระจายวิดีโอแบบ end-to-end ที่รับภาพเดี่ยว เสียง และสัญญาณเงื่อนไขอื่น ๆ เป็นอินพุต แล้วสร้างวิดีโอเป็นเอาต์พุต
- เชื่อว่านี่เป็นแนวทางที่เหมาะที่สุดในการจับความซับซ้อนและความละเอียดอ่อนของการเคลื่อนไหวและอารมณ์ของมนุษย์
- ข้อเสียคือโมเดลทำงานช้า
ข้อดีของโมเดล
- รองรับหลายภาษา
- เรียนรู้ฟิสิกส์ได้บางส่วน (เช่น ต่างหูแกว่งได้อย่างถูกต้อง)
- ทำภาพหลายประเภทให้เคลื่อนไหวได้ (ภาพวาด ประติมากรรม ฯลฯ)
- รองรับการร้องเพลง
ข้อเสียของโมเดล
- ไม่สามารถประมวลผลภาพสัตว์ได้ (ทำได้เฉพาะภาพแนวมนุษย์)
- มักแทรกมือเข้ามาในเฟรม (น่ารำคาญและทำให้เสียสมาธิมาก)
- ยังไม่แข็งแรงพอสำหรับงานการ์ตูน
- อาจบิดเบือนอัตลักษณ์ของบุคคล (เห็นชัดกับคนดัง)
ลองใช้โมเดล
สรุปโดย GN⁺
- โมเดลวิดีโอของ Infinity AI เป็นกรณีแรกที่สามารถสร้างตัวละครสมจริงผ่านอินพุตเสียงได้
- มันก้าวข้ามข้อจำกัดของเครื่องมือ AI เดิม และจับการเคลื่อนไหวกับอารมณ์ของมนุษย์ได้ดีขึ้นผ่านโมเดลตัวแปลงการแพร่กระจายวิดีโอแบบ end-to-end
- แม้จะมีข้อดีเรื่องรองรับหลายภาษาและภาพหลายประเภท แต่ก็ยังมีข้อเสีย เช่น ไม่รองรับภาพสัตว์ และมักแทรกมือเข้ามาในเฟรม
- โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ Runway และ Luma
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News