Show HN: Infinity – ตัวละคร AI สมจริงที่พูดได้

(news.ycombinator.com)

1 คะแนน โดย GN⁺ 2024-09-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Infinity AI กำลังฝึก foundation video model ที่มีมนุษย์เป็นศูนย์กลาง เพื่อสร้างวิดีโอตัวละครที่พูดได้จากอินพุตเสียงเพียงอย่างเดียว
ผู้สร้างสามารถใส่ สคริปต์ ที่ต้องการให้ตัวละครพูดเพื่อสร้างวิดีโอได้ และในอนาคตตั้งเป้าให้ระบุพฤติกรรมได้ด้วย
V2 เป็น โมเดลแบบ end-to-end ที่รับภาพเดี่ยว เสียง และสัญญาณเงื่อนไข เพื่อสร้างวิดีโอ โดยเป็นแนวทางที่พยายามลดความไม่สอดคล้องกันของสีหน้าและท่าทางในวิธีลิปซิงก์แบบเดิม
จนถึงตอนนี้มีการทุ่มทรัพยากรไปแล้วประมาณ 11 GPU-ปี และราว 500,000 ดอลลาร์ แต่ถึงจะใช้ rectified flow และ 3D VAE embedding layer ความเร็วในการสร้างก็ยังช้าอยู่
มีจุดแข็งด้านหลายภาษา การเคลื่อนไหวทางกายภาพ ภาพวาดหรือภาพประติมากรรม และการร้องเพลง แต่ยังคงมี failure mode อย่างสัตว์ การ์ตูน การแทรกมือ และการบิดเบือนอัตลักษณ์ของคนดัง

วิดีโอตัวละครพูดได้ที่ Infinity V2 สร้างขึ้น

Infinity AI ฝึก foundation video model ของตนเองที่เน้นมนุษย์เป็นหลัก
เท่าที่ทีมทราบ นี่ใกล้เคียงกับกรณีแรกที่ฝึก video diffusion transformer ซึ่งขับเคลื่อนด้วยอินพุตเสียง
แนวทางนี้มุ่งสร้างวิดีโอที่ตัวละครดูมีการแสดงออก สมจริง และพูดได้จริง
ดูวิดีโอตัวอย่างได้ที่ V2 launch blog
สามารถลองใช้โมเดลได้โดยตรงที่ Infinity Studio
หากคอมเมนต์คำอธิบายตัวละครไว้ใน HN ทีมบอกว่าจะสร้างวิดีโอและตอบกลับเป็นลิงก์
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

เปลี่ยนจากวิธีลิปซิงก์ไปสู่การสร้างแบบ end-to-end

โมเดลวิดีโอ Generative AI อย่าง Runway และ Luma ไม่เหมาะกับการทำให้ตัวละครพูด
บริการ talking avatar อย่าง HeyGen และ Synthesia ใช้วิธีนำ ลิปซิงก์ ไปวางทับบนวิดีโอที่อัดไว้ล่วงหน้า
- เสียงกับสีหน้าและท่าทางอาจไม่ตรงกัน
- ความไม่สอดคล้องนี้อาจทำให้เกิดความรู้สึก uncanny ที่บอกสาเหตุได้ยาก
Infinity V1 ก็ใช้แนวทางลิปซิงก์เช่นกัน
- ยังมีปัญหาท่าทางไม่สอดคล้อง
- ต้อง fine-tune โมเดลสำหรับนักแสดงแต่ละคนจากฟุตเทจวิดีโอเดิม ทำให้ ไลบรารีนักแสดง มีจำกัด
- ทำให้แอนิเมตตัวละครในจินตนาการได้ยาก
V2 เปลี่ยนมาเป็น video diffusion transformer แบบ end-to-end ที่รับภาพเดี่ยว เสียง และสัญญาณเงื่อนไขอื่น ๆ แล้วส่งออกเป็นวิดีโอ
- มองว่าแนวทางนี้เหมาะที่สุดสำหรับการจับความซับซ้อนและความละเอียดอ่อนของการเคลื่อนไหวและอารมณ์ของมนุษย์
- ข้อเสียคือความเร็วในการสร้างยังช้า
- ได้ความเร็วเพิ่มขึ้น 2–4 เท่าจาก rectified flow และ 2–5 เท่าจาก 3D VAE embedding layer แต่ก็ยังช้าอยู่ดี
ปัจจุบันใช้ทรัพยากรฝึกไปแล้วประมาณ 11 GPU-ปี และราว 500,000 ดอลลาร์ และการฝึกโมเดลยังดำเนินต่อไป

สิ่งที่ทำได้ดีและ failure mode ที่ยังเหลืออยู่

จุดแข็ง
- รองรับได้หลายภาษา
- เรียนรู้ ฟิสิกส์ บางส่วนได้ เช่น ต่างหูแกว่งอย่างเป็นธรรมชาติ และอนุมานต่างหูอีกข้างได้
- สามารถทำภาพประเภทที่ไม่ได้ใช้ฝึก เช่น ภาพวาดและประติมากรรม ให้เคลื่อนไหวได้
- รองรับการร้องเพลงได้
ข้อจำกัด
- ยังจัดการสัตว์ไม่ได้ และรองรับเฉพาะภาพแบบ humanoid
- มักแทรกมือเข้ามาในเฟรมจนรบกวนภาพ
- ยังไม่ robust กับภาพการ์ตูน
- อาจบิดเบือนอัตลักษณ์ของบุคคล โดยเห็นชัดเป็นพิเศษกับคนดัง

1 ความคิดเห็น

GN⁺ 2024-09-07

ความคิดเห็นจาก Hacker News

ดูเหมือนเป็นงานเลียนแบบคุณภาพต่ำของ Hedra และตอนนี้ยังตามหลังอยู่มาก
ฉันใช้การแปลงข้อความเป็นภาพเพื่อสร้าง space marine แล้วได้ผลลัพธ์ที่น่าทึ่งโดยแทบไม่ต้องแก้อะไรเพิ่ม
ทันทีที่เห็นตัวเลือกหน้า "Gnome" ก็รู้เลยว่าต้องทำอะไร
ดูเหมือนโมเดลจะไม่ค่อยชอบ Duke Nukem
พอตัดปืนพกของเขาออก สถานการณ์ก็ยิ่งแย่ลง
ภาพอื่นให้ผลลัพธ์ที่ดีกว่านิดหน่อย
ฉันชอบภาพนี้ที่สุด
ต้องมีใครสักคนทำสิ่งนี้
มีงานก่อนหน้าอย่าง Emo ของ Alibaba Research อยู่แล้ว แต่เดโมนี้น่าประทับใจเพราะคนทั่วไปลองได้จริง
ฉันพยายามทำมีมให้กลายเป็นของจริง แต่ภาพต้นฉบับค่อนข้างยาก
- เสียงมีปัญหาเรื่องภาษานิดหน่อย
ฉันพยายามผลักมันไปทาง uncanny valley แต่ค่อนข้างยาก
มันชอบใส่มือเข้ามาในเฟรมเป็นบางครั้ง
- ดูเหมือนจะถูกฝึกด้วยข้อมูลอิตาลีมากเกินไป
เครื่องมือนี้น่าทึ่งมาก
- มีปัญหาเล็กน้อยตรงที่ถ้าเป็นเสียงสั้น ๆ (3~5 วินาที) ภาพจะนิ่งสนิทอยู่ตลอด

Show HN: Infinity – ตัวละคร AI สมจริงที่พูดได้

วิดีโอตัวละครพูดได้ที่ Infinity V2 สร้างขึ้น

เปลี่ยนจากวิธีลิปซิงก์ไปสู่การสร้างแบบ end-to-end

สิ่งที่ทำได้ดีและ failure mode ที่ยังเหลืออยู่

จุดแข็ง

ข้อจำกัด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News