1 คะแนน โดย GN⁺ 2024-09-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำ Infinity AI

  • Infinity AI เป็นบริษัทที่ฝึกโมเดลวิดีโอที่มีมนุษย์เป็นศูนย์กลาง
  • เป็นกรณีแรกที่ฝึกตัวแปลงการแพร่กระจายวิดีโอซึ่งขับเคลื่อนด้วยอินพุตเสียง
  • โมเดลนี้สามารถสร้างตัวละครที่สมจริง มีการแสดงออก และพูดได้จริง

วิธีใช้งาน

  • สามารถใช้เครื่องมือของ Infinity AI ใส่สคริปต์เพื่อสร้างวิดีโอที่ตัวละครพูดได้
  • ตัวอย่าง:
    • "วิดีโอที่โมนาลิซาพูดว่า 'กำลังมองอะไรแล้วยิ้มอยู่?'"
    • "วิดีโอที่โนมสไตล์ 3D Pixar สวมหมวกสีแดงอ่านคำประกาศอิสรภาพ"
    • "วิดีโอที่ Elon Musk ร้อง 'Fly Me To The Moon' ของ Frank Sinatra"

ปัญหาของเครื่องมือ AI เดิม

  • โมเดลวิดีโอ generative AI แบบเดิมไม่สามารถทำให้ตัวละครพูดได้
  • บริษัทที่ทำอวตารพูดได้แบบเดิมใช้วิธีเพิ่มลิปซิงก์ทับบนวิดีโอที่มีอยู่แล้ว
  • ทำให้เกิดสีหน้าและท่าทางที่ไม่สอดคล้องกับเสียง จนเกิดปรากฏการณ์ "uncanny valley"

ข้อจำกัดของโมเดล V1

  • แนวทางแบบลิปซิงก์มีข้อจำกัดหลายอย่างนอกเหนือจากปัญหาท่าทางไม่ตรงกัน
  • มีคลังนักแสดงจำกัด และไม่สามารถทำให้ตัวละครในจินตนาการเคลื่อนไหวได้

สิ่งที่ดีขึ้นในโมเดล V2

  • ฝึกโมเดลตัวแปลงการแพร่กระจายวิดีโอแบบ end-to-end ที่รับภาพเดี่ยว เสียง และสัญญาณเงื่อนไขอื่น ๆ เป็นอินพุต แล้วสร้างวิดีโอเป็นเอาต์พุต
  • เชื่อว่านี่เป็นแนวทางที่เหมาะที่สุดในการจับความซับซ้อนและความละเอียดอ่อนของการเคลื่อนไหวและอารมณ์ของมนุษย์
  • ข้อเสียคือโมเดลทำงานช้า

ข้อดีของโมเดล

  • รองรับหลายภาษา
  • เรียนรู้ฟิสิกส์ได้บางส่วน (เช่น ต่างหูแกว่งได้อย่างถูกต้อง)
  • ทำภาพหลายประเภทให้เคลื่อนไหวได้ (ภาพวาด ประติมากรรม ฯลฯ)
  • รองรับการร้องเพลง

ข้อเสียของโมเดล

  • ไม่สามารถประมวลผลภาพสัตว์ได้ (ทำได้เฉพาะภาพแนวมนุษย์)
  • มักแทรกมือเข้ามาในเฟรม (น่ารำคาญและทำให้เสียสมาธิมาก)
  • ยังไม่แข็งแรงพอสำหรับงานการ์ตูน
  • อาจบิดเบือนอัตลักษณ์ของบุคคล (เห็นชัดกับคนดัง)

ลองใช้โมเดล

สรุปโดย GN⁺

  • โมเดลวิดีโอของ Infinity AI เป็นกรณีแรกที่สามารถสร้างตัวละครสมจริงผ่านอินพุตเสียงได้
  • มันก้าวข้ามข้อจำกัดของเครื่องมือ AI เดิม และจับการเคลื่อนไหวกับอารมณ์ของมนุษย์ได้ดีขึ้นผ่านโมเดลตัวแปลงการแพร่กระจายวิดีโอแบบ end-to-end
  • แม้จะมีข้อดีเรื่องรองรับหลายภาษาและภาพหลายประเภท แต่ก็ยังมีข้อเสีย เช่น ไม่รองรับภาพสัตว์ และมักแทรกมือเข้ามาในเฟรม
  • โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ Runway และ Luma

1 ความคิดเห็น

 
GN⁺ 2024-09-07
ความคิดเห็นจาก Hacker News
  • ดูเหมือนเป็นงานเลียนแบบคุณภาพต่ำของ Hedra และตอนนี้ยังตามหลังอยู่มาก
  • ฉันใช้การแปลงข้อความเป็นภาพเพื่อสร้าง space marine แล้วได้ผลลัพธ์ที่น่าทึ่งโดยแทบไม่ต้องแก้อะไรเพิ่ม
  • ทันทีที่เห็นตัวเลือกหน้า "Gnome" ก็รู้เลยว่าต้องทำอะไร
  • ดูเหมือนโมเดลจะไม่ค่อยชอบ Duke Nukem
  • พอตัดปืนพกของเขาออก สถานการณ์ก็ยิ่งแย่ลง
  • ภาพอื่นให้ผลลัพธ์ที่ดีกว่านิดหน่อย
  • ฉันชอบภาพนี้ที่สุด
  • ต้องมีใครสักคนทำสิ่งนี้
  • มีงานก่อนหน้าอย่าง Emo ของ Alibaba Research อยู่แล้ว แต่เดโมนี้น่าประทับใจเพราะคนทั่วไปลองได้จริง
  • ฉันพยายามทำมีมให้กลายเป็นของจริง แต่ภาพต้นฉบับค่อนข้างยาก
    • เสียงมีปัญหาเรื่องภาษานิดหน่อย
  • ฉันพยายามผลักมันไปทาง uncanny valley แต่ค่อนข้างยาก
  • มันชอบใส่มือเข้ามาในเฟรมเป็นบางครั้ง
    • ดูเหมือนจะถูกฝึกด้วยข้อมูลอิตาลีมากเกินไป
  • เครื่องมือนี้น่าทึ่งมาก
    • มีปัญหาเล็กน้อยตรงที่ถ้าเป็นเสียงสั้น ๆ (3~5 วินาที) ภาพจะนิ่งสนิทอยู่ตลอด