- Hassaan และ Quinn ผู้ร่วมก่อตั้ง Tavus แนะนำบริษัทวิจัย AI และแพลตฟอร์มพัฒนา Video API
- บริษัทพัฒนาโมเดลวิดีโอ AI สำหรับ "ดิจิทัลทวิน" หรือ "อวตาร" มาตั้งแต่ปี 2020
- แบ่งปันความท้าทายในการสร้างอินเทอร์เฟซวิดีโอ AI สำหรับการสนทนากับมนุษย์อย่างสมจริง
ความท้าทาย
- วิดีโอแบบโต้ตอบจะมีประสิทธิภาพได้ต้องมีความหน่วงต่ำมากและต้องเข้าใจบริบทของบทสนทนา
- การสนทนาเร็ว ๆ ระหว่างเพื่อนมักมีช่วงห่างระหว่างการพูดประมาณ 250ms แต่การคุยเรื่องซับซ้อนหรือคุยกับคนแปลกหน้าต้องมีเวลาสำหรับ "คิด" เพิ่มเติม
- ความหน่วงต่ำกว่า 1000ms ทำให้บทสนทนาดูสมจริง
การตัดสินใจด้านสถาปัตยกรรม
- ความท้าทายสำคัญคือการหาสมดุลระหว่างความหน่วง การขยายระบบ และต้นทุน
- ต้องสร้างระบบขึ้นใหม่ตั้งแต่ต้นเพื่อลดความหน่วง
- ต้องรองรับการสนทนาหลายพันรายการพร้อมกัน ขณะเดียวกันก็ต้องลดต้นทุนการประมวลผล
การพัฒนาระยะแรก
- ในช่วงแรกของการพัฒนา แต่ละบทสนทนาต้องรันบน H100 แยกกัน
- วิธีนี้ขยายระบบไม่ได้และมีต้นทุนสูง
การพัฒนาโมเดล Phoenix-2
- บริษัทพัฒนาโมเดลใหม่ชื่อ Phoenix-2 พร้อมการปรับปรุงหลายด้าน
- เปลี่ยนจากแบ็กโบนแบบ NeRF ไปเป็น Gaussian Splatting ทำให้สร้างเฟรมได้เร็วกว่าเรียลไทม์
- ปรับการใช้หน่วยความจำและ GPU core ให้เหมาะสม จนสามารถรันบนฮาร์ดแวร์สเปกต่ำได้
- ยังใช้วิธีอื่นเพื่อลดเวลาและต้นทุน เช่น streaming เทียบกับ batching และการทำ process parallelization
การปรับแต่งประสิทธิภาพ
- ต้องปรับแต่งทุกองค์ประกอบ (vision, ASR, LLM, TTS, การสร้างวิดีโอ) ให้เร็วเป็นพิเศษ
- ปัญหาใหญ่ที่สุดคือ LLM
- ถึงแม้ความเร็วต่อโทเคน (t/s) จะสูง แต่ถ้าเวลาจนถึงโทเคนแรก (ttft) ช้าก็ยังเป็นปัญหา
- ผู้ให้บริการส่วนใหญ่ช้าเกินไป
การตรวจจับจุดสิ้นสุดการพูด
- การตรวจจับว่าผู้ใช้พูดจบเมื่อไรเป็นเรื่องยาก
- โซลูชันพื้นฐานใช้ช่วงเวลาเงียบหลังการพูดเพื่อตัดสินว่าพูดจบแล้ว แต่สิ่งนี้เพิ่มความหน่วง
- การจับจังหวะให้เหมาะสมเพื่อไม่ให้ AI agent พูดแทรกผู้ใช้เป็นเรื่องสำคัญ
ผลลัพธ์
- จากการปรับแต่งเหล่านี้ ลดความหน่วงจาก 3-5 วินาทีเหลือต่ำกว่า 1 วินาที (ต่ำสุด 600ms)
- สามารถทำความหน่วงต่ำกว่า 1 วินาทีได้แม้บนฮาร์ดแวร์สเปกต่ำ
- มีลูกค้าหลายราย เช่น Delphi และการสนทนากับดิจิทัลทวินดำเนินต่อเนื่องได้ตั้งแต่ไม่กี่นาทีจนถึง 4 ชั่วโมง
สรุปของ GN⁺
- โมเดลวิดีโอ AI ของ Tavus มีเป้าหมายเพื่อการสนทนาที่เป็นธรรมชาติกับมนุษย์
- บริษัทสร้างและปรับแต่งสถาปัตยกรรมใหม่เพื่อลดความหน่วง
- โมเดล Phoenix-2 สามารถสร้างเฟรมได้เร็วกว่าเรียลไทม์แม้บนฮาร์ดแวร์สเปกต่ำ
- เทคโนโลยีนี้มีศักยภาพจะเป็นองค์ประกอบสำคัญของอินเทอร์เฟซมนุษย์-คอมพิวเตอร์
- โปรเจ็กต์อื่นที่มีความสามารถคล้ายกันคือ Duplex ของ Google
1 ความคิดเห็น
ความคิดเห็นบน Hacker News