2 คะแนน โดย GN⁺ 2024-10-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Hassaan และ Quinn ผู้ร่วมก่อตั้ง Tavus แนะนำบริษัทวิจัย AI และแพลตฟอร์มพัฒนา Video API
  • บริษัทพัฒนาโมเดลวิดีโอ AI สำหรับ "ดิจิทัลทวิน" หรือ "อวตาร" มาตั้งแต่ปี 2020
  • แบ่งปันความท้าทายในการสร้างอินเทอร์เฟซวิดีโอ AI สำหรับการสนทนากับมนุษย์อย่างสมจริง

ความท้าทาย

  • วิดีโอแบบโต้ตอบจะมีประสิทธิภาพได้ต้องมีความหน่วงต่ำมากและต้องเข้าใจบริบทของบทสนทนา
  • การสนทนาเร็ว ๆ ระหว่างเพื่อนมักมีช่วงห่างระหว่างการพูดประมาณ 250ms แต่การคุยเรื่องซับซ้อนหรือคุยกับคนแปลกหน้าต้องมีเวลาสำหรับ "คิด" เพิ่มเติม
  • ความหน่วงต่ำกว่า 1000ms ทำให้บทสนทนาดูสมจริง

การตัดสินใจด้านสถาปัตยกรรม

  • ความท้าทายสำคัญคือการหาสมดุลระหว่างความหน่วง การขยายระบบ และต้นทุน
  • ต้องสร้างระบบขึ้นใหม่ตั้งแต่ต้นเพื่อลดความหน่วง
  • ต้องรองรับการสนทนาหลายพันรายการพร้อมกัน ขณะเดียวกันก็ต้องลดต้นทุนการประมวลผล

การพัฒนาระยะแรก

  • ในช่วงแรกของการพัฒนา แต่ละบทสนทนาต้องรันบน H100 แยกกัน
  • วิธีนี้ขยายระบบไม่ได้และมีต้นทุนสูง

การพัฒนาโมเดล Phoenix-2

  • บริษัทพัฒนาโมเดลใหม่ชื่อ Phoenix-2 พร้อมการปรับปรุงหลายด้าน
  • เปลี่ยนจากแบ็กโบนแบบ NeRF ไปเป็น Gaussian Splatting ทำให้สร้างเฟรมได้เร็วกว่าเรียลไทม์
  • ปรับการใช้หน่วยความจำและ GPU core ให้เหมาะสม จนสามารถรันบนฮาร์ดแวร์สเปกต่ำได้
  • ยังใช้วิธีอื่นเพื่อลดเวลาและต้นทุน เช่น streaming เทียบกับ batching และการทำ process parallelization

การปรับแต่งประสิทธิภาพ

  • ต้องปรับแต่งทุกองค์ประกอบ (vision, ASR, LLM, TTS, การสร้างวิดีโอ) ให้เร็วเป็นพิเศษ
  • ปัญหาใหญ่ที่สุดคือ LLM
  • ถึงแม้ความเร็วต่อโทเคน (t/s) จะสูง แต่ถ้าเวลาจนถึงโทเคนแรก (ttft) ช้าก็ยังเป็นปัญหา
  • ผู้ให้บริการส่วนใหญ่ช้าเกินไป

การตรวจจับจุดสิ้นสุดการพูด

  • การตรวจจับว่าผู้ใช้พูดจบเมื่อไรเป็นเรื่องยาก
  • โซลูชันพื้นฐานใช้ช่วงเวลาเงียบหลังการพูดเพื่อตัดสินว่าพูดจบแล้ว แต่สิ่งนี้เพิ่มความหน่วง
  • การจับจังหวะให้เหมาะสมเพื่อไม่ให้ AI agent พูดแทรกผู้ใช้เป็นเรื่องสำคัญ

ผลลัพธ์

  • จากการปรับแต่งเหล่านี้ ลดความหน่วงจาก 3-5 วินาทีเหลือต่ำกว่า 1 วินาที (ต่ำสุด 600ms)
  • สามารถทำความหน่วงต่ำกว่า 1 วินาทีได้แม้บนฮาร์ดแวร์สเปกต่ำ
  • มีลูกค้าหลายราย เช่น Delphi และการสนทนากับดิจิทัลทวินดำเนินต่อเนื่องได้ตั้งแต่ไม่กี่นาทีจนถึง 4 ชั่วโมง

สรุปของ GN⁺

  • โมเดลวิดีโอ AI ของ Tavus มีเป้าหมายเพื่อการสนทนาที่เป็นธรรมชาติกับมนุษย์
  • บริษัทสร้างและปรับแต่งสถาปัตยกรรมใหม่เพื่อลดความหน่วง
  • โมเดล Phoenix-2 สามารถสร้างเฟรมได้เร็วกว่าเรียลไทม์แม้บนฮาร์ดแวร์สเปกต่ำ
  • เทคโนโลยีนี้มีศักยภาพจะเป็นองค์ประกอบสำคัญของอินเทอร์เฟซมนุษย์-คอมพิวเตอร์
  • โปรเจ็กต์อื่นที่มีความสามารถคล้ายกันคือ Duplex ของ Google

1 ความคิดเห็น

 
GN⁺ 2024-10-02
ความคิดเห็นบน Hacker News
  • ชอบเว็บไซต์และเสียงไดอัลอัป แล้วก็ชอบหมวกคาวบอยด้วย
  • ประสบการณ์แชตกับอวาตาร์ทั้งสองไม่ค่อยดี หลุดบ่อยและชวนสับสน
  • การรู้จำภาพทำได้ดี ตอนที่อวาตาร์ตอบสนองช้า ก็ยังสามารถระบุสิ่งของได้
  • ขอบคุณที่แชร์ความยากลำบากแบบเจาะจง คิดว่าในอนาคตจะดีขึ้น
  • เวอร์ชัน Hassan ดีกว่า สามารถรับรู้ฉากหลังและพูดถึงโมเดลที่อยู่บนผนังได้
    • คุยกันเกี่ยวกับชุด LEGO
  • ตอนอยู่ในห้องน้ำ กล้องกำลังจับภาพผ้าเช็ดตัว แต่กลับพูดว่า "ห้องน้ำดูอบอุ่นดีนะ"
  • ให้ความรู้สึกเหมือนกำลังคุยกับคนจริง ๆ เลยปฏิบัติกับมันเหมือนโค้ดไม่ได้
    • ทำให้นึกถึงความพยายามอย่างมีสติที่ต้องใช้เวลาคุยกับคน
    • เวลาใช้ Google Search ก็มักใช้แค่คีย์เวิร์ดน้อยที่สุด
    • กังวลว่าเทคโนโลยีนี้จะฝึกให้ผู้คนมีพฤติกรรมคล้ายกันหรือไม่
  • ถ้าสนใจ AI แบบมัลติโหมดที่มีความหน่วงต่ำ Tavus กำลังเป็นสปอนเซอร์แฮกกาธอนที่ซานฟรานซิสโกในวันที่ 19-20 ตุลาคม
    • มีแทร็กรีโมตด้วย
  • ความสามารถของเดโม: 9.5/10
    • ความหลอน: 10/10
  • ไม่คุ้นเคยกับการดีพลอย GPU มากนัก แต่ดูเหมือนจะมีต้นทุนสูงและจัดสรรได้ยาก
    • สงสัยว่าจัดการทรัพยากร GPU บนคลาวด์ในสเกลใหญ่กันอย่างไร
    • จัดสรร GPU ต่อการเชื่อมต่อ WebSocket หนึ่งรายการหรือไม่ ถ้าใช่ก็น่าจะแพงมาก
  • ในเชิงเทคนิคถือว่าน่าประทับใจมาก อวาตาร์ Carter ดูเหมือนกำลังประหม่า
    • ปาก/ฟันดูแปลก ๆ แต่ตอบสนองเร็ว
    • เคยเห็นความหน่วงบน Zoom มากกว่านี้อีก
    • คิดว่านี่คืออนาคตของคอลเซ็นเตอร์ ถ้าอวาตาร์แสดงออกได้ดีขึ้น CSAT ก็น่าจะสูงขึ้น
  • ในเชิงเทคนิคเป็นงานที่น่าทึ่งมาก เวลาตอบสนองต่ำกว่า 1 วินาทีน่าประทับใจมาก
    • น่ากลัวตรงที่สามารถคุยกับคนปลอมผ่าน FaceTime ได้
    • อยากรู้ว่าคิดอย่างไรกับผลกระทบทางสังคม
    • ทุกวันนี้มีวิกฤตความเหงาจากการขาดการเชื่อมโยงระหว่างมนุษย์
  • ChatGPT มีปัญหาในการตรวจจับว่าบทสนทนาหยุดลงเมื่อไร
    • ชอบพูดแทรกอยู่ตลอด