Show HN: เอเจนต์วิดีโอ AI แบบเรียลไทม์ที่มีเวลาแฝงต่ำกว่า 1 วินาที

(news.ycombinator.com)

2 คะแนน โดย GN⁺ 2024-10-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Tavus มุ่งลดเวลาแฝงในการตอบสนองให้ต่ำกว่า 1 วินาที เพื่อสร้าง อินเทอร์เฟซวิดีโอ AI ที่สนทนากับคนได้อย่างเป็นธรรมชาติ
ในการสนทนาที่รวดเร็ว ช่วงว่างระหว่างการพูดมีเพียงราว 250ms ดังนั้นเอเจนต์วิดีโอก็ต้องมีทั้งเวลาแฝงต่ำและ การรับรู้บริบทของบทสนทนา
Phoenix-1 รุ่นแรกต้องใช้ H100 หนึ่งตัว ต่อหนึ่งบทสนทนา ทำให้มีข้อจำกัดด้านต้นทุนและการขยายระบบ ส่วน Phoenix-2 ตั้งเป้าสร้างภาพได้มากกว่า 70fps บนฮาร์ดแวร์สเปกระดับล่างด้วยการเปลี่ยนไปใช้ Gaussian Splatting
ในทั้งพายป์ไลน์มีการลดเวลาในส่วน vision, ASR, LLM, TTS และการสร้างวิดีโอทั้งหมด โดยในฝั่ง LLM คอขวดที่ผู้ใช้รับรู้ได้จริงคือ เวลาถึงโทเคนแรก มากกว่าจำนวนโทเคนต่อวินาที
หากตัดสินการจบการพูดจากช่วงเงียบเพียงอย่างเดียว จะทำให้เกิดการพูดแทรกและการตอบสนองล่าช้า จึงใช้ การตรวจจับจบเทิร์นการพูด และการคาดเดาอินพุตเพื่อลดเวลาแฝงจาก 3–5 วินาทีให้ต่ำกว่า 1 วินาที และเร็วได้ถึง 600ms

เป้าหมายของ Tavus: ความเร็วตอบสนองที่ให้ความรู้สึกเหมือนมนุษย์

Tavus เป็นบริษัทวิจัย AI และแพลตฟอร์มนักพัฒนา Video API ที่สร้างโมเดลวิดีโอ AI สำหรับ digital twin หรืออวตารมาตั้งแต่ปี 2020
มีเดโมให้สนทนากับ digital twin ของ Hassaan ได้ที่ hassaanraza.com และ “demo twin” Carter ที่ tavus.io
วิดีโอเชิงสนทนาอาจกลายเป็นวิธีที่เป็นธรรมชาติมากขึ้นในการโต้ตอบกับคอมพิวเตอร์ แต่ต้องอาศัยทั้ง เวลาแฝงต่ำ และการรับรู้ที่สะท้อนบริบทของบทสนทนา
เป้าหมายเวลาแฝงคือ ต่ำกว่า 1 วินาที
- การคุยกันแบบรวดเร็วระหว่างเพื่อนมีช่วงว่างระหว่างการพูดเพียงประมาณ 250ms
- การสนทนาในหัวข้อที่ซับซ้อนขึ้นหรือกับคนแปลกหน้าจะมีเวลา “คิด” เพิ่มเติม
- หากต่ำกว่า 1000ms ก็ถือว่าบทสนทนาให้ความรู้สึกสมจริงพอสมควร

การทำให้ลงตัวทั้งเวลาแฝง การขยายระบบ และต้นทุน

สถาปัตยกรรมต้องตอบโจทย์ เวลาแฝง การขยายระบบ และต้นทุน พร้อมกัน และด้วยเหตุนี้จึงต้องกลับไปออกแบบใหม่เป็นระบบที่เน้นเวลาแฝงต่ำตั้งแต่ต้น
โมเดลวิดีโอและต้นทุนฮาร์ดแวร์
- ในช่วงพัฒนาแรก หากต้องการให้โมเดล Phoenix-1 ทำงานได้เร็วกว่า 30fps จำเป็นต้องโหลดคอมโพเนนต์ทั้งหมดและน้ำหนักของโมเดลไว้ในหน่วยความจำ GPU และต้องใช้ H100 แยกเฉพาะ ต่อหนึ่งบทสนทนา
- วิธีนี้ขยายระบบได้ยากและมีต้นทุนสูง
- Phoenix-2 เป็นโมเดลใหม่ที่รวมการปรับปรุงหลายด้านรวมถึงความเร็วในการอนุมาน
  - เปลี่ยนจากแบ็กโบนที่อิง NeRF ไปเป็น Gaussian Splatting
  - ตั้งข้อกำหนดให้สร้างเฟรมได้ มากกว่า 70fps ซึ่งเร็วกว่าเรียลไทม์บนฮาร์ดแวร์สเปกระดับล่าง
  - มุ่งปรับการใช้หน่วยความจำ GPU และคอร์ให้เหมาะสม เพื่อให้รันได้บนฮาร์ดแวร์ที่สเปกต่ำกว่า
  - การใช้สตรีมมิงและการทำงานแบบขนานแทนการประมวลผลเป็นแบตช์ยังช่วยลดทั้งเวลาและต้นทุน
LLM และการตรวจจับจบการพูด
- เพื่อลดเวลาแฝงระหว่างเทิร์นการสนทนาให้ต่ำกว่า 1 วินาที มีการปรับแต่งอย่างหนักในแต่ละส่วน ได้แก่ vision, ASR, LLM, TTS และการสร้างวิดีโอ
- คอขวดที่ใหญ่ที่สุดคือ LLM
  - สิ่งที่สำคัญต่อเวลาแฝงที่ผู้ใช้รู้สึกได้จริง ไม่ใช่ความเร็ว tokens per second แต่คือ time-to-first token
  - บริการอย่าง Groq แม้จะมีจำนวนโทเคนต่อวินาทีสูง แต่เวลาถึงโทเคนแรกช้าเกินไปสำหรับความต้องการนี้ และผู้ให้บริการส่วนใหญ่ก็ช้าเกินไป
- คอขวดถัดมาคือส่วนตรวจจับว่าผู้ใช้หยุดพูดแล้วหรือยัง
  - หากตัดสินจากเวลาหลังช่วงเงียบ จะเพิ่มเวลาแฝงเข้าไปอีก
  - หากตั้งเกณฑ์สั้นเกินไป เอเจนต์ AI จะพูดทับผู้ใช้ แต่ถ้าตั้งยาวเกินไป การตอบสนองจะช้า
  - จึงต้องมีโมเดลเฉพาะที่ตรวจจับ end-of-turn ได้อย่างแม่นยำจากสัญญาณการสนทนา และคาดเดาอินพุตเพื่อเตรียมล่วงหน้า
- ด้วยการปรับแต่งเหล่านี้ เวลาแฝงที่เคยอยู่ที่ 3–5 วินาทีลดลงเหลือ ต่ำกว่า 1 วินาที และเร็วได้ถึง 600ms พร้อมทั้งรันได้บนฮาร์ดแวร์สเปกต่ำกว่าเดิม

เดโมและกรณีการใช้งาน

Tavus มีลูกค้าอย่าง Delphi ซึ่งเป็นแพลตฟอร์มโคลนโค้ชมืออาชีพและผู้เชี่ยวชาญ โดยมีผู้ใช้ที่สนทนากับ digital twin ต่อเนื่องตั้งแต่ไม่กี่นาทีไปจนถึง 1 ชั่วโมงหรือ 4 ชั่วโมง
ผู้ใช้ที่ดูเดโมแล้วอยากลองใช้ API สามารถสมัครใช้งานฟรีได้ที่ tavus.io

1 ความคิดเห็น

GN⁺ 2024-10-02

ความคิดเห็นบน Hacker News

ชอบเว็บไซต์และเสียงไดอัลอัป แล้วก็ชอบหมวกคาวบอยด้วย
ประสบการณ์แชตกับอวาตาร์ทั้งสองไม่ค่อยดี หลุดบ่อยและชวนสับสน
การรู้จำภาพทำได้ดี ตอนที่อวาตาร์ตอบสนองช้า ก็ยังสามารถระบุสิ่งของได้
ขอบคุณที่แชร์ความยากลำบากแบบเจาะจง คิดว่าในอนาคตจะดีขึ้น
เวอร์ชัน Hassan ดีกว่า สามารถรับรู้ฉากหลังและพูดถึงโมเดลที่อยู่บนผนังได้
- คุยกันเกี่ยวกับชุด LEGO
ตอนอยู่ในห้องน้ำ กล้องกำลังจับภาพผ้าเช็ดตัว แต่กลับพูดว่า "ห้องน้ำดูอบอุ่นดีนะ"
ให้ความรู้สึกเหมือนกำลังคุยกับคนจริง ๆ เลยปฏิบัติกับมันเหมือนโค้ดไม่ได้
- ทำให้นึกถึงความพยายามอย่างมีสติที่ต้องใช้เวลาคุยกับคน
- เวลาใช้ Google Search ก็มักใช้แค่คีย์เวิร์ดน้อยที่สุด
- กังวลว่าเทคโนโลยีนี้จะฝึกให้ผู้คนมีพฤติกรรมคล้ายกันหรือไม่
ถ้าสนใจ AI แบบมัลติโหมดที่มีความหน่วงต่ำ Tavus กำลังเป็นสปอนเซอร์แฮกกาธอนที่ซานฟรานซิสโกในวันที่ 19-20 ตุลาคม
- มีแทร็กรีโมตด้วย
ความสามารถของเดโม: 9.5/10
- ความหลอน: 10/10
ไม่คุ้นเคยกับการดีพลอย GPU มากนัก แต่ดูเหมือนจะมีต้นทุนสูงและจัดสรรได้ยาก
- สงสัยว่าจัดการทรัพยากร GPU บนคลาวด์ในสเกลใหญ่กันอย่างไร
- จัดสรร GPU ต่อการเชื่อมต่อ WebSocket หนึ่งรายการหรือไม่ ถ้าใช่ก็น่าจะแพงมาก
ในเชิงเทคนิคถือว่าน่าประทับใจมาก อวาตาร์ Carter ดูเหมือนกำลังประหม่า
- ปาก/ฟันดูแปลก ๆ แต่ตอบสนองเร็ว
- เคยเห็นความหน่วงบน Zoom มากกว่านี้อีก
- คิดว่านี่คืออนาคตของคอลเซ็นเตอร์ ถ้าอวาตาร์แสดงออกได้ดีขึ้น CSAT ก็น่าจะสูงขึ้น
ในเชิงเทคนิคเป็นงานที่น่าทึ่งมาก เวลาตอบสนองต่ำกว่า 1 วินาทีน่าประทับใจมาก
- น่ากลัวตรงที่สามารถคุยกับคนปลอมผ่าน FaceTime ได้
- อยากรู้ว่าคิดอย่างไรกับผลกระทบทางสังคม
- ทุกวันนี้มีวิกฤตความเหงาจากการขาดการเชื่อมโยงระหว่างมนุษย์
ChatGPT มีปัญหาในการตรวจจับว่าบทสนทนาหยุดลงเมื่อไร
- ชอบพูดแทรกอยู่ตลอด

Show HN: เอเจนต์วิดีโอ AI แบบเรียลไทม์ที่มีเวลาแฝงต่ำกว่า 1 วินาที

เป้าหมายของ Tavus: ความเร็วตอบสนองที่ให้ความรู้สึกเหมือนมนุษย์

การทำให้ลงตัวทั้งเวลาแฝง การขยายระบบ และต้นทุน

โมเดลวิดีโอและต้นทุนฮาร์ดแวร์

LLM และการตรวจจับจบการพูด

เดโมและกรณีการใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News