1 คะแนน โดย GN⁺ 2024-06-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เดโมบอตเสียงที่เร็วที่สุดในโลก

แนะนำเดโม

  • ความสำคัญของความเร็ว: ความเร็วมีความสำคัญมากในอินเทอร์เฟซ AI เสียง ผู้คนคาดหวังการตอบสนองที่รวดเร็วในการสนทนาทั่วไป
  • เป้าหมาย: เดโมนี้แสดงการโต้ตอบกับ LLM แบบหน่วงต่ำ โดยตั้งเป้าเวลาในการตอบสนองด้วยเสียงต่ำกว่า 500ms
  • เทคโนโลยี: บอตนี้สร้างขึ้นโดยใช้เฟรมเวิร์กโอเพนซอร์สชื่อ Pipecat

ลองใช้เดโม

  • ทดลองเดโม: สามารถลองใช้งานเดโมได้ด้วยตนเอง
  • ดูซอร์สโค้ด: สามารถตรวจสอบซอร์สโค้ดได้
  • ติดตั้งใช้งานเอง: มีตัวเลือกให้ติดตั้งใช้งานในสภาพแวดล้อมของตนเอง

ความเห็นของ GN⁺

  • ความสำคัญของความเร็ว: การตอบสนองที่รวดเร็วในอินเทอร์เฟซเสียงช่วยยกระดับประสบการณ์ผู้ใช้ได้อย่างมาก
  • ข้อดีของโอเพนซอร์ส: เฟรมเวิร์กโอเพนซอร์สอย่าง Pipecat มีประโยชน์เพราะนักพัฒนาสามารถเข้าถึงและปรับแต่งได้ง่าย
  • ข้อพิจารณาในการนำเทคโนโลยีมาใช้: เมื่อนำเทคโนโลยีใหม่มาใช้ ควรพิจารณาความเข้ากันได้กับระบบเดิม ต้นทุนการบำรุงรักษา และปัจจัยอื่น ๆ
  • โครงการที่คล้ายกัน: ยังมีโซลูชัน AI เสียงอื่น ๆ เช่น Dialogflow ของ Google หรือ Lex ของ Amazon

1 ความคิดเห็น

 
GN⁺ 2024-06-28
ความคิดเห็นจาก Hacker News
  • ความเร็ว: ใน AI สำหรับบริการลูกค้า ลดเวลาตอบสนองลงเหลือไม่กี่วินาทีได้แล้ว ความเร็วชนะทุกอย่าง
  • การอนุมานเสียง: มีการทำ Websocket Faster Whisper ไว้ก่อนที่ OpenAI จะเปิดตัว gpt4o โดยใช้ Push to talk เพราะมีปัญหาเรื่องความน่าเชื่อถือของ VAD
  • VAD ข้ามแพลตฟอร์ม: แนะนำโมดูล VAD บนเบราว์เซอร์แบบข้ามแพลตฟอร์มที่พอร์ตเครือข่าย VAD ของ Silero ไปเป็น ONNX ใช้งานบน Firefox ได้ด้วย
  • TTS บนเบราว์เซอร์: เอนจินแปลงข้อความเป็นเสียงบนเบราว์เซอร์เร็วขึ้นเรื่อย ๆ และคุณภาพก็ดีขึ้น GPT-4o รวมโมเดลรู้จำเสียงอัตโนมัติ การทำความเข้าใจ และการสร้างคำตอบไว้เป็นตัวเดียวเพื่อลดความหน่วง
  • ศักยภาพของแอป: ดูเหมือนจะเป็นแอปทีเซอร์ของ Cerebrium ตอนทดสอบบน iPad พบว่าค่าความหน่วงอยู่ระหว่าง 1400ms ถึง 400ms
  • ประสบการณ์แบบโต้ตอบ: การตอบกลับที่รวดเร็วทำให้ประสบการณ์แบบโต้ตอบดีขึ้น โดยคงบริบทให้สั้นเพื่อให้ได้เวลาตอบสนองที่สั้น
  • Whisper-dictation: ใช้ Whisper-dictation ร่วมกับ llama-70b และพูดจบได้ภายในช่วงที่เว็บไซต์กำลังโหลด
  • บทสนทนาที่เป็นธรรมชาติ: การปรับ VAD และการขัดจังหวะทำได้เป็นธรรมชาติมาก เป็นประสบการณ์สนทนาที่เป็นธรรมชาติที่สุด
  • การแบ่งปัน: สนับสนุนให้คนอื่นแชร์วิธีแก้ปัญหาของตนเอง และวางแผนจะดูวิธีการติดตั้งใช้งานที่หลากหลายในช่วงสุดสัปดาห์
  • การตลาดกับคณิตศาสตร์: มีคนชี้ว่าในทางการตลาดบอกว่า 500 แต่ในทางคณิตศาสตร์จริง ๆ คือ 759
  • อินเทอร์เฟซที่รวดเร็ว: อินเทอร์เฟซเร็วมากและแทบแยกไม่ออกจากมนุษย์ ขอชื่นชม Cerebrium.ai