WhisperFusion - สนทนากับแชตบอต AI ด้วยเวลาแฝงที่สั้น

xguru · 2024-01-31T10:03:01+09:00

มอบการสนทนากับ AI ที่ลื่นไหลโดยทำงานร่วมกับ Mistral LLM บนพื้นฐานความสามารถของ WhisperLive และ WhisperSpeech WhisperLive : นำ OpenAI Whisper มาทำงานได้เกือบแบบเรียลไทม์เพื่อแปลงเสียงเป็นข้อความ WhisperSpeech : ระบบ TTS ที่สร้างขึ้นโดยกลับกระบวนการของ Whisper ทั้ง LLM และ Whisper ได้รับการปรับแต่งให้ทำงานอย่างมีประสิทธิภาพด้วยเอนจิน TensorRT เพื่อเพิ่มประสิทธิภาพและความสามารถในการประมวลผลแบบเรียลไทม์สูงสุด และ WhisperSpeech ปรับแต่งด้วย torch.compile

(github.com/collabora)

11 คะแนน โดย xguru 2024-01-31 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

มอบการสนทนากับ AI ที่ลื่นไหลโดยทำงานร่วมกับ Mistral LLM บนพื้นฐานความสามารถของ WhisperLive และ WhisperSpeech
- WhisperLive : นำ OpenAI Whisper มาทำงานได้เกือบแบบเรียลไทม์เพื่อแปลงเสียงเป็นข้อความ
- WhisperSpeech : ระบบ TTS ที่สร้างขึ้นโดยกลับกระบวนการของ Whisper
ทั้ง LLM และ Whisper ได้รับการปรับแต่งให้ทำงานอย่างมีประสิทธิภาพด้วยเอนจิน TensorRT เพื่อเพิ่มประสิทธิภาพและความสามารถในการประมวลผลแบบเรียลไทม์สูงสุด และ WhisperSpeech ปรับแต่งด้วย torch.compile

3 ความคิดเห็น

kleinstein 2024-02-02

ถ้าแปลแบบเรียลไทม์ได้ก็คงจะรวดเร็วและดีมากนะครับ

xguru 2024-01-31

WhisperSpeech – ระบบสังเคราะห์เสียงพูดโอเพนซอร์สที่สร้าง Whisper แบบย้อนกลับ

xguru 2024-01-31

ความคิดเห็นจาก Hacker News

ฟังก์ชันสำคัญ 2 อย่างที่จำเป็นเพื่อให้สถานการณ์แบบสนทนาทำงานได้ดี:
- ฟังก์ชันขัดจังหวะ: LLM ควรหยุดชั่วคราวได้เมื่อผู้ใช้พูดว่า "เดี๋ยวก่อน"
- การตอบสนองต่อสัญญาณเฉพาะ: ควรรอจนผู้ใช้ส่งสัญญาณเฉพาะอย่าง "คุณคิดว่ายังไง?" แล้วจึงค่อยตอบสนอง
- นอกจาก 2 ฟังก์ชันนี้แล้ว ความหน่วงต่ำก็สำคัญ และควรทำให้รู้สึกเหมือนกำลังคุยกับคนจริง ๆ
แสดงความสนใจในโปรเจกต์อย่าง WhisperFusion, WhisperLive และ WhisperSpeech พร้อมสงสัยเกี่ยวกับค่าความหน่วงของแต่ละระบบและตัวเลข WER (Word Error Rate) ของ WhisperLive โดยระบุว่าดูเหมือนจะขาดข้อมูลสำคัญเกี่ยวกับโมเดลเหล่านี้
ชี้ว่าโปรเจกต์ยอดเยี่ยม แต่ส่วนใหญ่เป็นปัญหาเรื่องการแพ็กเกจ:
- วิจารณ์ว่าแอปพลิเคชัน Python จำนวนมากกำลังนำครึ่งหนึ่งของ setuptools ไปทำใหม่ในแบบที่ช้าและมีบั๊ก
- ตั้งคำถามว่าเหตุใด TensorRT จึงแจกจ่ายฟังก์ชันหลักไว้ในไดเรกทอรี "example"
- สำหรับ huggingface_cli มีการกล่าวถึงว่ามีวิธีดาวน์โหลดบางอย่างด้วยชื่ออยู่แล้ว (เช่น PyPi index) และอาจดีกว่าหากนำแนวทางนั้นมาใช้กับโมเดล
นึกถึงการพูดคุยเกี่ยวกับโปรเจกต์ Vocode โดยบอกว่ามีการถกเถียงกันเรื่องนี้เมื่อ 10 เดือนก่อน และเคยลองเดโมแล้วรู้สึกประทับใจ พร้อมสงสัยว่าตอนนี้มีใครใช้งานอยู่ในสภาพแวดล้อมการพัฒนาหรือโปรดักชันหรือไม่
ผู้ใช้คนหนึ่งจินตนาการถึงการพอร์ตเทคโนโลยีนี้ไปยังแอปเฉพาะทาง เพื่อให้สามารถรับรู้สิ่งที่อยู่บนหน้าจอและข้อความ แล้วช่วยเหลือได้แทบจะเรียลไทม์
สงสัยว่าจะใช้งาน Whisper สำหรับการถอดเสียงแบบสตรีมมิง (transcription) ได้ดีอย่างไร และแนะนำโปรเจกต์ที่มีเป้าหมายคล้ายกัน
ขอให้สรุปว่าส่วนของ LLM แตกต่างจากหรือคล้ายกับการตั้งค่า TGWUI+llama.cpp อย่างไร โดยตั้งข้อสงสัยเป็นพิเศษว่าทำไม "ความหน่วงต่ำมาก" จึงไม่เกิดขึ้นบนฮาร์ดแวร์ของผู้ใช้
ผู้ใช้ถามว่าโปรเจกต์นี้รันแบบโลคัลทั้งหมดหรือไม่ หรือจำเป็นต้องใช้ API access ไปยังระบบรีโมตของ OpenAI โดยผู้ใช้ระบุว่ากำลังสร้าง TTS และ STT ด้วย OpenAI แต่ไม่อยากส่งสตรีมเสียงไปยัง OpenAI ตลอดเวลาเพียงเพื่อรอคำสั่งเดียว
มองว่านี่คือสิ่งที่ Siri และ Alexa ควรจะเป็น และคาดว่าในอีกไม่กี่ปีข้างหน้าจะเห็นเทคโนโลยีแบบนี้มากขึ้น พร้อมเสริมว่าหากรันแบบโลคัลและไม่ทิ้งบันทึกถาวรไว้ ก็จะช่วยแก้ปัญหาเรื่องการดักฟังเบื้องหลังได้ด้วย
กล่าวถึงการใช้ TensorRT และสงสัยว่ารองรับ GPU รุ่นใดบ้าง และจะรันบน Jetson ได้หรือไม่

WhisperFusion - สนทนากับแชตบอต AI ด้วยเวลาแฝงที่สั้น

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความคิดเห็นจาก Hacker News