11 คะแนน โดย xguru 2024-01-31 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • มอบการสนทนากับ AI ที่ลื่นไหลโดยทำงานร่วมกับ Mistral LLM บนพื้นฐานความสามารถของ WhisperLive และ WhisperSpeech
    • WhisperLive : นำ OpenAI Whisper มาทำงานได้เกือบแบบเรียลไทม์เพื่อแปลงเสียงเป็นข้อความ
    • WhisperSpeech : ระบบ TTS ที่สร้างขึ้นโดยกลับกระบวนการของ Whisper
  • ทั้ง LLM และ Whisper ได้รับการปรับแต่งให้ทำงานอย่างมีประสิทธิภาพด้วยเอนจิน TensorRT เพื่อเพิ่มประสิทธิภาพและความสามารถในการประมวลผลแบบเรียลไทม์สูงสุด และ WhisperSpeech ปรับแต่งด้วย torch.compile

3 ความคิดเห็น

 
kleinstein 2024-02-02

ถ้าแปลแบบเรียลไทม์ได้ก็คงจะรวดเร็วและดีมากนะครับ

 
xguru 2024-01-31

ความคิดเห็นจาก Hacker News

  • ฟังก์ชันสำคัญ 2 อย่างที่จำเป็นเพื่อให้สถานการณ์แบบสนทนาทำงานได้ดี:
    • ฟังก์ชันขัดจังหวะ: LLM ควรหยุดชั่วคราวได้เมื่อผู้ใช้พูดว่า "เดี๋ยวก่อน"
    • การตอบสนองต่อสัญญาณเฉพาะ: ควรรอจนผู้ใช้ส่งสัญญาณเฉพาะอย่าง "คุณคิดว่ายังไง?" แล้วจึงค่อยตอบสนอง
    • นอกจาก 2 ฟังก์ชันนี้แล้ว ความหน่วงต่ำก็สำคัญ และควรทำให้รู้สึกเหมือนกำลังคุยกับคนจริง ๆ
  • แสดงความสนใจในโปรเจกต์อย่าง WhisperFusion, WhisperLive และ WhisperSpeech พร้อมสงสัยเกี่ยวกับค่าความหน่วงของแต่ละระบบและตัวเลข WER (Word Error Rate) ของ WhisperLive โดยระบุว่าดูเหมือนจะขาดข้อมูลสำคัญเกี่ยวกับโมเดลเหล่านี้
  • ชี้ว่าโปรเจกต์ยอดเยี่ยม แต่ส่วนใหญ่เป็นปัญหาเรื่องการแพ็กเกจ:
    • วิจารณ์ว่าแอปพลิเคชัน Python จำนวนมากกำลังนำครึ่งหนึ่งของ setuptools ไปทำใหม่ในแบบที่ช้าและมีบั๊ก
    • ตั้งคำถามว่าเหตุใด TensorRT จึงแจกจ่ายฟังก์ชันหลักไว้ในไดเรกทอรี "example"
    • สำหรับ huggingface_cli มีการกล่าวถึงว่ามีวิธีดาวน์โหลดบางอย่างด้วยชื่ออยู่แล้ว (เช่น PyPi index) และอาจดีกว่าหากนำแนวทางนั้นมาใช้กับโมเดล
  • นึกถึงการพูดคุยเกี่ยวกับโปรเจกต์ Vocode โดยบอกว่ามีการถกเถียงกันเรื่องนี้เมื่อ 10 เดือนก่อน และเคยลองเดโมแล้วรู้สึกประทับใจ พร้อมสงสัยว่าตอนนี้มีใครใช้งานอยู่ในสภาพแวดล้อมการพัฒนาหรือโปรดักชันหรือไม่
  • ผู้ใช้คนหนึ่งจินตนาการถึงการพอร์ตเทคโนโลยีนี้ไปยังแอปเฉพาะทาง เพื่อให้สามารถรับรู้สิ่งที่อยู่บนหน้าจอและข้อความ แล้วช่วยเหลือได้แทบจะเรียลไทม์
  • สงสัยว่าจะใช้งาน Whisper สำหรับการถอดเสียงแบบสตรีมมิง (transcription) ได้ดีอย่างไร และแนะนำโปรเจกต์ที่มีเป้าหมายคล้ายกัน
  • ขอให้สรุปว่าส่วนของ LLM แตกต่างจากหรือคล้ายกับการตั้งค่า TGWUI+llama.cpp อย่างไร โดยตั้งข้อสงสัยเป็นพิเศษว่าทำไม "ความหน่วงต่ำมาก" จึงไม่เกิดขึ้นบนฮาร์ดแวร์ของผู้ใช้
  • ผู้ใช้ถามว่าโปรเจกต์นี้รันแบบโลคัลทั้งหมดหรือไม่ หรือจำเป็นต้องใช้ API access ไปยังระบบรีโมตของ OpenAI โดยผู้ใช้ระบุว่ากำลังสร้าง TTS และ STT ด้วย OpenAI แต่ไม่อยากส่งสตรีมเสียงไปยัง OpenAI ตลอดเวลาเพียงเพื่อรอคำสั่งเดียว
  • มองว่านี่คือสิ่งที่ Siri และ Alexa ควรจะเป็น และคาดว่าในอีกไม่กี่ปีข้างหน้าจะเห็นเทคโนโลยีแบบนี้มากขึ้น พร้อมเสริมว่าหากรันแบบโลคัลและไม่ทิ้งบันทึกถาวรไว้ ก็จะช่วยแก้ปัญหาเรื่องการดักฟังเบื้องหลังได้ด้วย
  • กล่าวถึงการใช้ TensorRT และสงสัยว่ารองรับ GPU รุ่นใดบ้าง และจะรันบน Jetson ได้หรือไม่