2 คะแนน โดย GN⁺ 2024-09-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลการโต้ตอบด้วยเสียงแบบ end-to-end คุณภาพสูงที่มีค่าหน่วงต่ำ
  • สร้างขึ้นบนพื้นฐานของ Llama-3.1-8B-Instruct โดยมีเป้าหมายเพื่อให้ได้ความสามารถด้านเสียงในระดับ GPT-4o
  • ค่าหน่วงต่ำเพียง 226ms
  • สร้างคำตอบทั้งข้อความและเสียงพร้อมกัน

สรุปโดย GN⁺

  • LLaMA-Omni เป็นโมเดลเสียง-ภาษาที่พัฒนาบนพื้นฐานของ Llama-3.1-8B-Instruct รองรับการโต้ตอบด้วยเสียงที่มีค่าหน่วงต่ำและคุณภาพสูง
  • สามารถสร้างคำตอบทั้งข้อความและเสียงได้พร้อมกัน จึงมีประโยชน์ในงานประยุกต์ใช้งานที่หลากหลาย
  • ฝึกเสร็จภายใน 3 วันด้วย GPU 4 ตัว จึงมีประสิทธิภาพสูง
  • โต้ตอบได้ง่ายผ่านเดโม Gradio และยังทำ local inference ได้
  • โปรเจ็กต์ที่มีความสามารถคล้ายกัน ได้แก่ Whisper ของ OpenAI และ Speech-to-Text API ของ Google

1 ความคิดเห็น

 
GN⁺ 2024-09-20
ความเห็นบน Hacker News
  • มีคำถามว่า "สามารถเล่นเสียงที่ไม่อาจถ่ายทอดเป็นข้อความได้หรือไม่"
  • ตั้งข้อสงสัยถึงข้อดีหรือศักยภาพของโมเดลนี้เมื่อเทียบกับโมเดลข้อความล้วน
    • คาดหวังว่าเมื่อโมเดลพัฒนาขึ้น จะสามารถตีความหรือสร้างน้ำเสียง จังหวะ และอารมณ์ที่สูญหายไปใน TTS ได้อย่างเหมาะสม
  • มีคำถามว่าจริง ๆ แล้วมันไม่ใช่แค่ "STT -> LLM -> TTS" หรือไม่
    • สงสัยว่าถ้าป้อนเสียงของ Chewbacca เข้าไป โมเดลจะรับรู้เป็นเสียงไร้ความหมาย หรือจะตีความเป็นคำแบบสุ่มผ่าน STT ที่ไม่แม่นยำ
  • มีคำถามว่าผู้ให้บริการโมเดลอย่าง Ollama, LM Studio, llama.cpp รองรับสิ่งนี้หรือไม่
  • เสียง TTS ในเดโมฟังดูคล้ายกับ Ellen McLain นักพากย์ของ Valve มาก
  • ความเร็วดีมาก
    • เพิ่งลองตั้งค่า LMStudio + AnythingLLM เพื่อทำแชตเสียงแบบโลคัลเมื่อไม่นานมานี้ แต่ก็ยังช้ากว่าที่ต้องการ
    • เสียงของ PiperTTS ดีกว่า
  • ดูเหมือนว่าการปรับจูนเสียงอย่างละเอียดเป็นข้อกำหนดสำคัญสำหรับการใช้งานเชิงพาณิชย์
    • อยากให้มีโค้ดสำหรับการฝึกหรือการ fine-tune
  • สงสัยว่าไม่สามารถทำ fine-tune เพิ่มเติมได้หรือไม่
  • มีคำถามว่ามีเดโมที่แสดงประสิทธิภาพหรือไม่
  • สงสัยว่าถ้ามีกราฟประวัติจำนวนดาวใน GitHub repository จะทำให้รู้สึกว่าโครงการน่าเชื่อถือน้อยลงหรือไม่