- โมเดลการโต้ตอบด้วยเสียงแบบ end-to-end คุณภาพสูงที่มีค่าหน่วงต่ำ
- สร้างขึ้นบนพื้นฐานของ Llama-3.1-8B-Instruct โดยมีเป้าหมายเพื่อให้ได้ความสามารถด้านเสียงในระดับ GPT-4o
- ค่าหน่วงต่ำเพียง 226ms
- สร้างคำตอบทั้งข้อความและเสียงพร้อมกัน
สรุปโดย GN⁺
- LLaMA-Omni เป็นโมเดลเสียง-ภาษาที่พัฒนาบนพื้นฐานของ Llama-3.1-8B-Instruct รองรับการโต้ตอบด้วยเสียงที่มีค่าหน่วงต่ำและคุณภาพสูง
- สามารถสร้างคำตอบทั้งข้อความและเสียงได้พร้อมกัน จึงมีประโยชน์ในงานประยุกต์ใช้งานที่หลากหลาย
- ฝึกเสร็จภายใน 3 วันด้วย GPU 4 ตัว จึงมีประสิทธิภาพสูง
- โต้ตอบได้ง่ายผ่านเดโม Gradio และยังทำ local inference ได้
- โปรเจ็กต์ที่มีความสามารถคล้ายกัน ได้แก่ Whisper ของ OpenAI และ Speech-to-Text API ของ Google
1 ความคิดเห็น
ความเห็นบน Hacker News