- Kitten TTS คือ โมเดล TTS (text-to-speech) โอเพนซอร์ส ที่มุ่งเน้นทั้ง ความเบาและคุณภาพเสียงสูง
- ใช้พารามิเตอร์เพียง 15 ล้านตัว ทำให้ ขนาดโมเดลต่ำกว่า 25MB
- จุดเด่นสำคัญคือแตกต่างจาก TTS ขนาดใหญ่รุ่นอื่น ๆ ตรงที่สามารถรันได้ในทุกสภาพแวดล้อม เช่น มือถือและอุปกรณ์ฝังตัว
- สามารถประมวลผล การสังเคราะห์เสียงคุณภาพสูงบนทุกอุปกรณ์ ได้โดยไม่ต้องใช้ GPU
- มีตัวเลือก เสียงพรีเมียม ที่หลากหลาย รองรับ การสังเคราะห์เสียงคุณภาพสูง ที่ใกล้เคียงเสียงจริง
- ทำ inference เสียงได้รวดเร็ว จึงเหมาะกับ การสังเคราะห์แบบเรียลไทม์
- ขณะนี้เปิดเผยโมเดลเวอร์ชัน developer preview แล้ว และมีแผนจะทยอยเปิดเผยน้ำหนักโมเดลที่ฝึกเสร็จสมบูรณ์, mobile SDK, เวอร์ชันเว็บ และอื่น ๆ ในอนาคต
ยังไม่มีความคิดเห็น