• Kitten TTS คือ โมเดล TTS (text-to-speech) โอเพนซอร์ส ที่มุ่งเน้นทั้ง ความเบาและคุณภาพเสียงสูง
  • ใช้พารามิเตอร์เพียง 15 ล้านตัว ทำให้ ขนาดโมเดลต่ำกว่า 25MB
    • จุดเด่นสำคัญคือแตกต่างจาก TTS ขนาดใหญ่รุ่นอื่น ๆ ตรงที่สามารถรันได้ในทุกสภาพแวดล้อม เช่น มือถือและอุปกรณ์ฝังตัว
  • สามารถประมวลผล การสังเคราะห์เสียงคุณภาพสูงบนทุกอุปกรณ์ ได้โดยไม่ต้องใช้ GPU
  • มีตัวเลือก เสียงพรีเมียม ที่หลากหลาย รองรับ การสังเคราะห์เสียงคุณภาพสูง ที่ใกล้เคียงเสียงจริง
  • ทำ inference เสียงได้รวดเร็ว จึงเหมาะกับ การสังเคราะห์แบบเรียลไทม์
  • ขณะนี้เปิดเผยโมเดลเวอร์ชัน developer preview แล้ว และมีแผนจะทยอยเปิดเผยน้ำหนักโมเดลที่ฝึกเสร็จสมบูรณ์, mobile SDK, เวอร์ชันเว็บ และอื่น ๆ ในอนาคต

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น