ผมสนใจ AI แบบสแตนด์อโลนบนอุปกรณ์ Edge

ชิปเซ็ต RK3576 มี NPU 6 TOPS แต่ในขณะที่มักจะเห็นโมเดล TTS ภาษาอังกฤษแบบน้ำหนักเบาอยู่บ่อย ๆ กลับแทบไม่มีโมเดล TTS ภาษาเกาหลีเลย

ในกรณีของ MeloTTS-ko สามารถใช้งานภาษาเกาหลีได้ผ่านการแปลงเป็น RKNN โดยตรง แต่ Encoder ไม่สามารถแปลงเป็น RKNN ได้ และความเร็วก็ไม่ได้ถือว่าเร็วมากนัก

ดังนั้นเพื่อให้สามารถใช้งานได้แม้บนอุปกรณ์ Edge จึงได้สร้างโมเดล TTS ภาษาเกาหลีแบบน้ำหนักเบาที่เน้นความเร็วมากกว่าคุณภาพ

แม้จะเป็นเสียงสังเคราะห์แบบเครื่องที่ฟังไม่ค่อยเป็นธรรมชาติ แต่ก็สามารถสร้างเสียงได้ในระดับเรียลไทม์ (อ้างอิงจาก RK3576)

เมื่อเผยแพร่ภายใต้ Apache 2.0 จึงขอนำมาแชร์เผื่อจะเป็นประโยชน์สำหรับผู้ที่กำลังมองหา TTS ภาษาเกาหลีบนอุปกรณ์ Edge ที่ให้ความสำคัญกับความเร็วมากกว่าคุณภาพ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น