8 คะแนน โดย xguru 2025-02-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Audiblez คืออะไร?

  • เครื่องมือสำหรับแปลงอีบุ๊ก .epub เป็นหนังสือเสียง .m4b
  • ใช้การสังเคราะห์เสียงคุณภาพสูงบนพื้นฐาน Kokoro-82M
  • เผยแพร่ภายใต้ไลเซนส์ Apache และฝึกด้วยข้อมูลเสียงไม่เกิน 100 ชั่วโมง
  • บน T4 GPU ของ Google Colab สามารถแปลง "Animal Farm" ได้ภายในราว 5 นาที ที่ "ความเร็วในการแปลง 600 ตัวอักษรต่อวินาที"
  • บน M2 MacBook Pro (โหมด CPU) ใช้เวลาประมาณ 1 ชั่วโมง ที่ "ความเร็ว 60 ตัวอักษรต่อวินาที"
    • ปัจจุบัน Apple Silicon (M1, M2) ยังไม่รองรับ CUDA (กำลังรอรองรับ MLX)

อัปเดตสำคัญของ Audiblez 4.2

  • รองรับ GUI หลายแพลตฟอร์มบนพื้นฐาน wxWidgets (Mac, Windows, Linux)
  • รองรับหลายภาษา (อังกฤษ, สเปน, ฝรั่งเศส, ฮินดี, อิตาลี, ญี่ปุ่น, โปรตุเกส, จีน)
  • เปลี่ยนจาก ONNX ไปเป็นแบบ Torch ที่ใช้แพ็กเกจ kokoro
  • รองรับการเร่งความเร็วด้วย CUDA (แต่บน Apple Silicon จะรันในโหมด CPU)
  • ใส่ภาพปกและ timestamp ของบทในหนังสือเสียงได้
  • ปรับปรุงการรองรับ Windows

2 ความคิดเห็น

 
xguru 2025-02-19

แปลง eBook เป็นหนังสือเสียงด้วยโมเดล Kokoro-82M
อันนี้อิงจากตัวนั้น แต่ดูเหมือนว่า Audiblez จะไม่มีภาษาเกาหลีที่รวมมาให้ (แม้จะมีคนพูดในคอมเมนต์ว่าคุณภาพภาษาเกาหลีของ Kokoro ก็ไม่ค่อยดีนัก)

 
inosphe 2025-02-19

ถ้าย้อนไปดูบันทึกเก่า ๆ ของโปรเจกต์ kokoro จะเห็นได้ชัดว่าเคยมีเสียงภาษาเกาหลีอยู่ แต่ถ้าดูจากการพูดคุยฝั่ง Discord ก็ดูเหมือนว่ากำลังประสบความยากลำบากในการแจกจ่าย เพราะข้อกำหนดของ aihub เกาหลีที่ห้ามนำข้อมูลออกนอกประเทศ…