แปลงอีบุ๊กเป็นออดิโอบุ๊กด้วยโมเดล Kokoro-82M

(claudio.uk)

24 คะแนน โดย GN⁺ 2025-01-16 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Kokoro v0.19 เป็นโมเดลแปลงข้อความเป็นเสียงที่เพิ่งเปิดตัวล่าสุด มีพารามิเตอร์ 82M และให้ผลลัพธ์คุณภาพสูงมาก
- ใช้ไลเซนส์ Apache และฝึกด้วยเสียงไม่ถึง 100 ชั่วโมง
- รองรับภาษาอังกฤษแบบอเมริกัน ภาษาอังกฤษแบบบริติช ภาษาฝรั่งเศส ภาษาเกาหลี ภาษาญี่ปุ่น และภาษาจีน พร้อมเสียงคุณภาพสูงที่หลากหลาย
การใช้งาน Kokoro
- ผู้ใช้สามารถนำ Kokoro ไปใช้ผ่านเครื่องมือชื่อ Audiblez ที่แปลงอีบุ๊กเป็นออดิโอบุ๊กได้
- Audiblez จะพาร์สไฟล์ .epub และแปลงเนื้อหาของหนังสือเป็นไฟล์เสียงที่บันทึกไว้อย่างดี
- ตัวอย่างเช่น บน M2 MacBook Pro จะใช้เวลาประมาณ 2 ชั่วโมงในการแปลงหนังสือราว 100,000 คำ
วิธีติดตั้งและรัน
- สามารถติดตั้ง Audiblez ผ่าน pip บนคอมพิวเตอร์ที่ติดตั้ง Python 3 ได้
- ไม่รองรับการทำงานบน Python 3.13
- ต้องดาวน์โหลดไฟล์เพิ่มเติมประมาณ 360MB
- หากต้องการแปลงไฟล์ .epub เป็นออดิโอบุ๊ก ต้องรันคำสั่ง
ภาษาและเสียงที่รองรับ
- สามารถระบุภาษาได้ด้วยออปชัน -l โดยรหัสภาษาที่รองรับคือ en-us, en-gb, fr-fr, ja, ko, cmn
- สามารถระบุเสียงได้ด้วยออปชัน -v และมีเสียงให้เลือกหลากหลาย
การตรวจจับบท
- การตรวจจับบทยังไม่ค่อยเสถียรนัก แต่สามารถค้นหาบทหลักได้ในไฟล์ .epub ส่วนใหญ่
- หากไม่มีบทที่สนใจรวมอยู่ด้วย อาจลองปรับฟังก์ชัน is_chapter ในโค้ดได้
ซอร์สโค้ดและสิ่งที่จะปรับปรุง
- สามารถดูโปรเจกต์ Audiblez ได้บน GitHub
- การปรับปรุงในอนาคตได้แก่ การตรวจจับบทที่ดีขึ้น การเพิ่มการนำทางระหว่างบท และการเพิ่มคำบรรยายเสียงสำหรับภาพ

3 ความคิดเห็น

crawler 2025-01-16

มีโมเดลที่ใหญ่กว่าและดีกว่านี้ก็มีอยู่เหมือนกัน แต่คิดว่าต้องมองว่าเอาไปใช้คนละแบบ
Kokoro มีขนาดเล็กจึงทำงานได้เร็ว และคุณภาพก็ไม่ได้แย่ ทำให้กระแสตอบรับค่อนข้างดี

munggo 2025-01-16

เวอร์ชันภาษาเกาหลีฟังดูเหมือนภาษารัสเซียเลยครับ อยู่ในระดับที่ฟังไม่ได้

GN⁺ 2025-01-16

ความคิดเห็นจาก Hacker News

รู้สึกทั้งชอบและกังวลกับการใช้เสียง AI เพราะบางครั้งผู้บรรยายหนังสือเสียงสามารถตีความข้อความได้ดีมาก
- หนังสือเสียงที่มีผู้บรรยายหลายคนและมีเสียงต่างกันสำหรับแต่ละตัวละครมอบประสบการณ์ที่พิเศษ
- บางครั้งเบาะแสเดียวที่ทำให้รู้ว่าใครกำลังพูดอยู่ระหว่างบทสนทนาคือการเปลี่ยนโทนเสียง
- ชอบเสียง AI มากกว่าหนังสืออิเล็กทรอนิกส์แบบสมัครเล่นหรือหนังสือเสียงสาธารณสมบัติอย่าง Project Gutenberg
ฟังเสียงที่สร้างด้วย AI ได้ไม่เกิน 1 นาที และถ้าเจอเสียง AI บน YouTube ก็จะข้ามทันที
- อาจเป็นเพราะสมองของเราพยายามรับรู้อารมณ์ของผู้พูด จังหวะหยุด และรอยยิ้มที่มองไม่เห็น
- โมเดลจะพัฒนาจนยากต่อการแยกแยะว่าเป็นเสียงที่สร้างด้วย AI
ขอคำแนะนำตัวเลือกโอเพนซอร์สสำหรับสร้าง TTS ด้วยเสียงแบบกำหนดเอง
- ตั้งใจจะลอง Coqui TTS
อยากได้เครื่องอ่านอีบุ๊กที่สามารถสลับระหว่างข้อความกับเสียงได้ด้วยปุ่มเดียว
- นึกภาพการอ่านหนังสืออยู่บนโซฟาแล้วสลับเป็นโหมดเสียงตอนลุกไปล้างจานได้
มีไอเดียจะทำให้อีบุ๊กกลายเป็นหนังสือเสียงด้วยเสียงของผู้บรรยายหนังสือเสียงบางคนโดยเฉพาะ
- ได้แรงบันดาลใจจากโปรเจกต์ Infinite Conversation แต่ยังไม่ได้ลงมือทำ
เคยลองโมเดล TTS หลายตัว แต่ส่วนใหญ่คุณภาพธรรมดา ใช้งานบน Mac ไม่ได้ หรือช้ามาก
- โมเดลนี้เร็ว ติดตั้งง่าย และให้เสียงที่ใช้ได้ดี
- จะไม่อ่านหนังสือที่ไม่มีเวอร์ชันหนังสือเสียง
- เคยใช้ elevenlabs มาก่อน แต่ราคาสำหรับใช้งานส่วนตัวแพงเกินไป
ในปี 2025 น่าจะสามารถใช้โครงข่ายประสาทเทียมสร้างหนังสือเสียงที่มีดนตรีประกอบ เอฟเฟกต์เสียง และการบรรยายแบบดราม่าได้
"kokoro" ในภาษาญี่ปุ่นหมายถึง "หัวใจ"
อยากให้มีปลั๊กอินเพิ่มเข้าไปในซอฟต์แวร์จัดการอีบุ๊ก Calibre เพื่อให้แปลงชื่อเรื่องที่เลือกในไลบรารี epub เป็นเวอร์ชันเสียงได้อย่างง่ายดาย
พอเพิ่มอาร์กิวเมนต์ความเร็วแบบปรับได้เข้าไปแล้วก็พอใจมาก

แปลงอีบุ๊กเป็นออดิโอบุ๊กด้วยโมเดล Kokoro-82M

การใช้งาน Kokoro

วิธีติดตั้งและรัน

ภาษาและเสียงที่รองรับ

การตรวจจับบท

ซอร์สโค้ดและสิ่งที่จะปรับปรุง

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความคิดเห็นจาก Hacker News