- Kokoro v0.19 เป็นโมเดลแปลงข้อความเป็นเสียงที่เพิ่งเปิดตัวล่าสุด มีพารามิเตอร์ 82M และให้ผลลัพธ์คุณภาพสูงมาก
- ใช้ไลเซนส์ Apache และฝึกด้วยเสียงไม่ถึง 100 ชั่วโมง
- รองรับภาษาอังกฤษแบบอเมริกัน ภาษาอังกฤษแบบบริติช ภาษาฝรั่งเศส ภาษาเกาหลี ภาษาญี่ปุ่น และภาษาจีน พร้อมเสียงคุณภาพสูงที่หลากหลาย
-
การใช้งาน Kokoro
- ผู้ใช้สามารถนำ Kokoro ไปใช้ผ่านเครื่องมือชื่อ Audiblez ที่แปลงอีบุ๊กเป็นออดิโอบุ๊กได้
- Audiblez จะพาร์สไฟล์
.epub และแปลงเนื้อหาของหนังสือเป็นไฟล์เสียงที่บันทึกไว้อย่างดี
- ตัวอย่างเช่น บน M2 MacBook Pro จะใช้เวลาประมาณ 2 ชั่วโมงในการแปลงหนังสือราว 100,000 คำ
-
วิธีติดตั้งและรัน
- สามารถติดตั้ง Audiblez ผ่าน
pip บนคอมพิวเตอร์ที่ติดตั้ง Python 3 ได้
- ไม่รองรับการทำงานบน Python 3.13
- ต้องดาวน์โหลดไฟล์เพิ่มเติมประมาณ 360MB
- หากต้องการแปลงไฟล์
.epub เป็นออดิโอบุ๊ก ต้องรันคำสั่ง
-
ภาษาและเสียงที่รองรับ
- สามารถระบุภาษาได้ด้วยออปชัน
-l โดยรหัสภาษาที่รองรับคือ en-us, en-gb, fr-fr, ja, ko, cmn
- สามารถระบุเสียงได้ด้วยออปชัน
-v และมีเสียงให้เลือกหลากหลาย
-
การตรวจจับบท
- การตรวจจับบทยังไม่ค่อยเสถียรนัก แต่สามารถค้นหาบทหลักได้ในไฟล์
.epub ส่วนใหญ่
- หากไม่มีบทที่สนใจรวมอยู่ด้วย อาจลองปรับฟังก์ชัน
is_chapter ในโค้ดได้
-
ซอร์สโค้ดและสิ่งที่จะปรับปรุง
- สามารถดูโปรเจกต์ Audiblez ได้บน GitHub
- การปรับปรุงในอนาคตได้แก่ การตรวจจับบทที่ดีขึ้น การเพิ่มการนำทางระหว่างบท และการเพิ่มคำบรรยายเสียงสำหรับภาพ
3 ความคิดเห็น
มีโมเดลที่ใหญ่กว่าและดีกว่านี้ก็มีอยู่เหมือนกัน แต่คิดว่าต้องมองว่าเอาไปใช้คนละแบบ
Kokoro มีขนาดเล็กจึงทำงานได้เร็ว และคุณภาพก็ไม่ได้แย่ ทำให้กระแสตอบรับค่อนข้างดี
เวอร์ชันภาษาเกาหลีฟังดูเหมือนภาษารัสเซียเลยครับ อยู่ในระดับที่ฟังไม่ได้
ความคิดเห็นจาก Hacker News
รู้สึกทั้งชอบและกังวลกับการใช้เสียง AI เพราะบางครั้งผู้บรรยายหนังสือเสียงสามารถตีความข้อความได้ดีมาก
ฟังเสียงที่สร้างด้วย AI ได้ไม่เกิน 1 นาที และถ้าเจอเสียง AI บน YouTube ก็จะข้ามทันที
ขอคำแนะนำตัวเลือกโอเพนซอร์สสำหรับสร้าง TTS ด้วยเสียงแบบกำหนดเอง
อยากได้เครื่องอ่านอีบุ๊กที่สามารถสลับระหว่างข้อความกับเสียงได้ด้วยปุ่มเดียว
มีไอเดียจะทำให้อีบุ๊กกลายเป็นหนังสือเสียงด้วยเสียงของผู้บรรยายหนังสือเสียงบางคนโดยเฉพาะ
เคยลองโมเดล TTS หลายตัว แต่ส่วนใหญ่คุณภาพธรรมดา ใช้งานบน Mac ไม่ได้ หรือช้ามาก
ในปี 2025 น่าจะสามารถใช้โครงข่ายประสาทเทียมสร้างหนังสือเสียงที่มีดนตรีประกอบ เอฟเฟกต์เสียง และการบรรยายแบบดราม่าได้
"kokoro" ในภาษาญี่ปุ่นหมายถึง "หัวใจ"
อยากให้มีปลั๊กอินเพิ่มเข้าไปในซอฟต์แวร์จัดการอีบุ๊ก Calibre เพื่อให้แปลงชื่อเรื่องที่เลือกในไลบรารี epub เป็นเวอร์ชันเสียงได้อย่างง่ายดาย
พอเพิ่มอาร์กิวเมนต์ความเร็วแบบปรับได้เข้าไปแล้วก็พอใจมาก