24 คะแนน โดย GN⁺ 2025-01-16 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Kokoro v0.19 เป็นโมเดลแปลงข้อความเป็นเสียงที่เพิ่งเปิดตัวล่าสุด มีพารามิเตอร์ 82M และให้ผลลัพธ์คุณภาพสูงมาก
    • ใช้ไลเซนส์ Apache และฝึกด้วยเสียงไม่ถึง 100 ชั่วโมง
    • รองรับภาษาอังกฤษแบบอเมริกัน ภาษาอังกฤษแบบบริติช ภาษาฝรั่งเศส ภาษาเกาหลี ภาษาญี่ปุ่น และภาษาจีน พร้อมเสียงคุณภาพสูงที่หลากหลาย
  • การใช้งาน Kokoro

    • ผู้ใช้สามารถนำ Kokoro ไปใช้ผ่านเครื่องมือชื่อ Audiblez ที่แปลงอีบุ๊กเป็นออดิโอบุ๊กได้
    • Audiblez จะพาร์สไฟล์ .epub และแปลงเนื้อหาของหนังสือเป็นไฟล์เสียงที่บันทึกไว้อย่างดี
    • ตัวอย่างเช่น บน M2 MacBook Pro จะใช้เวลาประมาณ 2 ชั่วโมงในการแปลงหนังสือราว 100,000 คำ
  • วิธีติดตั้งและรัน

    • สามารถติดตั้ง Audiblez ผ่าน pip บนคอมพิวเตอร์ที่ติดตั้ง Python 3 ได้
    • ไม่รองรับการทำงานบน Python 3.13
    • ต้องดาวน์โหลดไฟล์เพิ่มเติมประมาณ 360MB
    • หากต้องการแปลงไฟล์ .epub เป็นออดิโอบุ๊ก ต้องรันคำสั่ง
  • ภาษาและเสียงที่รองรับ

    • สามารถระบุภาษาได้ด้วยออปชัน -l โดยรหัสภาษาที่รองรับคือ en-us, en-gb, fr-fr, ja, ko, cmn
    • สามารถระบุเสียงได้ด้วยออปชัน -v และมีเสียงให้เลือกหลากหลาย
  • การตรวจจับบท

    • การตรวจจับบทยังไม่ค่อยเสถียรนัก แต่สามารถค้นหาบทหลักได้ในไฟล์ .epub ส่วนใหญ่
    • หากไม่มีบทที่สนใจรวมอยู่ด้วย อาจลองปรับฟังก์ชัน is_chapter ในโค้ดได้
  • ซอร์สโค้ดและสิ่งที่จะปรับปรุง

    • สามารถดูโปรเจกต์ Audiblez ได้บน GitHub
    • การปรับปรุงในอนาคตได้แก่ การตรวจจับบทที่ดีขึ้น การเพิ่มการนำทางระหว่างบท และการเพิ่มคำบรรยายเสียงสำหรับภาพ

3 ความคิดเห็น

 
crawler 2025-01-16

มีโมเดลที่ใหญ่กว่าและดีกว่านี้ก็มีอยู่เหมือนกัน แต่คิดว่าต้องมองว่าเอาไปใช้คนละแบบ
Kokoro มีขนาดเล็กจึงทำงานได้เร็ว และคุณภาพก็ไม่ได้แย่ ทำให้กระแสตอบรับค่อนข้างดี

 
munggo 2025-01-16

เวอร์ชันภาษาเกาหลีฟังดูเหมือนภาษารัสเซียเลยครับ อยู่ในระดับที่ฟังไม่ได้

 
GN⁺ 2025-01-16
ความคิดเห็นจาก Hacker News
  • รู้สึกทั้งชอบและกังวลกับการใช้เสียง AI เพราะบางครั้งผู้บรรยายหนังสือเสียงสามารถตีความข้อความได้ดีมาก

    • หนังสือเสียงที่มีผู้บรรยายหลายคนและมีเสียงต่างกันสำหรับแต่ละตัวละครมอบประสบการณ์ที่พิเศษ
    • บางครั้งเบาะแสเดียวที่ทำให้รู้ว่าใครกำลังพูดอยู่ระหว่างบทสนทนาคือการเปลี่ยนโทนเสียง
    • ชอบเสียง AI มากกว่าหนังสืออิเล็กทรอนิกส์แบบสมัครเล่นหรือหนังสือเสียงสาธารณสมบัติอย่าง Project Gutenberg
  • ฟังเสียงที่สร้างด้วย AI ได้ไม่เกิน 1 นาที และถ้าเจอเสียง AI บน YouTube ก็จะข้ามทันที

    • อาจเป็นเพราะสมองของเราพยายามรับรู้อารมณ์ของผู้พูด จังหวะหยุด และรอยยิ้มที่มองไม่เห็น
    • โมเดลจะพัฒนาจนยากต่อการแยกแยะว่าเป็นเสียงที่สร้างด้วย AI
  • ขอคำแนะนำตัวเลือกโอเพนซอร์สสำหรับสร้าง TTS ด้วยเสียงแบบกำหนดเอง

    • ตั้งใจจะลอง Coqui TTS
  • อยากได้เครื่องอ่านอีบุ๊กที่สามารถสลับระหว่างข้อความกับเสียงได้ด้วยปุ่มเดียว

    • นึกภาพการอ่านหนังสืออยู่บนโซฟาแล้วสลับเป็นโหมดเสียงตอนลุกไปล้างจานได้
  • มีไอเดียจะทำให้อีบุ๊กกลายเป็นหนังสือเสียงด้วยเสียงของผู้บรรยายหนังสือเสียงบางคนโดยเฉพาะ

    • ได้แรงบันดาลใจจากโปรเจกต์ Infinite Conversation แต่ยังไม่ได้ลงมือทำ
  • เคยลองโมเดล TTS หลายตัว แต่ส่วนใหญ่คุณภาพธรรมดา ใช้งานบน Mac ไม่ได้ หรือช้ามาก

    • โมเดลนี้เร็ว ติดตั้งง่าย และให้เสียงที่ใช้ได้ดี
    • จะไม่อ่านหนังสือที่ไม่มีเวอร์ชันหนังสือเสียง
    • เคยใช้ elevenlabs มาก่อน แต่ราคาสำหรับใช้งานส่วนตัวแพงเกินไป
  • ในปี 2025 น่าจะสามารถใช้โครงข่ายประสาทเทียมสร้างหนังสือเสียงที่มีดนตรีประกอบ เอฟเฟกต์เสียง และการบรรยายแบบดราม่าได้

  • "kokoro" ในภาษาญี่ปุ่นหมายถึง "หัวใจ"

  • อยากให้มีปลั๊กอินเพิ่มเข้าไปในซอฟต์แวร์จัดการอีบุ๊ก Calibre เพื่อให้แปลงชื่อเรื่องที่เลือกในไลบรารี epub เป็นเวอร์ชันเสียงได้อย่างง่ายดาย

  • พอเพิ่มอาร์กิวเมนต์ความเร็วแบบปรับได้เข้าไปแล้วก็พอใจมาก