10 คะแนน โดย GN⁺ 2024-01-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ภาพรวมของ WhisperSpeech

  • WhisperSpeech เป็นระบบ text-to-speech แบบโอเพนซอร์สที่สร้างขึ้นด้วยการสร้าง Whisper ย้อนกลับ
  • โมเดลนี้ออกแบบมาให้ทรงพลังและปรับแต่งได้ง่าย อีกทั้งสามารถใช้งานเชิงพาณิชย์ได้อย่างปลอดภัย
  • ปัจจุบันโมเดลฝึกจากชุดข้อมูลภาษาอังกฤษ LibreLight และในรีลีสถัดไปมีแผนจะรองรับหลายภาษา

อัปเดตความคืบหน้า [2024-01-18]

  • ตลอดหนึ่งสัปดาห์ที่ผ่านมา มุ่งเน้นการปรับแต่งประสิทธิภาพการอนุมาน
  • ด้วยการรวม torch.compile, การเพิ่ม kv-caching และการปรับบางเลเยอร์ ทำให้ขณะนี้ทำงานได้เร็วกว่าเรียลไทม์ 12 เท่าบน 4090 สำหรับผู้บริโภค
  • เพิ่มความสามารถในการผสมหลายภาษาในประโยคเดียว
  • เพิ่มวิธีที่ช่วยให้ทดสอบการโคลนเสียงได้ง่ายขึ้น

อัปเดตความคืบหน้า [2024-01-10]

  • เปิดตัวโมเดล SD S2A ใหม่ที่สร้างเสียงได้เร็วขึ้นพร้อมคุณภาพสูง
  • เพิ่มตัวอย่างการโคลนเสียงโดยอ้างอิงจากไฟล์เสียงต้นแบบ

อัปเดตความคืบหน้า [2023-12-10]

  • เพิ่มโมเดลใหม่ 3 ตัวที่รองรับภาษาอังกฤษและภาษาโปแลนด์
  • มีตัวอย่างเสียงใหม่ให้ใช้งาน และสามารถลองได้โดยตรงบน Colab

ดาวน์โหลด

  • แนะนำให้ใช้ลิงก์ Google Colab เป็นจุดเริ่มต้น หรือรันโน้ตบุ๊กที่ให้มาในเครื่องโลคัล
  • หากต้องการดาวน์โหลดด้วยตนเองหรือฝึกโมเดลตั้งแต่ต้น สามารถใช้โมเดลที่ฝึกไว้ล่วงหน้าและชุดข้อมูลที่แปลงแล้วของ WhisperSpeech บน HuggingFace ได้

โรดแมป

  • รวบรวมชุดข้อมูลเสียงเชิงอารมณ์ที่มีขนาดใหญ่ขึ้น
  • ค้นหาวิธีควบคุมการสร้างตามอารมณ์และน้ำเสียง
  • สร้างความร่วมมือจากชุมชนเพื่อรวบรวมเสียงที่ใช้งานได้อย่างเสรีในหลายภาษา
  • ฝึกโมเดลหลายภาษาขั้นสุดท้าย

สถาปัตยกรรม

  • ใช้สถาปัตยกรรมทั่วไปที่คล้ายกับ AudioLM, SPEAR TTS และ MusicGen
  • สร้างบนพื้นฐานของโมเดลโอเพนซอร์สที่ทรงพลัง ได้แก่ Whisper ของ OpenAI สำหรับการสร้าง semantic token และการถอดความ, EnCodec ของ Meta สำหรับ acoustic modeling และ Vocos ของ Charactr Inc ในฐานะ vocoder คุณภาพสูง

คำขอบคุณ

  • งานนี้เกิดขึ้นได้ด้วยการสนับสนุนจาก Collabora, LAION, Jülich Supercomputing Centre และความช่วยเหลือจากผู้มีส่วนร่วมรายบุคคล

การให้คำปรึกษา

  • สามารถให้ความช่วยเหลือเกี่ยวกับโครงการ AI แบบโอเพนซอร์สและแบบปิดได้

การอ้างอิง

  • อาศัยโครงการโอเพนซอร์สและงานวิจัยจำนวนมากที่ยอดเยี่ยม

ความเห็นของ GN⁺

  • WhisperSpeech เป็นโครงการโอเพนซอร์สด้านการสังเคราะห์เสียงที่โดดเด่น โดยนำเสนอโมเดล text-to-speech ที่ทรงพลัง รองรับหลายภาษา และปลอดภัยสำหรับการใช้งานเชิงพาณิชย์
  • ใช้เทคโนโลยีล่าสุดเพื่อให้ได้ประสิทธิภาพที่เร็วกว่าเรียลไทม์อย่างมาก และเข้าถึงการทดสอบฟีเจอร์ขั้นสูงอย่างการโคลนเสียงได้ง่าย
  • โครงการนี้เติบโตบนพื้นฐานของชุมชน และมีเป้าหมายขยายไปสู่หลายภาษาพร้อมการสร้างเสียงที่มีองค์ประกอบทางอารมณ์ จึงคาดว่าจะมีบทบาทสำคัญต่ออนาคตของเทคโนโลยีเสียง

1 ความคิดเห็น

 
GN⁺ 2024-01-19
ความคิดเห็นจาก Hacker News
  • โปรเจกต์โมเดล ASR หลายภาษาของ Whisper

    • โมเดล ASR หลายภาษาของ Whisper ถูกฝึกด้วยข้อมูลขนาดมหาศาล ทำให้เอาต์พุตของตัวเข้ารหัสสะท้อนเนื้อหาความหมายของเสียงพูดได้ดี
    • ตัวเข้ารหัสนี้สามารถใช้เป็นตัวแทนโอเพนซอร์สของ semantic encoder ในสถาปัตยกรรมโมเดลอย่าง SPEAR-TTS/VALL-E ได้
    • โทเคนเสียงที่คาดการณ์ได้จะถูกอัปแซมเปิล/ลดสัญญาณรบกวน/ปรับปรุงด้วย Vocos vocoder
    • ปัจจุบันคอขวดหลักคือการขาดแคลนกำลังคนที่จำเป็นต่อการจัดหาและคัดกรองชุดข้อมูลที่เหมาะสม
  • ความเห็นจากผู้พัฒนา WhisperSpeech

    • ผู้พัฒนาได้ทำงานอย่างหนักมาหลายเดือนเพื่อปรับปรุงโมเดล แต่ก็ยังมีพื้นที่ให้พัฒนาอีกมาก
    • ด้วยการสนับสนุนจาก Collabora โครงการนี้จึงเป็นโอเพนซอร์สอย่างแท้จริง และต้องการช่วยเหลือผู้ที่อยากปรับปรุงหรือนำไปผสานรวม
    • หากต้องการใช้งานในเชิงธุรกิจ สามารถซื้อบริการสนับสนุนด้านวิศวกรรมได้
  • ความสนใจต่อการสังเคราะห์เสียงภาษาจีน

    • มีความสนใจในประสิทธิภาพของการสังเคราะห์เสียงภาษาจีน โดยเฉพาะด้านน้ำเสียงและการถ่ายทอดอารมณ์
    • EmotiVoice เป็นโมเดลโอเพนซอร์สที่มีคุณภาพดีที่สุดเท่าที่เคยเห็นมา และได้ทำ CLI wrapper เพื่อใช้สร้างเสียงสำหรับแฟลชการ์ด
    • สามารถใช้ EmotiVoice โคลนเสียงของตนเองด้วย GPU ได้ แต่ยังไม่ได้ทดสอบ
  • การกล่าวถึง Mimic 3 ของ Mycroft

    • Mimic 3 ของ Mycroft ไม่ได้ใช้เทคโนโลยีล่าสุด แต่ก็ยังน่าประทับใจ และมีขนาดเล็กพอที่จะสร้างเสียงแบบเรียลไทม์บน Raspberry Pi ได้
    • เสียงบางเสียงดีกว่าเสียงอื่น ๆ และอยู่ในระดับเดียวกับตัวอย่างของ WhisperSpeech
  • คำถามเกี่ยวกับโมเดลที่อิง International Phonetic Alphabet (IPA)

    • มีคำถามเกี่ยวกับการพัฒนา/ความคืบหน้าของโมเดลที่อิง IPA
    • วิธีนี้อาจมีประโยชน์สำหรับการเปลี่ยนเสียงให้มีสำเนียงต่างออกไปหรือรองรับหลายภาษา
    • สำหรับโมเดลอย่างเสียงของ MBROLA สามารถทำได้อย่างจำกัดโดยการแมปหน่วยเสียงของภาษาหนึ่งไปยังอีกภาษาหนึ่ง
    • แนวทางแบบ IPA อาจช่วยให้เรียนรู้คุณภาพเสียงและการเปลี่ยนแปลงของโทนเสียงได้ดีขึ้น
  • ข้อสังเกตเกี่ยวกับการฝึกเสียงแบบกำหนดเองด้วย Piper

    • หลังจากดูวิดีโอการฝึกเสียงแบบกำหนดเองด้วย Piper ก็พบว่าเมทาดาทาที่จำเป็นสำหรับชุดข้อมูลคือข้อความของไฟล์เสียงต้นทาง
    • วิธีการฝึกของ Collabora ทำให้กระบวนการนี้เป็นอัตโนมัติ และต้องใช้เพียงไฟล์เสียงสำหรับการฝึก
  • การประเมินตัวอย่างภาษาโปแลนด์

    • ตัวอย่างภาษาโปแลนด์ดีมาก และฟังเหมือนการบันทึกหนังสือเสียง
  • คำถามเกี่ยวกับความสามารถในการปรับเสียง

    • สนใจความสามารถในการปรับเสียงเมื่อนำ TTS ไปใช้กับระบบแชต
    • ต้องการเสียงที่แตกต่างกันให้มากที่สุด เพื่อให้ผู้ใช้แต่ละคนมีเสียงเฉพาะตัว
  • ข้อกังขาเกี่ยวกับเดโมที่ฝึกด้วยคลิปคุณภาพต่ำของ Winston Churchill

    • มีการตั้งข้อสงสัยกับเดโมที่ฝึกด้วยคลิปเสียงคุณภาพต่ำในลักษณะว่า “ขยะเข้า ก็ขยะออก”
  • การประเมินเชิงบวกต่อ TTS

    • เป็น TTS ที่ดีที่สุดเท่าที่เคยได้ยินมา และมีการดัดแปลงน้ำเสียงที่ฟังดูเหมือนมนุษย์