WhisperSpeech – ระบบสังเคราะห์เสียงโอเพนซอร์สที่สร้าง Whisper ย้อนกลับ

(github.com/collabora)

10 คะแนน โดย GN⁺ 2024-01-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ภาพรวมของ WhisperSpeech

WhisperSpeech เป็นระบบ text-to-speech แบบโอเพนซอร์สที่สร้างขึ้นด้วยการสร้าง Whisper ย้อนกลับ
โมเดลนี้ออกแบบมาให้ทรงพลังและปรับแต่งได้ง่าย อีกทั้งสามารถใช้งานเชิงพาณิชย์ได้อย่างปลอดภัย
ปัจจุบันโมเดลฝึกจากชุดข้อมูลภาษาอังกฤษ LibreLight และในรีลีสถัดไปมีแผนจะรองรับหลายภาษา

อัปเดตความคืบหน้า [2024-01-18]

ตลอดหนึ่งสัปดาห์ที่ผ่านมา มุ่งเน้นการปรับแต่งประสิทธิภาพการอนุมาน
ด้วยการรวม torch.compile, การเพิ่ม kv-caching และการปรับบางเลเยอร์ ทำให้ขณะนี้ทำงานได้เร็วกว่าเรียลไทม์ 12 เท่าบน 4090 สำหรับผู้บริโภค
เพิ่มความสามารถในการผสมหลายภาษาในประโยคเดียว
เพิ่มวิธีที่ช่วยให้ทดสอบการโคลนเสียงได้ง่ายขึ้น

อัปเดตความคืบหน้า [2024-01-10]

เปิดตัวโมเดล SD S2A ใหม่ที่สร้างเสียงได้เร็วขึ้นพร้อมคุณภาพสูง
เพิ่มตัวอย่างการโคลนเสียงโดยอ้างอิงจากไฟล์เสียงต้นแบบ

อัปเดตความคืบหน้า [2023-12-10]

เพิ่มโมเดลใหม่ 3 ตัวที่รองรับภาษาอังกฤษและภาษาโปแลนด์
มีตัวอย่างเสียงใหม่ให้ใช้งาน และสามารถลองได้โดยตรงบน Colab

ดาวน์โหลด

แนะนำให้ใช้ลิงก์ Google Colab เป็นจุดเริ่มต้น หรือรันโน้ตบุ๊กที่ให้มาในเครื่องโลคัล
หากต้องการดาวน์โหลดด้วยตนเองหรือฝึกโมเดลตั้งแต่ต้น สามารถใช้โมเดลที่ฝึกไว้ล่วงหน้าและชุดข้อมูลที่แปลงแล้วของ WhisperSpeech บน HuggingFace ได้

โรดแมป

รวบรวมชุดข้อมูลเสียงเชิงอารมณ์ที่มีขนาดใหญ่ขึ้น
ค้นหาวิธีควบคุมการสร้างตามอารมณ์และน้ำเสียง
สร้างความร่วมมือจากชุมชนเพื่อรวบรวมเสียงที่ใช้งานได้อย่างเสรีในหลายภาษา
ฝึกโมเดลหลายภาษาขั้นสุดท้าย

สถาปัตยกรรม

ใช้สถาปัตยกรรมทั่วไปที่คล้ายกับ AudioLM, SPEAR TTS และ MusicGen
สร้างบนพื้นฐานของโมเดลโอเพนซอร์สที่ทรงพลัง ได้แก่ Whisper ของ OpenAI สำหรับการสร้าง semantic token และการถอดความ, EnCodec ของ Meta สำหรับ acoustic modeling และ Vocos ของ Charactr Inc ในฐานะ vocoder คุณภาพสูง

คำขอบคุณ

งานนี้เกิดขึ้นได้ด้วยการสนับสนุนจาก Collabora, LAION, Jülich Supercomputing Centre และความช่วยเหลือจากผู้มีส่วนร่วมรายบุคคล

การให้คำปรึกษา

สามารถให้ความช่วยเหลือเกี่ยวกับโครงการ AI แบบโอเพนซอร์สและแบบปิดได้

การอ้างอิง

อาศัยโครงการโอเพนซอร์สและงานวิจัยจำนวนมากที่ยอดเยี่ยม

ความเห็นของ GN⁺

WhisperSpeech เป็นโครงการโอเพนซอร์สด้านการสังเคราะห์เสียงที่โดดเด่น โดยนำเสนอโมเดล text-to-speech ที่ทรงพลัง รองรับหลายภาษา และปลอดภัยสำหรับการใช้งานเชิงพาณิชย์
ใช้เทคโนโลยีล่าสุดเพื่อให้ได้ประสิทธิภาพที่เร็วกว่าเรียลไทม์อย่างมาก และเข้าถึงการทดสอบฟีเจอร์ขั้นสูงอย่างการโคลนเสียงได้ง่าย
โครงการนี้เติบโตบนพื้นฐานของชุมชน และมีเป้าหมายขยายไปสู่หลายภาษาพร้อมการสร้างเสียงที่มีองค์ประกอบทางอารมณ์ จึงคาดว่าจะมีบทบาทสำคัญต่ออนาคตของเทคโนโลยีเสียง

1 ความคิดเห็น

GN⁺ 2024-01-19

ความคิดเห็นจาก Hacker News

โปรเจกต์โมเดล ASR หลายภาษาของ Whisper
- โมเดล ASR หลายภาษาของ Whisper ถูกฝึกด้วยข้อมูลขนาดมหาศาล ทำให้เอาต์พุตของตัวเข้ารหัสสะท้อนเนื้อหาความหมายของเสียงพูดได้ดี
- ตัวเข้ารหัสนี้สามารถใช้เป็นตัวแทนโอเพนซอร์สของ semantic encoder ในสถาปัตยกรรมโมเดลอย่าง SPEAR-TTS/VALL-E ได้
- โทเคนเสียงที่คาดการณ์ได้จะถูกอัปแซมเปิล/ลดสัญญาณรบกวน/ปรับปรุงด้วย Vocos vocoder
- ปัจจุบันคอขวดหลักคือการขาดแคลนกำลังคนที่จำเป็นต่อการจัดหาและคัดกรองชุดข้อมูลที่เหมาะสม
ความเห็นจากผู้พัฒนา WhisperSpeech
- ผู้พัฒนาได้ทำงานอย่างหนักมาหลายเดือนเพื่อปรับปรุงโมเดล แต่ก็ยังมีพื้นที่ให้พัฒนาอีกมาก
- ด้วยการสนับสนุนจาก Collabora โครงการนี้จึงเป็นโอเพนซอร์สอย่างแท้จริง และต้องการช่วยเหลือผู้ที่อยากปรับปรุงหรือนำไปผสานรวม
- หากต้องการใช้งานในเชิงธุรกิจ สามารถซื้อบริการสนับสนุนด้านวิศวกรรมได้
ความสนใจต่อการสังเคราะห์เสียงภาษาจีน
- มีความสนใจในประสิทธิภาพของการสังเคราะห์เสียงภาษาจีน โดยเฉพาะด้านน้ำเสียงและการถ่ายทอดอารมณ์
- EmotiVoice เป็นโมเดลโอเพนซอร์สที่มีคุณภาพดีที่สุดเท่าที่เคยเห็นมา และได้ทำ CLI wrapper เพื่อใช้สร้างเสียงสำหรับแฟลชการ์ด
- สามารถใช้ EmotiVoice โคลนเสียงของตนเองด้วย GPU ได้ แต่ยังไม่ได้ทดสอบ
การกล่าวถึง Mimic 3 ของ Mycroft
- Mimic 3 ของ Mycroft ไม่ได้ใช้เทคโนโลยีล่าสุด แต่ก็ยังน่าประทับใจ และมีขนาดเล็กพอที่จะสร้างเสียงแบบเรียลไทม์บน Raspberry Pi ได้
- เสียงบางเสียงดีกว่าเสียงอื่น ๆ และอยู่ในระดับเดียวกับตัวอย่างของ WhisperSpeech
คำถามเกี่ยวกับโมเดลที่อิง International Phonetic Alphabet (IPA)
- มีคำถามเกี่ยวกับการพัฒนา/ความคืบหน้าของโมเดลที่อิง IPA
- วิธีนี้อาจมีประโยชน์สำหรับการเปลี่ยนเสียงให้มีสำเนียงต่างออกไปหรือรองรับหลายภาษา
- สำหรับโมเดลอย่างเสียงของ MBROLA สามารถทำได้อย่างจำกัดโดยการแมปหน่วยเสียงของภาษาหนึ่งไปยังอีกภาษาหนึ่ง
- แนวทางแบบ IPA อาจช่วยให้เรียนรู้คุณภาพเสียงและการเปลี่ยนแปลงของโทนเสียงได้ดีขึ้น
ข้อสังเกตเกี่ยวกับการฝึกเสียงแบบกำหนดเองด้วย Piper
- หลังจากดูวิดีโอการฝึกเสียงแบบกำหนดเองด้วย Piper ก็พบว่าเมทาดาทาที่จำเป็นสำหรับชุดข้อมูลคือข้อความของไฟล์เสียงต้นทาง
- วิธีการฝึกของ Collabora ทำให้กระบวนการนี้เป็นอัตโนมัติ และต้องใช้เพียงไฟล์เสียงสำหรับการฝึก
การประเมินตัวอย่างภาษาโปแลนด์
- ตัวอย่างภาษาโปแลนด์ดีมาก และฟังเหมือนการบันทึกหนังสือเสียง
คำถามเกี่ยวกับความสามารถในการปรับเสียง
- สนใจความสามารถในการปรับเสียงเมื่อนำ TTS ไปใช้กับระบบแชต
- ต้องการเสียงที่แตกต่างกันให้มากที่สุด เพื่อให้ผู้ใช้แต่ละคนมีเสียงเฉพาะตัว
ข้อกังขาเกี่ยวกับเดโมที่ฝึกด้วยคลิปคุณภาพต่ำของ Winston Churchill
- มีการตั้งข้อสงสัยกับเดโมที่ฝึกด้วยคลิปเสียงคุณภาพต่ำในลักษณะว่า “ขยะเข้า ก็ขยะออก”
การประเมินเชิงบวกต่อ TTS
- เป็น TTS ที่ดีที่สุดเท่าที่เคยได้ยินมา และมีการดัดแปลงน้ำเสียงที่ฟังดูเหมือนมนุษย์

WhisperSpeech – ระบบสังเคราะห์เสียงโอเพนซอร์สที่สร้าง Whisper ย้อนกลับ

ภาพรวมของ WhisperSpeech

อัปเดตความคืบหน้า [2024-01-18]

อัปเดตความคืบหน้า [2024-01-10]

อัปเดตความคืบหน้า [2023-12-10]

ดาวน์โหลด

โรดแมป

สถาปัตยกรรม

คำขอบคุณ

การให้คำปรึกษา

การอ้างอิง

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News