ภาพรวมของ WhisperSpeech
- WhisperSpeech เป็นระบบ text-to-speech แบบโอเพนซอร์สที่สร้างขึ้นด้วยการสร้าง Whisper ย้อนกลับ
- โมเดลนี้ออกแบบมาให้ทรงพลังและปรับแต่งได้ง่าย อีกทั้งสามารถใช้งานเชิงพาณิชย์ได้อย่างปลอดภัย
- ปัจจุบันโมเดลฝึกจากชุดข้อมูลภาษาอังกฤษ LibreLight และในรีลีสถัดไปมีแผนจะรองรับหลายภาษา
อัปเดตความคืบหน้า [2024-01-18]
- ตลอดหนึ่งสัปดาห์ที่ผ่านมา มุ่งเน้นการปรับแต่งประสิทธิภาพการอนุมาน
- ด้วยการรวม
torch.compile, การเพิ่ม kv-caching และการปรับบางเลเยอร์ ทำให้ขณะนี้ทำงานได้เร็วกว่าเรียลไทม์ 12 เท่าบน 4090 สำหรับผู้บริโภค
- เพิ่มความสามารถในการผสมหลายภาษาในประโยคเดียว
- เพิ่มวิธีที่ช่วยให้ทดสอบการโคลนเสียงได้ง่ายขึ้น
อัปเดตความคืบหน้า [2024-01-10]
- เปิดตัวโมเดล SD S2A ใหม่ที่สร้างเสียงได้เร็วขึ้นพร้อมคุณภาพสูง
- เพิ่มตัวอย่างการโคลนเสียงโดยอ้างอิงจากไฟล์เสียงต้นแบบ
อัปเดตความคืบหน้า [2023-12-10]
- เพิ่มโมเดลใหม่ 3 ตัวที่รองรับภาษาอังกฤษและภาษาโปแลนด์
- มีตัวอย่างเสียงใหม่ให้ใช้งาน และสามารถลองได้โดยตรงบน Colab
ดาวน์โหลด
- แนะนำให้ใช้ลิงก์ Google Colab เป็นจุดเริ่มต้น หรือรันโน้ตบุ๊กที่ให้มาในเครื่องโลคัล
- หากต้องการดาวน์โหลดด้วยตนเองหรือฝึกโมเดลตั้งแต่ต้น สามารถใช้โมเดลที่ฝึกไว้ล่วงหน้าและชุดข้อมูลที่แปลงแล้วของ WhisperSpeech บน HuggingFace ได้
โรดแมป
- รวบรวมชุดข้อมูลเสียงเชิงอารมณ์ที่มีขนาดใหญ่ขึ้น
- ค้นหาวิธีควบคุมการสร้างตามอารมณ์และน้ำเสียง
- สร้างความร่วมมือจากชุมชนเพื่อรวบรวมเสียงที่ใช้งานได้อย่างเสรีในหลายภาษา
- ฝึกโมเดลหลายภาษาขั้นสุดท้าย
สถาปัตยกรรม
- ใช้สถาปัตยกรรมทั่วไปที่คล้ายกับ AudioLM, SPEAR TTS และ MusicGen
- สร้างบนพื้นฐานของโมเดลโอเพนซอร์สที่ทรงพลัง ได้แก่ Whisper ของ OpenAI สำหรับการสร้าง semantic token และการถอดความ, EnCodec ของ Meta สำหรับ acoustic modeling และ Vocos ของ Charactr Inc ในฐานะ vocoder คุณภาพสูง
คำขอบคุณ
- งานนี้เกิดขึ้นได้ด้วยการสนับสนุนจาก Collabora, LAION, Jülich Supercomputing Centre และความช่วยเหลือจากผู้มีส่วนร่วมรายบุคคล
การให้คำปรึกษา
- สามารถให้ความช่วยเหลือเกี่ยวกับโครงการ AI แบบโอเพนซอร์สและแบบปิดได้
การอ้างอิง
- อาศัยโครงการโอเพนซอร์สและงานวิจัยจำนวนมากที่ยอดเยี่ยม
ความเห็นของ GN⁺
- WhisperSpeech เป็นโครงการโอเพนซอร์สด้านการสังเคราะห์เสียงที่โดดเด่น โดยนำเสนอโมเดล text-to-speech ที่ทรงพลัง รองรับหลายภาษา และปลอดภัยสำหรับการใช้งานเชิงพาณิชย์
- ใช้เทคโนโลยีล่าสุดเพื่อให้ได้ประสิทธิภาพที่เร็วกว่าเรียลไทม์อย่างมาก และเข้าถึงการทดสอบฟีเจอร์ขั้นสูงอย่างการโคลนเสียงได้ง่าย
- โครงการนี้เติบโตบนพื้นฐานของชุมชน และมีเป้าหมายขยายไปสู่หลายภาษาพร้อมการสร้างเสียงที่มีองค์ประกอบทางอารมณ์ จึงคาดว่าจะมีบทบาทสำคัญต่ออนาคตของเทคโนโลยีเสียง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โปรเจกต์โมเดล ASR หลายภาษาของ Whisper
ความเห็นจากผู้พัฒนา WhisperSpeech
ความสนใจต่อการสังเคราะห์เสียงภาษาจีน
การกล่าวถึง Mimic 3 ของ Mycroft
คำถามเกี่ยวกับโมเดลที่อิง International Phonetic Alphabet (IPA)
ข้อสังเกตเกี่ยวกับการฝึกเสียงแบบกำหนดเองด้วย Piper
การประเมินตัวอย่างภาษาโปแลนด์
คำถามเกี่ยวกับความสามารถในการปรับเสียง
ข้อกังขาเกี่ยวกับเดโมที่ฝึกด้วยคลิปคุณภาพต่ำของ Winston Churchill
การประเมินเชิงบวกต่อ TTS