- Massively Multilingual Speech
- โปรเจกต์สำหรับสร้างโมเดลเสียงแบบเดี่ยวที่รองรับหลายพันภาษา โดยก้าวข้ามโมเดลรู้จำเสียงที่เดิมรองรับเพียงประมาณ 100 ภาษา ไปสู่การรองรับมากกว่า 7,000 ภาษาที่ใช้งานอยู่บนโลก
- ให้บริการโมเดลรู้จำเสียงพูด (ASR) และโมเดลสังเคราะห์เสียงพูด (TTS) หลายภาษา 1100+ โมเดล, โมเดลระบุภาษา (LID) 4000+ โมเดล, และโมเดลพรีเทรนสำหรับภาษา 1400+ โมเดล
- มีเป้าหมายเพื่อให้ผู้คนสามารถเข้าถึงและใช้งานข้อมูลบนอุปกรณ์ของตนเองในภาษาที่ต้องการได้
- ในฐานะส่วนหนึ่งของโปรเจกต์ ได้สร้างชุดข้อมูลการอ่านพันธสัญญาใหม่สำหรับ 1,100 ภาษา โดยมีข้อมูลเฉลี่ยภาษาละ 32 ชั่วโมง และขยายภาษาที่ใช้งานได้เป็น 4,000 ภาษาโดยใช้บันทึกเสียงเอกสารคริสเตียนหลากหลายประเภทที่ไม่ได้ติดป้ายกำกับ
ไฟล์โมเดลที่ดาวน์โหลดได้
- โมเดลพรีเทรน: MMS-300M (3.5GB) และ MMS-1B (10GB)
- เปิดเผยโมเดลรู้จำเสียง ASR และดิกชันนารี: MMS-1B:FL102 (102 ภาษา, 4.5GB), MMS-1B:L1107 (1107 ภาษา, 13GB), MMS-1B-all(1162 ภาษา, 13.7GB)
- โมเดลสังเคราะห์เสียง TTS: ไฟล์ generator และ vocabulary แยกตาม 1107 ภาษา
- โมเดลระบุภาษา LID: 126, 256, 512, 1024, 2048, 4017 โมเดลและดิกชันนารี
3 ความคิดเห็น
ช่วงนี้มีโมเดลรู้จำเสียงและ TTS ออกมาเยอะเลยนะครับ
ดูเหมือนว่าอีกไม่นานประสิทธิภาพของสายนี้ก็น่าจะดีขึ้นอย่างมาก
แล้วถ้าเป็นคริสเตียน อัตราการรู้จำเสียงจะสูงขึ้นไหมนะ? 🤔
555
......