Google Universal Speech Model - โมเดลสำหรับการรู้จำเสียงพูดของทุกภาษา
(sites.research.google)- โมเดลขนาด 2 พันล้านพารามิเตอร์ ที่ฝึกด้วยเสียงพูด 12 ล้านชั่วโมง, ประโยค 2.8 หมื่นล้านประโยค และ 300 ภาษา
- สามารถทำการรู้จำเสียงพูดได้ทั้งภาษาที่เป็นที่รู้จักดีไปจนถึงภาษาที่มีผู้ใช้น้อย
- รวมถึงภาษาที่มีผู้ใช้ต่ำกว่า 20 ล้านคน จนหาข้อมูลสำหรับฝึกได้ยาก
- จากผลการประเมินด้วยวิดีโอบน YouTube พบว่ามีอัตราความผิดพลาดของคำต่ำกว่า Whisper(OpenAI)
1 ความคิดเห็น
Whisper - ระบบรู้จำเสียงพูดหลายภาษาที่ OpenAI เปิดซอร์ส
OpenAI เปิดตัวโมเดล Whisper v2
แม้ว่าประสิทธิภาพจะบอกว่าดี แต่ตอนนี้เปิดเผยแค่ตัวงานวิจัยกับ API เท่านั้น ดังนั้น Whisper ที่เปิดซอร์สจึงดูจะยังนำไปใช้งานได้ดีกว่าอยู่ครับ