Google Universal Speech Model - โมเดลสำหรับการรู้จำเสียงพูดของทุกภาษา

xguru · 2023-03-31T10:02:02+09:00

โมเดลขนาด 2 พันล้านพารามิเตอร์ ที่ฝึกด้วยเสียงพูด 12 ล้านชั่วโมง, ประโยค 2.8 หมื่นล้านประโยค และ 300 ภาษา สามารถทำการรู้จำเสียงพูดได้ทั้งภาษาที่เป็นที่รู้จักดีไปจนถึงภาษาที่มีผู้ใช้น้อย รวมถึงภาษาที่มีผู้ใช้ต่ำกว่า 20 ล้านคน จนหาข้อมูลสำหรับฝึกได้ยาก จากผลการประเมินด้วยวิดีโอบน YouTube พบว่ามีอัตราความผิดพลาดของคำต่ำกว่า Whisper(OpenAI)

(sites.research.google)

17 คะแนน โดย xguru 2023-03-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลขนาด 2 พันล้านพารามิเตอร์ ที่ฝึกด้วยเสียงพูด 12 ล้านชั่วโมง, ประโยค 2.8 หมื่นล้านประโยค และ 300 ภาษา
สามารถทำการรู้จำเสียงพูดได้ทั้งภาษาที่เป็นที่รู้จักดีไปจนถึงภาษาที่มีผู้ใช้น้อย
- รวมถึงภาษาที่มีผู้ใช้ต่ำกว่า 20 ล้านคน จนหาข้อมูลสำหรับฝึกได้ยาก
จากผลการประเมินด้วยวิดีโอบน YouTube พบว่ามีอัตราความผิดพลาดของคำต่ำกว่า Whisper(OpenAI)

1 ความคิดเห็น

xguru 2023-03-31

Whisper - ระบบรู้จำเสียงพูดหลายภาษาที่ OpenAI เปิดซอร์ส
OpenAI เปิดตัวโมเดล Whisper v2

แม้ว่าประสิทธิภาพจะบอกว่าดี แต่ตอนนี้เปิดเผยแค่ตัวงานวิจัยกับ API เท่านั้น ดังนั้น Whisper ที่เปิดซอร์สจึงดูจะยังนำไปใช้งานได้ดีกว่าอยู่ครับ

Google Universal Speech Model - โมเดลสำหรับการรู้จำเสียงพูดของทุกภาษา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น