Awesome การรู้จำเสียงพูดภาษาเกาหลี
(github.com/rtzr)(ดูเหมือนจะเหมาะกับ SHOW มากกว่า แต่เพราะไม่ใช่สิ่งที่ผมสร้างเอง จึงโพสต์ใน NEWS แทน)
====
นี่คือรีโพซิทอรีที่วัดอัตราความผิดพลาด (Character Error Rate) ของชุดทดสอบหลากหลายชุดที่ AI-Hub เปิดเผยไว้ แยกตาม API การรู้จำเสียงพูด โดยใช้ API ของเว็บไซต์สำหรับนักพัฒนาที่สามารถทดลองใช้การรู้จำเสียงพูดภาษาเกาหลีได้ รีโพซิทอรีนี้ครอบคลุมเนื้อหาดังต่อไปนี้
- วัดอัตราความผิดพลาด (Character Error Rate) ของชุดทดสอบ AI Hub โดยใช้ API การรู้จำเสียงพูดหลากหลายเจ้า เช่น Return Zero, Google, OpenAI Whisper, ETRI และ Naver
- แนะนำวิธีการประเมินผลการรู้จำเสียงพูดภาษาเกาหลี
====
โปรเจกต์นี้เปิดเผยต่อสาธารณะเพื่อประเมินประสิทธิภาพของ API การรู้จำเสียงพูดหลากหลายแบบอย่างเป็นกลาง โดยมีเป้าหมายเพื่อวิเคราะห์ความแตกต่างด้านประสิทธิภาพของบริการการรู้จำเสียงพูดต่าง ๆ ที่มีอยู่ในตลาด และช่วยให้ผู้ใช้กับนักพัฒนาเข้าถึงข้อมูลได้ดียิ่งขึ้น
ข้อมูลที่เผยแพร่ในรูปแบบงานวิจัยมักประเมินประสิทธิภาพเฉพาะภาษาอังกฤษ และเปิดเผยค่า WER (Word Error Rate) ไว้ที่ paperswithcode แต่สำหรับการรู้จำเสียงพูดภาษาเกาหลี การประเมินด้วย CER (Character Error Rate) เหมาะสมกว่า ไม่ใช่ WER ทว่ากลับหา leaderboard ที่จัดระเบียบไว้อย่างดีได้ยาก
KsponSpeech ถูกเผยแพร่ครั้งแรกในปี 2018 แต่เนื่องจาก AI-Hub เปิดให้เข้าถึงได้เฉพาะคนในประเทศ และมีชาวเกาหลีที่ทำวิจัยและพัฒนาด้านการรู้จำเสียงพูดอยู่ไม่มาก จึงไม่สามารถเผยแพร่เป็นทรัพยากรในรูปแบบที่หลากหลายได้
Return Zero ได้วิจัยและพัฒนาการรู้จำเสียงพูดด้วยตนเอง พร้อมทั้งมีส่วนช่วยให้ผู้คนจำนวนมากเข้าถึงทรัพยากรเหล่านี้ได้ โดยได้ contribute ให้กับ speechbrain ซึ่งเป็นเครื่องมือที่ใช้กันมากในวงการการรู้จำเสียงพูด ทำให้ปัจจุบันสามารถใช้งานได้ใน recipe เวอร์ชันล่าสุด และยังช่วยให้เข้าถึงได้ผ่าน huggingface อีกด้วย
ช่วงหลังมานี้ มีการเปิดเผยข้อมูลเสียงหลากหลายประเภทบน AI-Hub และผู้เขียนเห็นว่าการประเมินและเผยแพร่ว่าเอนจินการรู้จำเสียงพูดภาษาเกาหลีพัฒนาไปถึงระดับใดแล้วบนชุดข้อมูลที่หลากหลายเหล่านี้ จะเป็นประโยชน์ต่อความก้าวหน้าของการรู้จำเสียงพูดภาษาเกาหลี
ยังไม่มีความคิดเห็น