(ดูเหมือนจะเหมาะกับ SHOW มากกว่า แต่เพราะไม่ใช่สิ่งที่ผมสร้างเอง จึงโพสต์ใน NEWS แทน)

====

นี่คือรีโพซิทอรีที่วัดอัตราความผิดพลาด (Character Error Rate) ของชุดทดสอบหลากหลายชุดที่ AI-Hub เปิดเผยไว้ แยกตาม API การรู้จำเสียงพูด โดยใช้ API ของเว็บไซต์สำหรับนักพัฒนาที่สามารถทดลองใช้การรู้จำเสียงพูดภาษาเกาหลีได้ รีโพซิทอรีนี้ครอบคลุมเนื้อหาดังต่อไปนี้

  • วัดอัตราความผิดพลาด (Character Error Rate) ของชุดทดสอบ AI Hub โดยใช้ API การรู้จำเสียงพูดหลากหลายเจ้า เช่น Return Zero, Google, OpenAI Whisper, ETRI และ Naver
  • แนะนำวิธีการประเมินผลการรู้จำเสียงพูดภาษาเกาหลี

====

โปรเจกต์นี้เปิดเผยต่อสาธารณะเพื่อประเมินประสิทธิภาพของ API การรู้จำเสียงพูดหลากหลายแบบอย่างเป็นกลาง โดยมีเป้าหมายเพื่อวิเคราะห์ความแตกต่างด้านประสิทธิภาพของบริการการรู้จำเสียงพูดต่าง ๆ ที่มีอยู่ในตลาด และช่วยให้ผู้ใช้กับนักพัฒนาเข้าถึงข้อมูลได้ดียิ่งขึ้น

ข้อมูลที่เผยแพร่ในรูปแบบงานวิจัยมักประเมินประสิทธิภาพเฉพาะภาษาอังกฤษ และเปิดเผยค่า WER (Word Error Rate) ไว้ที่ paperswithcode แต่สำหรับการรู้จำเสียงพูดภาษาเกาหลี การประเมินด้วย CER (Character Error Rate) เหมาะสมกว่า ไม่ใช่ WER ทว่ากลับหา leaderboard ที่จัดระเบียบไว้อย่างดีได้ยาก

KsponSpeech ถูกเผยแพร่ครั้งแรกในปี 2018 แต่เนื่องจาก AI-Hub เปิดให้เข้าถึงได้เฉพาะคนในประเทศ และมีชาวเกาหลีที่ทำวิจัยและพัฒนาด้านการรู้จำเสียงพูดอยู่ไม่มาก จึงไม่สามารถเผยแพร่เป็นทรัพยากรในรูปแบบที่หลากหลายได้

Return Zero ได้วิจัยและพัฒนาการรู้จำเสียงพูดด้วยตนเอง พร้อมทั้งมีส่วนช่วยให้ผู้คนจำนวนมากเข้าถึงทรัพยากรเหล่านี้ได้ โดยได้ contribute ให้กับ speechbrain ซึ่งเป็นเครื่องมือที่ใช้กันมากในวงการการรู้จำเสียงพูด ทำให้ปัจจุบันสามารถใช้งานได้ใน recipe เวอร์ชันล่าสุด และยังช่วยให้เข้าถึงได้ผ่าน huggingface อีกด้วย

ช่วงหลังมานี้ มีการเปิดเผยข้อมูลเสียงหลากหลายประเภทบน AI-Hub และผู้เขียนเห็นว่าการประเมินและเผยแพร่ว่าเอนจินการรู้จำเสียงพูดภาษาเกาหลีพัฒนาไปถึงระดับใดแล้วบนชุดข้อมูลที่หลากหลายเหล่านี้ จะเป็นประโยชน์ต่อความก้าวหน้าของการรู้จำเสียงพูดภาษาเกาหลี

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น