1 คะแนน โดย GN⁺ 2023-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำโครงการ Mozilla Common Voice

  • Mozilla Common Voice เป็นโครงการที่ช่วยให้เครื่องจักรเรียนรู้ว่าผู้คนจริง ๆ พูดกันอย่างไร
  • เพื่อให้เทคโนโลยีเสียงสามารถใช้งานได้จริง นักพัฒนาจำเป็นต้องมีข้อมูลเสียงจำนวนมหาศาล
  • ข้อมูลส่วนใหญ่ถูกถือครองโดยบริษัทขนาดใหญ่และคนส่วนมากเข้าถึงไม่ได้ จึงถูกมองว่าเป็นอุปสรรคต่อการสร้างนวัตกรรม

สถานะการบันทึกและตรวจสอบข้อมูลเสียง

  • จนถึงตอนนี้มีการบันทึกเสียงแล้ว 29,000 ชั่วโมง และในจำนวนนั้นมี 18,000 ชั่วโมงที่ได้รับการตรวจสอบแล้ว

การรองรับหลายภาษา

  • โครงการ Common Voice รองรับภาษาที่หลากหลายจากทั่วโลก และผู้ใช้สามารถมีส่วนร่วมในภาษาของตนเองได้

สนับสนุนการสร้างชุดข้อมูลเปิดคุณภาพสูง

  • สามารถร่วมโครงการได้โดยไม่ต้องสร้างโปรไฟล์ แต่สามารถเพิ่มข้อมูลประชากรศาสตร์แบบไม่ระบุตัวตนเพื่อทำให้ข้อมูลที่ส่งมามีความสมบูรณ์ยิ่งขึ้น
  • ข้อมูลโปรไฟล์ช่วยยกระดับคุณภาพของข้อมูลเสียงที่ใช้ฝึกความแม่นยำของการรู้จำเสียงพูด
  • ผู้ใช้สามารถติดตามความคืบหน้าและตัวชี้วัดของตนเองข้ามหลายภาษาได้
  • สามารถเปรียบเทียบความคืบหน้ากับผู้ร่วมโครงการคนอื่น ๆ ทั่วโลกได้
  • สามารถตรวจสอบความคืบหน้าต่อเป้าหมายส่วนตัวและเป้าหมายของโครงการได้
  • หากต้องการ สามารถเลือกสมัครเข้ารายชื่ออีเมลเพื่อรับอัปเดตของโครงการและข้อมูลใหม่ ๆ ได้

ความเห็นของ GN⁺

สิ่งที่สำคัญที่สุดในบทความนี้คือ Mozilla ได้เริ่มโครงการ Common Voice เพื่อจัดหาข้อมูลเสียงขนาดใหญ่ที่จำเป็นให้แก่นักพัฒนาที่ต้องการพัฒนาเทคโนโลยีรู้จำเสียงพูด โครงการนี้แสดงให้เห็นถึงความพยายามของ Mozilla ในการส่งเสริมนวัตกรรมทางเทคโนโลยี และด้วยการรองรับภาษาที่หลากหลายจากทั่วโลก จึงเปิดโอกาสให้ผู้คนจำนวนมากมีส่วนร่วมต่อความก้าวหน้าทางเทคโนโลยี สิ่งนี้สะท้อนปรัชญาของ Mozilla ที่มุ่งสู่การทำให้เทคโนโลยีเป็นของทุกคน และจะเป็นโครงการริเริ่มที่น่าสนใจและน่าดึงดูดสำหรับผู้คนจำนวนมาก

1 ความคิดเห็น

 
GN⁺ 2023-12-08
ความเห็นจาก Hacker News
    • TTS ของ FF เป็นโครงการสำคัญสำหรับคนที่ต้องการระบบแปลงข้อความเป็นเสียงที่ใช้งานง่าย มันฝังมาในเบราว์เซอร์ จึงสามารถรันโค้ดง่าย ๆ ในคอนโซลเพื่อฟังตัวอย่าง TTS ได้หลากหลาย บางเบราว์เซอร์ใช้งานแบบออฟไลน์ได้ แต่บางตัวใช้ระบบ TTS บนคลาวด์
    • Common Voice Android เป็นแอปที่มีประโยชน์สำหรับคนที่อยากมีส่วนร่วมกับโครงการ ผู้ใช้สามารถอัดเสียงด้วยภาษาที่ตนพูดได้ และตรวจสอบผลงานที่ผู้ใช้อื่นส่งเข้ามาได้ ตัวแอปมีดีไซน์ที่ใช้งานง่ายกว่าเวอร์ชันเว็บไซต์ทางการ
    • ชุดข้อมูลแบบ crowdsourcing อาจกลายเป็นวิธีเดียวในการสร้าง foundation model หากศาลตัดสินว่าการกระทำของบริษัทอย่าง OpenAI ไม่เข้าข่าย fair use และความเป็นไปได้ที่สถานการณ์แบบนี้จะเกิดขึ้นก็ไม่ได้ต่ำ
    • แม้ว่าชุดข้อมูลนี้จะเล็กกว่าชุดที่โมเดลเสียงยุคใหม่ใช้ฝึกกันมาก แต่ถูกออกแบบมาสำหรับ supervised learning มากกว่าการเรียนรู้แบบ self-supervised และยังมีประโยชน์สำหรับการ fine-tuning เพื่อเพิ่มประสิทธิภาพของโมเดลในภาษาเฉพาะ
    • เมื่อพิจารณาจากเหตุการณ์ล่าสุดเกี่ยวกับ AI และเทคโนโลยี deepfake ก็จำเป็นต้องมีหลักประกันบางอย่างก่อนจะยินยอม "บริจาคเสียงของฉัน" ให้กับโครงการแบบนี้ และยังไม่ชัดเจนว่าโครงการนี้มีไว้เพื่อการรู้จำเสียงหรือการสร้างเสียง
    • สงสัยว่า Mozilla เคยยกเลิกซอฟต์แวร์เสียงเป็นข้อความที่เกี่ยวข้องกัน หรือย้ายไปให้บริษัทอื่นหรือไม่ หรือจริง ๆ แล้วเป็นอีกโครงการหนึ่ง
    • ทำไมฟีเจอร์แปลงข้อความเป็นเสียงใน Reader Mode ของ Firefox บน Linux ถึงแย่มาก? มันแย่ยิ่งกว่าระบบแปลงข้อความเป็นเสียงของ Stephen Hawking เสียอีก
    • เคยหวังว่า OpenAI จะเปิดกว้างอย่างแท้จริง แต่ตอนนี้กลับกลายเป็นหุ่นเชิดของ Microsoft ที่ไล่ตามเป้าหมายผลประโยชน์ทางธุรกิจ โครงการแบบนี้รวมถึง HuggingFace ดูน่ายินดี และหวังว่า HuggingFace จะไม่ถูก Microsoft เข้าซื้อเหมือน GitHub
    • ในบรรดาคนที่นี่ มีสักกี่คนที่ "เสียงตอนอ่านหนังสือ" ต่างจากเสียงตอนคุยตามปกติ? ถ้าข้อมูลฝึกส่วนใหญ่ฟังดูเหมือน "อ่านตามสคริปต์" จะยังฝึก conversational model ได้หรือไม่
    • มีการให้ลิงก์ข่าวที่เกี่ยวข้องไว้ ซึ่งให้ข้อมูลเกี่ยวกับความคืบหน้าของโครงการ Mozilla Common Voice และการขยายตัวของชุดข้อมูลเสียง