Mozilla Common Voice แพลตฟอร์มชุดข้อมูลเสียงที่ขับเคลื่อนโดยชุมชน

(commonvoice.mozilla.org)

1 คะแนน โดย GN⁺ 2023-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Mozilla Common Voice เป็นแพลตฟอร์มโอเพนซอร์สฟรีที่ให้ชุมชนสร้างและแชร์ ชุดข้อมูลข้อความและเสียง ด้วยตนเอง เพื่อให้เทคโนโลยีเสียงใช้งานได้ในภาษาที่หลากหลายยิ่งขึ้น
ผู้ร่วมสมทบสามารถมีส่วนร่วมกับข้อมูล Scripted Speech, Spontaneous Speech และ Language Text ได้ผ่านการอ่านข้อความ ตรวจสอบการอ่านออกเสียง ตอบคำถาม ถอดเสียงพูด และเพิ่มข้อความ
แพลตฟอร์มรองรับชุมชนมากกว่า 290 ภาษา และมีชุดข้อมูลเสียงสาธารณะให้ใช้งานมากกว่า 130 ภาษา
ชุดข้อมูลสามารถนำไปใช้กับ ASR, STT, TTS และงาน NLP อื่น ๆ ได้ โดยสามารถดาวน์โหลดรีลีสใหม่ได้จาก Mozilla Data Collective
สมาชิก Mozilla Data Collective สามารถเข้าถึง ชุดข้อมูลทั่วโลกมากกว่า 500 ชุด ที่ชุมชนสร้างและใช้งาน ทำให้ศูนย์กลางของการจัดหาและแบ่งปันข้อมูลภาษาย้ายไปอยู่ที่นั่น

สิ่งที่ Common Voice ต้องการแก้ปัญหา

Mozilla Common Voice เป็น แพลตฟอร์มสร้างข้อมูล ที่ขับเคลื่อนโดยชุมชน
ทุกคนสามารถแชร์ สร้าง และคัดสรรชุดข้อมูลข้อความและเสียง เพื่ออนุรักษ์ ฟื้นฟู และขยายการใช้งานภาษาของตนเองได้
เป้าหมายคือให้ผู้คนสร้าง ชุดข้อมูลภาษา ที่จำเป็นด้วยตนเอง เพื่อไม่ให้ AI ทำงานได้เฉพาะกับบางภาษาเท่านั้น
Common Voice ดำเนินการโดยชุมชนทั่วโลก และกำลังขยายไปสู่มากกว่า 290 ภาษา

วิธีร่วมสมทบและการใช้ชุดข้อมูล

Scripted Speech
- ผู้ใช้สามารถร่วมสมทบเสียงในภาษาของตนเข้าสู่ชุดข้อมูลแบบเปิดที่ทุกคนมีส่วนร่วมได้ผ่านการอ่านข้อความ
- ผู้ใช้คนอื่นสามารถตรวจสอบการอ่านออกเสียงได้ที่ Validate Readings
Spontaneous Speech
- ผู้ใช้ตอบพรอมป์ต์เพื่อสร้างชุดข้อมูลใน บริบทที่เป็นธรรมชาติและเป็นภาษาพูด
- สามารถนำไปใช้ในรูปแบบที่เหมาะกับภาษาที่เน้นการสื่อสารด้วยเสียงเป็นหลัก
- สามารถมีส่วนร่วมในการถอดเสียงได้ผ่าน Transcribe answers และฟีเจอร์รีวิว
Language Text
- สามารถสร้างหรือแชร์พรอมป์ต์ ประโยค และข้อความในโดเมนสาธารณะได้
- ใช้ได้กับการแปล โมเดลภาษาขนาดเล็ก และงานอื่น ๆ
- รีลีสใหม่มีให้บน Mozilla Data Collective และเมื่อสมัครสมาชิกจะเข้าถึง ชุดข้อมูลทั่วโลกมากกว่า 500 ชุด ได้
- สามารถดูชุดข้อมูลเสียงสาธารณะมากกว่า 130 ภาษา ที่ใช้ในบริบทของ ASR, STT, TTS และ NLP อื่น ๆ ได้ที่ Explore datasets
- กลุ่มพาร์ตเนอร์แบ่งเป็นภาคประชาสังคมและนักวิจัย บริษัทเทคโนโลยี และองค์กรการกุศล
- ภาคประชาสังคมและนักวิจัยสามารถสร้าง โฮสต์ และแชร์ชุดข้อมูลที่มีอิมแพ็กต์ได้ฟรี
- บริษัทเทคโนโลยีสามารถลงทุนในการ สร้างชุดข้อมูลเปิด สำหรับระบบนิเวศ AI หลายภาษา
- องค์กรการกุศลสามารถสนับสนุนการสร้างชุดข้อมูลเพื่อการพัฒนาและนวัตกรรมในท้องถิ่น

1 ความคิดเห็น

GN⁺ 2023-12-08

ความคิดเห็นจาก Hacker News

TTS ของ Firefox เป็นโปรเจกต์สำคัญสำหรับคนที่ต้องการระบบแปลงข้อความเป็นเสียงที่ใช้งานได้ง่าย
เนื่องจากฝังอยู่ในเบราว์เซอร์ แค่รัน window.speechSynthesis และ SpeechSynthesisUtterance ในคอนโซล ก็สามารถฟังตัวอย่างเสียงหลายแบบได้ทันที
ขึ้นอยู่กับเบราว์เซอร์ บางตัวทำงานแบบออฟไลน์ได้ และบางตัวใช้ TTS บนคลาวด์
- บน macOS ใช้ say "enter text here" ได้ และถ้าต้องการเลือกเสียงอื่นให้ใช้ say -v Fred "enter text here" ส่วนรายการเสียงดูได้ด้วย say -v "?"
  ต้องใส่เครื่องหมายอัญประกาศเพื่อไม่ให้ ? ถูก ZSH ตีความเป็น glob
  แม้จะบอกว่า TTS ของ Firefox สำคัญ แต่ก่อนคอมเมนต์นี้ก็ไม่เคยรู้ด้วยซ้ำว่ามีอยู่ และฟีเจอร์แบบนี้ควรค้นพบได้ง่ายกว่านี้และมี API ที่เข้าถึงได้ดีกว่านี้
- ดูเหมือนว่า speechSynthesis จะรองรับไม่ใช่แค่ใน Firefox แต่รวมถึงเบราว์เซอร์หลักโดยทั่วไปด้วย: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- เมื่อไม่กี่วันก่อนลองใช้ Common Voice แล้วตัวอย่างหน้าชุมชนสำหรับคนที่อยากช่วยภาษาใดภาษาหนึ่งทำได้ดี
  ตอนนั้นกำลังคิดว่า Firefox เร็วมากจนควรกลับไปใช้ และถ้าคิดว่าเบราว์เซอร์อิสระที่ให้ความสำคัญกับความเป็นส่วนตัว ความปลอดภัย และความเป็นอิสระเป็นเรื่องสำคัญ คนที่เปลี่ยนเบราว์เซอร์ไปมาแบบไม่คิดมากก็ควรลองใช้ Firefox
  พอใจที่ได้กลับมาใช้ส่วนขยาย Firefox บางตัวซึ่งทำงานไม่เหมือนเดิมบนเบราว์เซอร์ฐาน Chrome
- ตอนดีบัก เคยลองให้ข้อความสำคัญที่ห้ามพลาดถูกอ่านออกเสียง โดยนอกจากส่งไปที่ stderr แล้ว ยังเรียกใช้ เสียง TTS ฟรีของ Windows ผ่าน PowerShell หรือเรียกผ่าน WebSocket ใน Chrome ซึ่งก็ค่อนข้างสนุก
  การมีเสียงให้เลือกมากขึ้นเป็นเรื่องดี
- สงสัยว่าสิ่งนี้เคยถูกแยกออกมาเป็น ไลบรารีอิสระ หรือไม่
  สถานะของ TTS แบบโอเพนซอร์สดูไม่ค่อยดีนัก และข้อมูลที่ต้องใช้สำหรับเสียงหนึ่งเสียงน่าจะเตรียมได้ยากกว่าการฝึกระบบรู้จำเสียงอย่าง Whisper
Common Voice Android ก็น่าแนะนำ: https://github.com/Sav22999/common-voice-android
เป็นแอปที่สะดวกสำหรับคนที่อยากมีส่วนร่วมกับโปรเจกต์ สามารถอัดเสียงในภาษาที่ตัวเองพูดได้ หรือช่วยตรวจสอบการมีส่วนร่วมของผู้ใช้อื่น
เมื่อราว 2 ปีก่อนเคยร่วมสมทบบ่อย ๆ และดีไซน์ใช้งานง่ายกว่าเว็บไซต์ทางการมาก
ยังมีช่อง Matrix ทางการของ Common Voice ด้วย: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
เมื่อดูเทคโนโลยี AI และดีปเฟก ในช่วงหลัง ก่อนจะ “บริจาคเสียงของฉัน” ให้ที่แบบนี้ คงต้องมีหลักประกันในระดับหนึ่ง
โปรเจกต์นี้ดูเหมือนทำเพื่อการรู้จำเสียง ไม่ใช่การสร้างเสียง แต่ดูครั้งแรกยังไม่ชัดเจน
- ไม่แน่ใจว่า “หลักประกัน” เป็นคำที่ถูกต้องไหม แต่ในแวดวงแมชชีนเลิร์นนิงและโมเดลเชิงกำเนิด ดูเหมือนท่าทีเรื่องการเคารพทรัพย์สินของผู้คนจะค่อนข้างหละหลวม จึงสะดุดกับสำนวนว่า “บริจาคเสียง”
  ถ้าเป็น Mozilla ก็น่าจะเป็นองค์กรที่เหมาะสม แต่ผลิตภัณฑ์หลักกำลังถดถอย และถ้าองค์กรหายไปก็ไม่รู้ว่าข้อมูลนั้นจะเป็นอย่างไร
  องค์กรที่กำลังตายมักถูกขายแยกเป็นชิ้น ๆ และข้อมูลนี้อาจกลายเป็น ทรัพย์สินทางปัญญา ที่บริษัทจำนวนมากซึ่งมีเป้าหมายสูงส่งน้อยกว่านี้สนใจ
- อยากรู้ว่าอยากเห็นหลักประกันแบบไหน
ชุดข้อมูลแบบคราวด์ซอร์ส เช่นนี้และชุดข้อมูลที่โปรเจกต์ OpenAssistant สร้างขึ้น อาจกลายเป็นแทบหนทางเดียวในการสร้างโมเดลพื้นฐาน หากศาลตัดสินว่าการกระทำของบริษัทอย่าง OpenAI ไม่เข้าข่ายการใช้งานโดยชอบธรรม
และก็ไม่ได้มองว่าสถานการณ์แบบนั้นมีโอกาสเกิดต่ำเป็นพิเศษ
ชุดข้อมูลนี้ เล็กกว่าหลายลำดับขั้น เมื่อเทียบกับข้อมูลที่โมเดลเสียงรุ่นใหม่อย่าง Whisper หรือ Seamless ใช้ฝึก และเป็นข้อมูลสำหรับการเรียนรู้แบบมีผู้สอน ไม่ใช่การเรียนรู้แบบกำกับตนเองที่มีข้อมูลมากกว่า แต่ก็ยังอาจมีประโยชน์
สามารถใช้ fine-tune โมเดลที่มีอยู่ให้ได้คะแนนดีขึ้นในบางภาษาได้
เหมือนว่า Mozilla เคยมี ซอฟต์แวร์รู้จำเสียง ที่เกี่ยวข้องอยู่ แล้วเลิกทำหรือย้ายไปบริษัทอื่นมาก่อนไม่ใช่หรือ
- หมายถึง DeepSpeech หรือเปล่า? https://github.com/mozilla/DeepSpeech
- สิ่งนี้เป็นชุดข้อมูลสาธารณะของตัวอย่างเสียงสำหรับฝึกโมเดล ดังนั้นพูดอย่างเคร่งครัดแล้วไม่ใช่ซอฟต์แวร์รู้จำเสียงหรือ TTS
ยอดเยี่ยมมาก
หนึ่งในสิ่งที่เคยคาดหวังจาก OpenAI คือการเป็นองค์กรที่เปิดอย่างแท้จริง
เคยหวังว่าจะมีชุดข้อมูลเปิด โค้ดเปิด โมเดลเปิด และการประเมินแบบเปิด แต่ตอนนี้กลายเป็นหุ่นเชิดของ Microsoft ที่ขับเคลื่อนด้วยเป้าหมายผลประโยชน์ของบริษัทไปแล้ว
โปรเจกต์แบบนี้และ HuggingFace ดูดี และหวังว่า HuggingFace จะไม่ถูก Microsoft ซื้อไปเหมือน GitHub
ถ้าอย่างนั้นก็ไม่เข้าใจว่าทำไม text2speech ในโหมดอ่านของ Firefox บน Linux ถึงแย่ขนาดนั้น
โหมดอ่านเองยอดเยี่ยม แต่คุณภาพเสียงแย่กว่า text-to-speech ของ Stephen Hawking มาก
โพสต์ HN ที่เกี่ยวข้อง:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - สิงหาคม 2021, ความคิดเห็น 170 รายการ
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - สิงหาคม 2020, ความคิดเห็น 154 รายการ
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - กรกฎาคม 2020, ความคิดเห็น 2 รายการ
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - มิถุนายน 2020, ความคิดเห็น 41 รายการ
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - พฤษภาคม 2020, ความคิดเห็น 1 รายการ
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - ธันวาคม 2019, ความคิดเห็น 9 รายการ
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - ตุลาคม 2019, ความคิดเห็น 49 รายการ
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - กุมภาพันธ์ 2019, ความคิดเห็น 61 รายการ
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - กรกฎาคม 2018, ความคิดเห็น 42 รายการ
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - พฤศจิกายน 2017, ความคิดเห็น 88 รายการ
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - กรกฎาคม 2017, ความคิดเห็น 57 รายการ
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - กรกฎาคม 2017, ความคิดเห็น 1 รายการ
สงสัยว่ามีกี่คนที่เวลา สนทนาปกติ เสียงพูดกับ เสียงอ่าน แตกต่างกัน
หากข้อมูลฝึกจำนวนมากเป็นเสียง “อ่านบท” แล้วโมเดลแบบสนทนาจะเรียนรู้ได้อย่างเหมาะสมจริงหรือ?
- ตอนทีม Mozilla Common Voice ขอความคิดเห็นก่อนเริ่ม ผม/ฉันเคยยกประเด็นนี้ขึ้นมาและเสนอแนวทางอื่นในการรวบรวม ข้อมูลเสียงสนทนา แต่ไม่ได้รับการนำไปใช้
  ความเชื่อที่ว่าข้อมูลจำนวนมากแต่คุณภาพหยาบ ๆ ดีกว่าข้อมูลจำนวนน้อยที่ตรงกับปัญหาที่อยากแก้จริง ๆ ดูเหมือนจะแพร่หลายพอสมควร

Mozilla Common Voice แพลตฟอร์มชุดข้อมูลเสียงที่ขับเคลื่อนโดยชุมชน

สิ่งที่ Common Voice ต้องการแก้ปัญหา

วิธีร่วมสมทบและการใช้ชุดข้อมูล

Scripted Speech

Spontaneous Speech

Language Text

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News