OpenVoice: เทคโนโลยีโคลนเสียงแบบฉับไวที่อเนกประสงค์
- OpenVoice เป็นแนวทางการโคลนเสียงที่อเนกประสงค์ สามารถโคลนเสียงจากคลิปเสียงอ้างอิงสั้น ๆ และสร้างเสียงนั้นขึ้นมาในหลายภาษาได้
- เทคโนโลยีนี้มีความยืดหยุ่นในการควบคุมสไตล์เสียง ไม่เพียงโคลนโทนสีของเสียงอ้างอิงได้เท่านั้น แต่ยังปรับรายละเอียดของสไตล์เสียงได้อย่างละเอียด เช่น อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และการขึ้นลงของเสียง
- OpenVoice สามารถทำ zero-shot cross-lingual voice cloning ได้แม้กับภาษาที่ไม่ได้รวมอยู่ในชุดข้อมูลฝึกผู้พูดขนาดใหญ่
รายละเอียดทางเทคนิคและผลงานวิจัย
- OpenVoice มีต้นทุนการคำนวณที่มีประสิทธิภาพกว่าระดับหลายสิบเท่าเมื่อเทียบกับ API เชิงพาณิชย์ที่ใช้งานได้ทั่วไป และยังให้ประสิทธิภาพที่ยอดเยี่ยม
- เพื่อผลักดันความก้าวหน้าเพิ่มเติมในแวดวงวิจัย จึงเปิดให้เข้าถึงซอร์สโค้ดและโมเดลที่ฝึกแล้วได้แบบสาธารณะ
- มีเว็บไซต์เดโมที่แสดงผลลัพธ์เชิงคุณภาพ และเวอร์ชันภายในก่อนเปิดเผยสู่สาธารณะถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกตั้งแต่เดือนพฤษภาคมถึงตุลาคม 2023
ความเห็นของ GN⁺
- OpenVoice แสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญของเทคโนโลยีโคลนเสียง โดยเฉพาะความสามารถในการสร้างเสียงได้หลากหลายภาษาและหลากหลายสไตล์ ซึ่งถือว่านวัตกรรมอย่างมาก
- เทคโนโลยีนี้มีศักยภาพในการประยุกต์ใช้ในหลายด้าน เช่น การศึกษา ความบันเทิง และบริการเสียงแบบเฉพาะบุคคล
- ซอร์สโค้ดและโมเดลที่เปิดเผยออกมาคาดว่าจะช่วยเร่งการวิจัยด้านเทคโนโลยีเสียง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้ใช้ชื่นชมผู้เขียนที่ทำให้โปรเจกต์นี้ลองใช้งานได้ง่าย อย่างไรก็ตาม สำหรับการโคลนเสียงทั่วไป ผู้ใช้พบว่าผลลัพธ์ยังไม่น่าพอใจ ผู้ใช้ให้อ่านย่อหน้าแรกของหน้าหนังสือบนวิกิพีเดียแล้วสร้างประโยคถัดไป แต่ผลลัพธ์ฟังดูเหมือนเสียงที่คอมพิวเตอร์สร้างขึ้น
demo_part1.ipynbโดยใช้ตัวอย่างเสียงของตนเอง ซึ่งแทบจะรันทันทีในโน้ตบุ๊กผู้ใช้ขอคำแนะนำโปรเจกต์โอเพนซอร์สที่ดีสำหรับใช้โคลนเสียงบนฮาร์ดแวร์ของตนเอง และอยากทราบสถานะล่าสุดของโอเพนซอร์สด้านการโคลนเสียง
ผู้ใช้ถามว่าสามารถใช้เทคโนโลยีนี้ (หรือ Eleven Labs) เพื่อสร้างโมเดลเสียงที่นำไปปลั๊กอินกับ TTS ของโทรศัพท์ Android ได้หรือไม่
ผู้ใช้ชอบงานวิจัยนี้ ให้ความรู้สึกแบบ "นี่คือสิ่งที่เราทำ และเราอยากช่วยให้คนอื่นทำได้เช่นกัน" โดยชื่นชมส่วน "Remark on Novelty" เป็นพิเศษ: จุดเด่นของ OpenVoice ไม่ใช่การประดิษฐ์ซับโมดูลของสถาปัตยกรรมโมเดล แต่เป็นการนำเสนอเฟรมเวิร์กแบบแยกส่วนที่แยกการควบคุมสไตล์เสียงและภาษาออกจากการโคลนโทนเสียง
มีการให้ลิงก์ GitHub และลิงก์เช็กพอยต์ (ไฟล์ zip) ผู้ใช้ไม่ชอบลิงก์ตรงไปยังไฟล์ zip ที่โฮสต์บน Amazon จึงแก้ลิงก์เช็กพอยต์แล้วนำมาให้
ผู้ใช้ประเมินว่าลิงก์ตัวอย่างที่ให้มาน่าประทับใจ
ผู้ใช้หวังว่า YouTube จะห้ามการใช้เทคโนโลยีนี้ หรืออย่างน้อยก็ควรมีความสามารถในการกรองวิดีโอประเภทนี้
ผู้ใช้เล่าว่าเมื่อโทรไปยังหนึ่งในธนาคารรายใหญ่ของสหราชอาณาจักร ธนาคารยังคงแนะนำให้สมัครโปรแกรม "เสียงของฉันคือรหัสผ่านของฉัน" ซึ่งในระดับความก้าวหน้าของ AI ปัจจุบัน เรื่องนี้ให้ความรู้สึกว่าเป็นเพียงความประมาท
ความคิดแรกและยังคงเป็นความคิดหลักของผู้ใช้คือ การใช้งานการโคลนเสียงในทางผิดศีลธรรมหรือทางอาชญากรรมมีมากกว่าการใช้งานที่ชอบธรรมอย่างมาก
ผู้นำปัจจุบันในวงการโคลนเสียงโอเพนซอร์สน่าจะเป็น RVC และผู้ใช้อยากเห็นว่ามันแตกต่างจากสิ่งนี้อย่างไร