5 คะแนน โดย GN⁺ 2024-01-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenVoice: เทคโนโลยีโคลนเสียงแบบฉับไวที่อเนกประสงค์

  • OpenVoice เป็นแนวทางการโคลนเสียงที่อเนกประสงค์ สามารถโคลนเสียงจากคลิปเสียงอ้างอิงสั้น ๆ และสร้างเสียงนั้นขึ้นมาในหลายภาษาได้
  • เทคโนโลยีนี้มีความยืดหยุ่นในการควบคุมสไตล์เสียง ไม่เพียงโคลนโทนสีของเสียงอ้างอิงได้เท่านั้น แต่ยังปรับรายละเอียดของสไตล์เสียงได้อย่างละเอียด เช่น อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และการขึ้นลงของเสียง
  • OpenVoice สามารถทำ zero-shot cross-lingual voice cloning ได้แม้กับภาษาที่ไม่ได้รวมอยู่ในชุดข้อมูลฝึกผู้พูดขนาดใหญ่

รายละเอียดทางเทคนิคและผลงานวิจัย

  • OpenVoice มีต้นทุนการคำนวณที่มีประสิทธิภาพกว่าระดับหลายสิบเท่าเมื่อเทียบกับ API เชิงพาณิชย์ที่ใช้งานได้ทั่วไป และยังให้ประสิทธิภาพที่ยอดเยี่ยม
  • เพื่อผลักดันความก้าวหน้าเพิ่มเติมในแวดวงวิจัย จึงเปิดให้เข้าถึงซอร์สโค้ดและโมเดลที่ฝึกแล้วได้แบบสาธารณะ
  • มีเว็บไซต์เดโมที่แสดงผลลัพธ์เชิงคุณภาพ และเวอร์ชันภายในก่อนเปิดเผยสู่สาธารณะถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกตั้งแต่เดือนพฤษภาคมถึงตุลาคม 2023

ความเห็นของ GN⁺

  • OpenVoice แสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญของเทคโนโลยีโคลนเสียง โดยเฉพาะความสามารถในการสร้างเสียงได้หลากหลายภาษาและหลากหลายสไตล์ ซึ่งถือว่านวัตกรรมอย่างมาก
  • เทคโนโลยีนี้มีศักยภาพในการประยุกต์ใช้ในหลายด้าน เช่น การศึกษา ความบันเทิง และบริการเสียงแบบเฉพาะบุคคล
  • ซอร์สโค้ดและโมเดลที่เปิดเผยออกมาคาดว่าจะช่วยเร่งการวิจัยด้านเทคโนโลยีเสียง

1 ความคิดเห็น

 
GN⁺ 2024-01-02
ความคิดเห็นจาก Hacker News
  • ผู้ใช้ชื่นชมผู้เขียนที่ทำให้โปรเจกต์นี้ลองใช้งานได้ง่าย อย่างไรก็ตาม สำหรับการโคลนเสียงทั่วไป ผู้ใช้พบว่าผลลัพธ์ยังไม่น่าพอใจ ผู้ใช้ให้อ่านย่อหน้าแรกของหน้าหนังสือบนวิกิพีเดียแล้วสร้างประโยคถัดไป แต่ผลลัพธ์ฟังดูเหมือนเสียงที่คอมพิวเตอร์สร้างขึ้น

    • อ้างอิงลิงก์ตัวอย่างเสียงที่ให้มาและลิงก์เสียงโคลน (แปลงเป็น mp3)
    • ติดตั้งแพ็กเกจที่ต้องใช้ด้วย pip และรัน demo_part1.ipynb โดยใช้ตัวอย่างเสียงของตนเอง ซึ่งแทบจะรันทันทีในโน้ตบุ๊ก
  • ผู้ใช้ขอคำแนะนำโปรเจกต์โอเพนซอร์สที่ดีสำหรับใช้โคลนเสียงบนฮาร์ดแวร์ของตนเอง และอยากทราบสถานะล่าสุดของโอเพนซอร์สด้านการโคลนเสียง

  • ผู้ใช้ถามว่าสามารถใช้เทคโนโลยีนี้ (หรือ Eleven Labs) เพื่อสร้างโมเดลเสียงที่นำไปปลั๊กอินกับ TTS ของโทรศัพท์ Android ได้หรือไม่

    • เพื่อนของผู้ใช้มีภาวะอัมพาตของกล่องเสียง จึงมักพิมพ์สื่อสารผ่านโทรศัพท์หรือโน้ตบุ๊กขนาดเล็ก หากเพื่อนสามารถใช้เสียงบันทึกเก่าของตัวเองเพื่อได้เสียง "ของตัวเอง" กลับคืนมาบางส่วนก็คงจะดี
  • ผู้ใช้ชอบงานวิจัยนี้ ให้ความรู้สึกแบบ "นี่คือสิ่งที่เราทำ และเราอยากช่วยให้คนอื่นทำได้เช่นกัน" โดยชื่นชมส่วน "Remark on Novelty" เป็นพิเศษ: จุดเด่นของ OpenVoice ไม่ใช่การประดิษฐ์ซับโมดูลของสถาปัตยกรรมโมเดล แต่เป็นการนำเสนอเฟรมเวิร์กแบบแยกส่วนที่แยกการควบคุมสไตล์เสียงและภาษาออกจากการโคลนโทนเสียง

  • มีการให้ลิงก์ GitHub และลิงก์เช็กพอยต์ (ไฟล์ zip) ผู้ใช้ไม่ชอบลิงก์ตรงไปยังไฟล์ zip ที่โฮสต์บน Amazon จึงแก้ลิงก์เช็กพอยต์แล้วนำมาให้

  • ผู้ใช้ประเมินว่าลิงก์ตัวอย่างที่ให้มาน่าประทับใจ

  • ผู้ใช้หวังว่า YouTube จะห้ามการใช้เทคโนโลยีนี้ หรืออย่างน้อยก็ควรมีความสามารถในการกรองวิดีโอประเภทนี้

  • ผู้ใช้เล่าว่าเมื่อโทรไปยังหนึ่งในธนาคารรายใหญ่ของสหราชอาณาจักร ธนาคารยังคงแนะนำให้สมัครโปรแกรม "เสียงของฉันคือรหัสผ่านของฉัน" ซึ่งในระดับความก้าวหน้าของ AI ปัจจุบัน เรื่องนี้ให้ความรู้สึกว่าเป็นเพียงความประมาท

  • ความคิดแรกและยังคงเป็นความคิดหลักของผู้ใช้คือ การใช้งานการโคลนเสียงในทางผิดศีลธรรมหรือทางอาชญากรรมมีมากกว่าการใช้งานที่ชอบธรรมอย่างมาก

  • ผู้นำปัจจุบันในวงการโคลนเสียงโอเพนซอร์สน่าจะเป็น RVC และผู้ใช้อยากเห็นว่ามันแตกต่างจากสิ่งนี้อย่างไร