OpenVoice - เทคโนโลยีโคลนเสียงทันทีอเนกประสงค์

(research.myshell.ai)

13 คะแนน โดย GN⁺ 2024-03-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

วิธีการโคลนเสียงแบบทันทีอเนกประสงค์ที่สามารถโคลนเสียงของผู้พูดจากคลิปเสียงอ้างอิงสั้น ๆ เพียงคลิปเดียว และสร้างเสียงพูดได้หลายภาษา
สามารถควบคุมสไตล์เสียงได้อย่างละเอียด โดยโคลนได้ทั้งอารมณ์ น้ำเสียง จังหวะ การหยุด การลงเสียง รวมถึงโทนเสียงของผู้พูดอ้างอิง
สามารถโคลนเสียงข้ามภาษาแบบ zero-shot ได้ แม้สำหรับภาษาที่ไม่อยู่ในชุดข้อมูลฝึกผู้พูดขนาดใหญ่
ให้ประสิทธิภาพที่ยอดเยี่ยมด้วยต้นทุนการประมวลผลที่ต่ำกว่า API เชิงพาณิชย์ที่มีให้ใช้งานอยู่หลายสิบเท่า
สามารถโคลนโทนเสียงอ้างอิงได้อย่างแม่นยำ และสร้างเสียงพูดได้ในหลายภาษาและหลายสำเนียง
ทำให้สามารถควบคุมพารามิเตอร์ด้านสไตล์อื่น ๆ ได้อย่างละเอียด เช่น จังหวะ การหยุด และการลงเสียง นอกเหนือจากอารมณ์และน้ำเสียง

1 ความคิดเห็น

GN⁺ 2024-03-30

ความคิดเห็นบน Hacker News

ผู้ใช้ Hacker News คนหนึ่งแชร์ประสบการณ์ของตนเองพร้อมอธิบายวิธีรันเดโม Gradio ของ OpenVoice แบบโลคัล ผู้ใช้นี้ระบุว่าใช้ RTX 3090 แล้วสร้างเสียงได้เร็วกกว่า XTTS2 โดยใช้ VRAM ราว 1.5GB เดโมจำกัดไว้ที่ 200 ตัวอักษรเพื่อคำนึงถึงการใช้ทรัพยากร แต่บอกว่าทำงานได้เร็วกว่าเวลาจริง 8 เท่า นอกจากนี้ยังบอกว่าหลังจากแก้ไขเดโมเพื่อทดสอบกับข้อความที่ยาวขึ้น ก็สามารถเรนเดอร์เสียงความยาว 1 นาทีได้ในเวลาประมาณ 4 วินาที โดยประเมินว่าความชัดเจนของเสียงดีกว่า XTTS2 แต่ยังให้ความรู้สึกแปลก ๆ และคล้ายหุ่นยนต์เล็กน้อย。
ผู้ใช้อีกรายตั้งคำถามถึงกรณีใช้งานเชิงจริยธรรมของเทคโนโลยีโคลนเสียง ผู้ใช้นี้ยกตัวอย่างการใช้งานเชิงลบ เช่น สื่อลามก การขโมยตัวตน การสวมรอย การแทนที่นักพากย์ การขโมยเสียงของนักพากย์ และการปกปิดการใช้บอตในฝ่ายสนับสนุนลูกค้า อย่างไรก็ตาม แม้อาจมีกรณีใช้งานเชิงบวก เช่น มอบเสียงจริงให้กับผู้ที่สูญเสียเสียงของตนไป แต่ก็โต้แย้งว่าตลาดลักษณะนี้ไม่น่าจะมากพอจะทำให้การลงทุนคุ้มค่า
มีผู้ใช้คนหนึ่งแชร์ข้อมูลว่า OpenVoice อยู่อันดับต่ำเป็นอันดับสองบนลีดเดอร์บอร์ดการแข่งขัน Huggingface TTS โดยระบุว่าทางเลือกอย่าง styletts2 และ xtts2 มีอันดับสูงกว่า OpenVoice มาก
มีผู้ใช้ที่รู้สึกแปลกใจที่การเลียนเสียงของ Elon Musk ถูกใช้เป็นหลักฐานเรื่องคุณภาพ เพราะในความเป็นจริงเสียงของ Musk เองก็มักฟังดูแปลกและสะดุดอยู่แล้ว จึงมองว่าน่าจะเลียนเสียงที่ดีกว่านี้ได้
มีผู้ใช้แจ้งข่าวว่า Voicecraft ได้เผยแพร่น้ำหนักโมเดลของพวกเขาแล้ว
มีผู้ใช้ที่กล่าวว่าเมื่อเทียบกับคลิปที่เว็บไซต์ให้ไว้ ตนยังไม่สามารถทำโคลนเสียงบนเครื่องโลคัลให้ได้คุณภาพใกล้เคียงกัน และคาดว่าอาจมีบางอย่างที่ทำผิดพลาดไป
มีผู้ใช้ที่ยืนยันจาก GitHub ว่าสามารถรันแบบโลคัลได้ และประเมินว่าคุณภาพดี
มีผู้ใช้คนหนึ่งอธิบายกระบวนการเข้ารหัสเสียงพูดเป็นรูปแบบที่คล้าย IPA แล้วถอดรหัสรูปแบบนั้นเป็นภาษาปลายทาง พร้อมทั้งกล่าวถึงการดึง "โทนเสียง" ออกมาและลบออกจากรูปแบบที่คล้าย IPA ก่อนจะเติมกลับเข้าไปในเลเยอร์เป้าหมาย ด้วยวิธีนี้ ผู้ใช้บอกว่าสามารถได้ยินเสียงของตัวเองพูดภาษาอื่นด้วยโทนเสียงที่คล้ายเดิม ผู้ใช้นี้ยังสงสัยว่าหากตนเรียนภาษาจีนได้อย่างคล่องแคล่ว ผลลัพธ์จะคล้ายกันเพียงใด และจำเป็นต้องมี "ตัวแปลโทนเสียง" สำหรับแปลโทนเสียงข้ามภาษา หรือไม่
มีผู้ใช้ถามว่ามีใครรู้จักโมเดล "ด้านตรงข้าม" ที่สามารถระบุตัวผู้พูดจากการบันทึกหลายชุดเพื่อทำ speaker diarization ได้หรือไม่
มีผู้ใช้ประเมินว่าเครื่องมือโคลนเสียงทั้งหมดมีลักษณะของ "vocal fry" ซึ่งให้ความรู้สึกเหมือน uncanny valley เพราะไม่สามารถจับรายละเอียดที่ละเอียดอ่อนของเสียงได้อย่างแม่นยำ ผู้ใช้นี้อธิบายว่าเครื่องมือเหล่านี้ยังไปไม่พ้นเสียงลมหายใจแบบที่คล้าย Microsoft Sam

OpenVoice - เทคโนโลยีโคลนเสียงทันทีอเนกประสงค์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News