OpenVoice: เทคโนโลยีโคลนเสียงแบบทันที

(github.com/myshell-ai)

5 คะแนน โดย GN⁺ 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenVoice เป็นโปรเจกต์โคลนเสียงแบบทันทีที่คัดลอกโทนเสียงอ้างอิงเพื่อสร้างเสียงได้หลายภาษาและหลายสำเนียง และได้เปิดเผยฟีเจอร์ของ V1 และ V2
V1 รองรับ การคัดลอกโทนเสียงอย่างแม่นยำ, การควบคุมสไตล์เสียง เช่น อารมณ์ สำเนียง จังหวะ การหยุด และการเปลี่ยนแปลงโทนเสียง รวมถึงการโคลนเสียงข้ามภาษาแบบ zero-shot
OpenVoice V2 เปิดตัวในเดือนเมษายน 2024 โดยมีฟีเจอร์ของ V1 ครบถ้วน พร้อมมอบคุณภาพเสียงที่ดีขึ้นด้วยกลยุทธ์การฝึกที่แตกต่างออกไป
V2 รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีแบบ หลายภาษาเนทีฟ และทั้ง V1 และ V2 ใช้งานได้ฟรีสำหรับเชิงพาณิชย์และงานวิจัยภายใต้ MIT License
OpenVoice ถูกใช้ในฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai ตั้งแต่เดือนพฤษภาคม 2023 และถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกจนถึงเดือนพฤศจิกายน 2023

ความสามารถในการโคลนเสียงที่ OpenVoice มอบให้

OpenVoice เป็นโปรเจกต์สำหรับ การโคลนเสียง แบบทันที
งานวิจัยที่เกี่ยวข้องเผยแพร่เป็น บทความ arXiv

ฟีเจอร์หลักของ OpenVoice V1

การคัดลอกโทนเสียงอย่างแม่นยำ
- สามารถคัดลอกโทนเสียงอ้างอิงได้อย่างแม่นยำ
- สามารถสร้างเสียงได้หลายภาษาและหลายสำเนียง
การควบคุมสไตล์เสียงที่ยืดหยุ่น
- สามารถควบคุมอารมณ์และสำเนียงได้อย่างละเอียด
- พารามิเตอร์สไตล์อย่างจังหวะ การหยุด และการเปลี่ยนแปลงโทนเสียงก็เป็นสิ่งที่ควบคุมได้เช่นกัน
การโคลนเสียงข้ามภาษาแบบ zero-shot
- ภาษาในเสียงที่สร้างขึ้นและภาษาในเสียงอ้างอิงไม่จำเป็นต้องอยู่ในชุดข้อมูลฝึกหลายภาษาแบบหลายผู้พูดขนาดใหญ่

สิ่งที่เปลี่ยนแปลงใน OpenVoice V2

OpenVoice V2 เปิดตัวในเดือนเมษายน 2024
V2 มีฟีเจอร์ทั้งหมดของ V1
ใช้ กลยุทธ์การฝึก ที่แตกต่างออกไปเพื่อมอบคุณภาพเสียงที่ดีขึ้น
รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีแบบเนทีฟ
ตั้งแต่เดือนเมษายน 2024 ทั้ง V2 และ V1 เผยแพร่ภายใต้ MIT License ทำให้ใช้งานเชิงพาณิชย์ได้ฟรี

การใช้งานจริงและขอบเขตการเปิดเผย

OpenVoice ขับเคลื่อนฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai มาตั้งแต่เดือนพฤษภาคม 2023
จนถึงเดือนพฤศจิกายน 2023 โมเดลโคลนเสียงถูกใช้งานโดยผู้ใช้ทั่วโลก หลายสิบล้านครั้ง
README มีเดโม Video รวมอยู่ด้วย

การใช้งาน ไลเซนส์ และโปรเจกต์พื้นฐาน

วิธีใช้งานโดยละเอียดมีอธิบายไว้ในเอกสาร usage ของรีโพซิทอรี
คำถามและคำตอบทั่วไปครอบคลุมอยู่ในเอกสาร QA ของรีโพซิทอรี
OpenVoice V1 และ V2 อยู่ภายใต้ MIT License และใช้งานได้ฟรีทั้งเพื่อเชิงพาณิชย์และเพื่อการวิจัย
การพัฒนาต่อยอดมาจาก TTS, VITS, VITS2

1 ความคิดเห็น

GN⁺ 2024-04-28

ความคิดเห็นจาก Hacker News

เมื่อไม่กี่วันที่ผ่านมาก็มีเรื่องแบบนี้เกิดขึ้น: ตำรวจระบุว่า ผู้อำนวยการฝ่ายกีฬาใช้ AI สร้างคลิปเสียงปลอมเพื่อใส่ร้ายครูใหญ่ว่าพูดเหยียดเชื้อชาติ
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- เพราะงั้นต้องทำให้เทคโนโลยีนี้ถูกใช้แพร่หลายและเป็นที่รู้จัก คนจะได้ระวังมากขึ้น ไม่เชื่ออะไรสุ่มสี่สุ่มห้า และตรวจสอบแหล่งที่มา
  แน่นอนว่าส่วนใหญ่ก็คงยัง ไม่ตรวจสอบข้อเท็จจริง อยู่ดี
เราเข้าสู่ยุคที่กฎหมายและการบังคับใช้ต้องไล่ตามให้ทันอย่างรวดเร็วมาก
ตอนนี้ทำได้ตั้งแต่ หลักฐานประวัติศาสตร์ปลอม, ข้อมูลรั่วไหลปลอม, คำประกาศสนับสนุนปลอม ไปจนถึงโฆษณาปลอม
เมื่อก่อนผู้คนยังขี้เกียจตรวจสอบแม้แต่โพสต์ข้อความใด ๆ บน Facetok ดังนั้นต่อไปน่าจะแย่ลงกว่านี้มาก
- ดูเหมือนเป็นกระแสจาก hypernormalization ไปสู่ hyperreality
  ผมบอกเพื่อน ๆ มาตลอดว่าอีก 5–10 ปีข้างหน้า เราจะเชื่อได้เกือบ 100% เฉพาะสิ่งที่เกิดขึ้นตรงหน้าจริง ๆ เท่านั้น
  เราอาจเลือกให้สำนักข่าวที่น่าเชื่อถือช่วยตรวจสอบได้ แต่เพราะความแตกแยกเป็นสองขั้ว คนจำนวนมากในโลกจะมองว่าสื่อเหล่านั้นถูกหลอกไปแล้ว และเหมารวมว่าทุกอย่างเป็นของปลอม
  แค่ดู Sora หรือโมเดลเสียงใหม่ ๆ ก็พอ ไม่กี่วันก่อนก็มีโค้ชกีฬามัธยมปลายถูกจับ เพราะโคลนเสียงครูใหญ่ให้พูดเรื่องเลวร้าย และโดนจับได้เพราะใช้อีเมลของตัวเอง
  ยิ่งรวมกับข้อเท็จจริงที่ว่าโมเดล Phi-mini ใหม่ของ Microsoft มีพารามิเตอร์ 3.8 พันล้านตัวแต่เข้าใกล้ประสิทธิภาพของ GPT-3.5 ก็ยิ่งน่ากลัว GPT-3.5 มีพารามิเตอร์ 175 พันล้านตัว และการปรับแต่งเทคโนโลยีนี้เพิ่งผ่านมาราว 5 ปีเท่านั้น
  อยากลงจากเครื่องเล่นบ้า ๆ ของ Mr Bones แล้ว
- ความไว้วางใจคือสิ่งที่การดำรงอยู่ของมนุษย์ต้องพึ่งพา ไม่ใช่แค่อารยธรรมเท่านั้น แต่ยังรวมถึงชุมชนเล็ก ๆ และการแลกเปลี่ยนพื้นฐานของความคิด สินค้า และบริการด้วย
  คาดเดาไม่ได้ว่าความเสี่ยงที่ generative AI จะทำลายความไว้วางใจจะคลี่คลายไปอย่างไร แต่ผมมองโลกในแง่ดีว่าในท้ายที่สุดความคิดสร้างสรรค์ของมนุษย์จะชนะ
- ไฟล์เสียงดิจิทัลถือเป็นหลักฐานของอะไรได้ยาก ต่อให้ไม่มีการโคลนเสียง ก็สามารถตัดแปะและแก้ไขเสียงให้เกือบเป็นอะไรก็ได้ตามต้องการ
  ถ้าฝึกหน่อย การเลียนแบบวิธีพูดของคนอื่นก็ไม่ใช่เรื่องยาก และเป็นสิ่งที่ทั้งมือสมัครเล่นกับนักแสดงมืออาชีพทำกันเป็นปกติ
  สิ่งที่เปลี่ยนไปมีแค่ว่ามันทำได้ง่ายขึ้น และในทางกลับกันก็ควรช่วยให้ทุกคนเข้าใจว่า “หลักฐาน” แบบนั้นเชื่อถือได้ยากแค่ไหน
- เรื่องแบบนี้ก็เป็นปัญหาใหญ่ แต่ปัญหาที่ใหญ่กว่าคือสถานการณ์ที่สายโทรศัพท์สแปมเก็บเสียงผมไปสัก 10 วินาที แล้ว โทรไปหาธนาคารหรือครอบครัวด้วยเสียงของผม
  Android และ iOS ควรรองรับตัวแปลงเสียงแบบเรียลไทม์ให้เหมือนเป็นฟีเจอร์พื้นฐาน และมีปุ่มปิดอย่างรวดเร็วในแอปโทรศัพท์ รวมถึงตัวเลือกให้ปิดไว้สำหรับรายชื่อคนรู้จัก
- ผมเริ่มมองว่ากระแสตื่นตระหนกเกี่ยวกับการใช้ AI ในทางอาชญากรรมหรือประสงค์ร้ายนั้นคล้ายกับกระแสอวยการใช้งาน AI แบบอื่น ๆ
  แน่นอนว่าจะมีการใช้งานจริงที่สร้างความสั่นสะเทือน แต่ความต่างระหว่างสิ่งที่เทคโนโลยีทำให้เป็นไปได้ใหม่ กับสิ่งที่เดิมก็ทำได้อยู่แล้วนั้นน้อยกว่าที่ผู้คนพูดกันมาก
นี่ไม่ใช่การโคลนเสียง แต่ใกล้เคียงกับการ คัดลอกโทนเสียง มากกว่า ในเอกสารก็เขียนไว้อย่างนั้น แต่ยังเรียกว่า voice cloning อยู่ดี
ผมลองใช้เองแล้วเสียงออกมาเป็นสำเนียงอเมริกัน ไม่ใช่สำเนียง Lancashire นุ่ม ๆ ตามปกติของผม และไม่เหมือนผมเลยสักนิด
- ถ้าใช้ https://voiceshopai.github.io น่าจะทำให้กลับไปใกล้สำเนียงเดิมได้มากขึ้น
  VoiceShopAi สามารถเปลี่ยนเสียงวัยรุ่นให้เป็นเสียงคนแก่ เปลี่ยนเสียงผู้ชายเป็นผู้หญิง หรือเปลี่ยนเป็นสำเนียงของประเทศใดก็ได้
  ผมเจอจาก https://github.com/metame-ai/awesome-audio-plaza ซึ่งติดตามรายการใหม่ ๆ ในวงการเสียง
- ผมก็ลองกับเสียงตัวเองเหมือนกัน โชคดีที่ ไม่ได้ฟังเหมือนเสียงผมเลยแม้แต่น้อย
- ชื่อหัวข้อหรือชื่อเรียกไม่ค่อยดีนัก ถ้ามองในเชิงเมตากว่านั้น ช่วงนี้บางครั้งรู้สึกว่าคอมเมนต์ใน HN เริ่มเปลี่ยนไปเป็นเหมือน การตอบสนองต่อพาดหัวแบบ Reddit มากกว่าจะดูต้นฉบับหรือตัวเทคโนโลยีเอง
กรณีใช้งานที่ถูกต้องชอบธรรมของเทคโนโลยีนี้คืออะไร? ผมนึกการใช้งานเพื่อหลอกคนอื่นได้เป็นร้อยแบบ แต่ไม่ค่อยนึกออกว่ามีสถานการณ์ไหนที่อยากโคลนหรือสร้างเสียงของตัวเองขึ้นมาใหม่
- เวลาบันทึกพอดแคสต์แล้วอยากแก้แค่บางคำ ก็ใช้ได้โดยไม่ต้องยุ่งยากอัดใหม่
  นักพัฒนาเกมอินดี้อาจสร้าง NPC ที่มีชีวิตชีวา มีเสียงเฉพาะตัว และบทสนทนาขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ได้
  ระหว่างสร้างภาพยนตร์ ก็อาจปรับบทพูดบางประโยคโดยได้รับความยินยอมจากนักแสดง
  คนที่ค่อย ๆ สูญเสียเสียงเพราะปัญหาสุขภาพ แต่ยังอยากสื่อสารต่อ ก็จำเป็นต้องใช้
  เทคโนโลยีนี้มีกรณีใช้งานที่ถูกต้องชอบธรรมอย่างชัดเจน โดยส่วนตัวผมคิดว่าการใช้งานที่ไม่ถูกต้องจะมีมากกว่าการใช้งานที่ถูกต้อง แต่การบอกว่าไม่มีการประยุกต์ใช้ที่ชอบธรรมเลยนั้นไม่ยุติธรรม
  ควรทำให้การนำไปใช้ในทางที่ผิดเป็นอาชญากรรมและกำกับดูแลอย่างเข้มงวด ไม่ใช่แบนทั้งหมด และในกรณีของซอฟต์แวร์กับโมเดลขนาดเล็ก การแบนก็ค่อนข้างทำได้ยากด้วย
- เป็นเพียงเรื่องของเวลาก่อนที่เอเจนต์อย่าง Alexa จะใช้ เสียงที่ปรับแต่งเฉพาะบุคคล ได้ดีขึ้น
  หนังสือเสียงก็สามารถอ่านด้วยเสียงแยกตามตัวละคร แทนที่จะให้นักพากย์คนเดียวฝืนแสดงทุกบท
  ถ้าเป็นหวัดแต่ยังอยากกล่าวสุนทรพจน์โดยไม่ไอ ก็ทำได้
  สำหรับการส่งข้อมูลเสียงแบบแบนด์วิดท์ต่ำ อาจส่งแค่ข้อความแล้วให้โมเดลเสียงในเครื่องเล่นออกมา
  อาจใช้สนทนากับคนรักที่จากไปแล้วก็ได้
  ใช้เพื่อความขำขันหรือคอมเมดีก็ได้
- ดูเหมือนจะไม่ได้คิดจริงจังเท่าไร สิ่งแรกที่ผมนึกถึงคือการใช้การโคลนเสียงของตัวเองกับ การแปลแบบเรียลไทม์
  ถ้าสมมติว่าการแปลที่สมบูรณ์แบบจะไม่ถูกนำไปใช้ในทางประสงค์ร้าย ผมมองว่านี่เป็นการใช้งานที่มีประโยชน์เสมอและไม่ชั่วร้ายเลย
- ผมมีเพื่อนที่กล่องเสียงเป็นอัมพาต เขาจึงมักพิมพ์บนโทรศัพท์หรือแล็ปท็อปเครื่องเล็ก ๆ เพื่อสื่อสาร
  ถ้าสามารถอาศัยบันทึกเสียงพูดในอดีตเพื่อคืน “เสียงของตัวเอง” ให้เขาได้อย่างน้อยระดับหนึ่ง เขาคงดีใจมาก
  น่าเสียดายที่ผมยังไม่เห็นเครื่องมือที่สร้าง โมเดลเสียง ซึ่งเสียบใช้กับ Android TTS หรือ Windows ที่เขาใช้อยู่ได้
- ผมเล่น Counter-Strike เยอะ และถ้าคนใช้ เสียง Joe Biden ด่าทีมตรงข้ามก็คงฮาดี
ถ้าจะติดตามวงการนี้ต่อ ควรดูที่ไหนดี? ผมอยากสร้างสรรค์ผลงานด้วยเครื่องมือแบบนี้ แต่เสียงของผมเองไม่ค่อยเหมาะกับการใช้งานแบบนั้น เลยสนใจมาก
ถ้าจะทำให้ออกมาเป็นธรรมชาติมากขึ้น ผมคิดว่า การแปลงเสียงเป็นเสียง น่าจะดีกว่าการแปลงข้อความเป็นเสียง เคยลองใช้เครื่องมืออย่าง RVC มาบ้าง แต่รู้สึกว่าน่าจะมีเวิร์กโฟลว์ดี ๆ อีกมากที่ผมพลาดไปท่ามกลางกระแสเสียงรบกวนของ AI
โดยเฉพาะอยากรู้เพิ่มเติมเกี่ยวกับเวิร์กโฟลว์ที่น่าสนใจ และคนที่ใช้ AI ทำสิ่งสนุก ๆ
- แน่นอนว่าคือ Twitter ทุกอย่างประกาศและถกกันที่นั่น
ที่นี่มี แนวคิดวันสิ้นโลกและดราม่าที่ปั่นเกินจริง ค่อนข้างเยอะ เมื่อเทียบกับวิธี AI โคลนเสียงเดิม ๆ ที่เปิดให้ใช้สาธารณะมาได้ราว 1 ปีแล้ว การเปิดตัวครั้งนี้แย่กว่าตรงไหนกัน?
ผมตั้งตารอจริง ๆ ที่จะมี หนังสือเสียงที่อ่านด้วยเสียงของผู้เขียน จากการโคลนเสียง
แน่นอนว่าคงไม่ดีเท่าผู้เขียนอ่านเองจริง ๆ แต่เสียงของผู้เขียนมีอะไรบางอย่างที่นักพากย์ให้ไม่ได้ นักพากย์มักออกเสียงเป็นมาตรฐานและเว่อร์เกินไป จนส่วนตัวรู้สึกเชื่อมโยงได้น้อยกว่า
- สิ่งที่ผู้เขียนเพิ่มให้ได้ แม้จะไม่ใช่นักอ่านที่ผ่านการฝึกมา คือโทนเสียงที่ตรงกับเจตนาว่าประโยคในหนังสือควรถูกพูดและเข้าใจอย่างไร
  AI คงทำแบบนั้นไม่ได้ ต่อให้ดีขึ้นแค่ไหนก็อ่านใจผู้เขียนไม่ได้ ผลลัพธ์จะยิ่งทั่วไปกว่านักอ่านที่เป็นมนุษย์เสียอีก
- กลับกัน ผมกังวลเรื่องนั้นมากกว่า ไม่เข้าใจว่าทำไมหนังสือต้องให้ผู้เขียนอ่าน
  นักพากย์ ที่ผ่านการฝึกทำได้ดีกว่ามาก และยังปรับเสียงให้เข้ากับบรรยากาศได้ด้วย
  ถ้าเป็นอัตชีวประวัติก็พอเข้าใจ แต่กรณีแบบนั้นส่วนใหญ่ผู้เขียนก็มักอ่านเองอยู่แล้ว
- ถ้าคุณรู้สึกว่านักพากย์หนังสือเสียงทั่วไปเกินไป สำหรับ การอ่านโดย AI ที่ฝึกด้วยเสียงผู้เขียน ผมมีข่าวร้ายกว่านั้นอีก
- ผมแทบไม่อยากให้ผู้เขียนอ่านหนังสือของตัวเองให้ฟังเลย ผู้เขียนคือคนที่เขียนเก่ง และหนังสือเสียงไม่ใช่แค่การ “อ่าน” คำบนหน้ากระดาษ
  ถ้าเป็นเครื่องมืออย่าง Descript ที่ให้ผู้เขียนปรับการออกเสียงหลังบรรยายก็ว่าไปอย่าง แต่ผมไม่ได้อยากได้เสียงของผู้เขียน
  ผมสนใจการฝึกโมเดลด้วยเสียงของ Allyson Johnson ให้มาอ่านหนังสือชุด Honor Harrington และอัดใหม่ 1–2 เล่มในภาคแยกที่ใช้นักอ่านคนอื่น นักอ่านคนนั้นแย่มาก
  น่าจะใช้ช่วยจัดการปัญหาในซีรีส์ Wheel of Time ได้ด้วย ที่มีนักอ่านสองคนเดิม แต่เปลี่ยนการออกเสียงชื่อและคำหลายคำไปตามแต่ละเล่ม โดยเฉพาะ “Moghedien” ที่เด่นมาก
  ออกเสียงอย่างน้อยสามแบบ: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- คงดีถ้าหนังสือเสียงแต่ละเล่มมี ตัวเลือกผู้บรรยาย มีผู้บรรยายที่ผมชอบ และก็มีผู้บรรยายที่ผมทนฟังไม่ได้เลย
  อีกอย่าง ถ้าไม่ใช้ AI ก็มีหนังสืออีกเป็นพันเป็นหมื่นเล่มที่ไม่มีวันได้ออกมาในรูปแบบเสียง
เกี่ยวข้อง: https://github.com/topics/voice-clone
- อยากรู้ว่ามีตัวไหนในนี้ที่ใช้งานได้จริงบ้างไหม
  ทุกครั้งที่ลองจนถึงตอนนี้ เสียงที่ได้ไม่ใช่ทั้งเสียงเป้าหมายของผมและไม่ใช่เสียงต้นฉบับ แต่ฟังเหมือน เสียงใหม่แบบสุ่ม เฉย ๆ
เห็นมี Python notebook อยู่บ้าง แต่ถ้า README มี โค้ดตัวอย่าง ด้วยก็น่าจะดีกว่านี้

OpenVoice: เทคโนโลยีโคลนเสียงแบบทันที

ความสามารถในการโคลนเสียงที่ OpenVoice มอบให้

ฟีเจอร์หลักของ OpenVoice V1

การคัดลอกโทนเสียงอย่างแม่นยำ

การควบคุมสไตล์เสียงที่ยืดหยุ่น

การโคลนเสียงข้ามภาษาแบบ zero-shot

สิ่งที่เปลี่ยนแปลงใน OpenVoice V2

การใช้งานจริงและขอบเขตการเปิดเผย

การใช้งาน ไลเซนส์ และโปรเจกต์พื้นฐาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News