OpenVoice: เทคโนโลยีโคลนเสียงแบบทันที
(github.com/myshell-ai)- OpenVoice เป็นโปรเจกต์โคลนเสียงแบบทันทีที่คัดลอกโทนเสียงอ้างอิงเพื่อสร้างเสียงได้หลายภาษาและหลายสำเนียง และได้เปิดเผยฟีเจอร์ของ V1 และ V2
- V1 รองรับ การคัดลอกโทนเสียงอย่างแม่นยำ, การควบคุมสไตล์เสียง เช่น อารมณ์ สำเนียง จังหวะ การหยุด และการเปลี่ยนแปลงโทนเสียง รวมถึงการโคลนเสียงข้ามภาษาแบบ zero-shot
- OpenVoice V2 เปิดตัวในเดือนเมษายน 2024 โดยมีฟีเจอร์ของ V1 ครบถ้วน พร้อมมอบคุณภาพเสียงที่ดีขึ้นด้วยกลยุทธ์การฝึกที่แตกต่างออกไป
- V2 รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีแบบ หลายภาษาเนทีฟ และทั้ง V1 และ V2 ใช้งานได้ฟรีสำหรับเชิงพาณิชย์และงานวิจัยภายใต้ MIT License
- OpenVoice ถูกใช้ในฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai ตั้งแต่เดือนพฤษภาคม 2023 และถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกจนถึงเดือนพฤศจิกายน 2023
ความสามารถในการโคลนเสียงที่ OpenVoice มอบให้
- OpenVoice เป็นโปรเจกต์สำหรับ การโคลนเสียง แบบทันที
- งานวิจัยที่เกี่ยวข้องเผยแพร่เป็น บทความ arXiv
ฟีเจอร์หลักของ OpenVoice V1
-
การคัดลอกโทนเสียงอย่างแม่นยำ
- สามารถคัดลอกโทนเสียงอ้างอิงได้อย่างแม่นยำ
- สามารถสร้างเสียงได้หลายภาษาและหลายสำเนียง
-
การควบคุมสไตล์เสียงที่ยืดหยุ่น
- สามารถควบคุมอารมณ์และสำเนียงได้อย่างละเอียด
- พารามิเตอร์สไตล์อย่างจังหวะ การหยุด และการเปลี่ยนแปลงโทนเสียงก็เป็นสิ่งที่ควบคุมได้เช่นกัน
-
การโคลนเสียงข้ามภาษาแบบ zero-shot
- ภาษาในเสียงที่สร้างขึ้นและภาษาในเสียงอ้างอิงไม่จำเป็นต้องอยู่ในชุดข้อมูลฝึกหลายภาษาแบบหลายผู้พูดขนาดใหญ่
สิ่งที่เปลี่ยนแปลงใน OpenVoice V2
- OpenVoice V2 เปิดตัวในเดือนเมษายน 2024
- V2 มีฟีเจอร์ทั้งหมดของ V1
- ใช้ กลยุทธ์การฝึก ที่แตกต่างออกไปเพื่อมอบคุณภาพเสียงที่ดีขึ้น
- รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีแบบเนทีฟ
- ตั้งแต่เดือนเมษายน 2024 ทั้ง V2 และ V1 เผยแพร่ภายใต้ MIT License ทำให้ใช้งานเชิงพาณิชย์ได้ฟรี
การใช้งานจริงและขอบเขตการเปิดเผย
- OpenVoice ขับเคลื่อนฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai มาตั้งแต่เดือนพฤษภาคม 2023
- จนถึงเดือนพฤศจิกายน 2023 โมเดลโคลนเสียงถูกใช้งานโดยผู้ใช้ทั่วโลก หลายสิบล้านครั้ง
- README มีเดโม Video รวมอยู่ด้วย
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เมื่อไม่กี่วันที่ผ่านมาก็มีเรื่องแบบนี้เกิดขึ้น: ตำรวจระบุว่า ผู้อำนวยการฝ่ายกีฬาใช้ AI สร้างคลิปเสียงปลอมเพื่อใส่ร้ายครูใหญ่ว่าพูดเหยียดเชื้อชาติ
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
แน่นอนว่าส่วนใหญ่ก็คงยัง ไม่ตรวจสอบข้อเท็จจริง อยู่ดี
เราเข้าสู่ยุคที่กฎหมายและการบังคับใช้ต้องไล่ตามให้ทันอย่างรวดเร็วมาก
ตอนนี้ทำได้ตั้งแต่ หลักฐานประวัติศาสตร์ปลอม, ข้อมูลรั่วไหลปลอม, คำประกาศสนับสนุนปลอม ไปจนถึงโฆษณาปลอม
เมื่อก่อนผู้คนยังขี้เกียจตรวจสอบแม้แต่โพสต์ข้อความใด ๆ บน Facetok ดังนั้นต่อไปน่าจะแย่ลงกว่านี้มาก
ผมบอกเพื่อน ๆ มาตลอดว่าอีก 5–10 ปีข้างหน้า เราจะเชื่อได้เกือบ 100% เฉพาะสิ่งที่เกิดขึ้นตรงหน้าจริง ๆ เท่านั้น
เราอาจเลือกให้สำนักข่าวที่น่าเชื่อถือช่วยตรวจสอบได้ แต่เพราะความแตกแยกเป็นสองขั้ว คนจำนวนมากในโลกจะมองว่าสื่อเหล่านั้นถูกหลอกไปแล้ว และเหมารวมว่าทุกอย่างเป็นของปลอม
แค่ดู Sora หรือโมเดลเสียงใหม่ ๆ ก็พอ ไม่กี่วันก่อนก็มีโค้ชกีฬามัธยมปลายถูกจับ เพราะโคลนเสียงครูใหญ่ให้พูดเรื่องเลวร้าย และโดนจับได้เพราะใช้อีเมลของตัวเอง
ยิ่งรวมกับข้อเท็จจริงที่ว่าโมเดล Phi-mini ใหม่ของ Microsoft มีพารามิเตอร์ 3.8 พันล้านตัวแต่เข้าใกล้ประสิทธิภาพของ GPT-3.5 ก็ยิ่งน่ากลัว GPT-3.5 มีพารามิเตอร์ 175 พันล้านตัว และการปรับแต่งเทคโนโลยีนี้เพิ่งผ่านมาราว 5 ปีเท่านั้น
อยากลงจากเครื่องเล่นบ้า ๆ ของ Mr Bones แล้ว
คาดเดาไม่ได้ว่าความเสี่ยงที่ generative AI จะทำลายความไว้วางใจจะคลี่คลายไปอย่างไร แต่ผมมองโลกในแง่ดีว่าในท้ายที่สุดความคิดสร้างสรรค์ของมนุษย์จะชนะ
ถ้าฝึกหน่อย การเลียนแบบวิธีพูดของคนอื่นก็ไม่ใช่เรื่องยาก และเป็นสิ่งที่ทั้งมือสมัครเล่นกับนักแสดงมืออาชีพทำกันเป็นปกติ
สิ่งที่เปลี่ยนไปมีแค่ว่ามันทำได้ง่ายขึ้น และในทางกลับกันก็ควรช่วยให้ทุกคนเข้าใจว่า “หลักฐาน” แบบนั้นเชื่อถือได้ยากแค่ไหน
Android และ iOS ควรรองรับตัวแปลงเสียงแบบเรียลไทม์ให้เหมือนเป็นฟีเจอร์พื้นฐาน และมีปุ่มปิดอย่างรวดเร็วในแอปโทรศัพท์ รวมถึงตัวเลือกให้ปิดไว้สำหรับรายชื่อคนรู้จัก
แน่นอนว่าจะมีการใช้งานจริงที่สร้างความสั่นสะเทือน แต่ความต่างระหว่างสิ่งที่เทคโนโลยีทำให้เป็นไปได้ใหม่ กับสิ่งที่เดิมก็ทำได้อยู่แล้วนั้นน้อยกว่าที่ผู้คนพูดกันมาก
นี่ไม่ใช่การโคลนเสียง แต่ใกล้เคียงกับการ คัดลอกโทนเสียง มากกว่า ในเอกสารก็เขียนไว้อย่างนั้น แต่ยังเรียกว่า voice cloning อยู่ดี
ผมลองใช้เองแล้วเสียงออกมาเป็นสำเนียงอเมริกัน ไม่ใช่สำเนียง Lancashire นุ่ม ๆ ตามปกติของผม และไม่เหมือนผมเลยสักนิด
VoiceShopAi สามารถเปลี่ยนเสียงวัยรุ่นให้เป็นเสียงคนแก่ เปลี่ยนเสียงผู้ชายเป็นผู้หญิง หรือเปลี่ยนเป็นสำเนียงของประเทศใดก็ได้
ผมเจอจาก https://github.com/metame-ai/awesome-audio-plaza ซึ่งติดตามรายการใหม่ ๆ ในวงการเสียง
กรณีใช้งานที่ถูกต้องชอบธรรมของเทคโนโลยีนี้คืออะไร? ผมนึกการใช้งานเพื่อหลอกคนอื่นได้เป็นร้อยแบบ แต่ไม่ค่อยนึกออกว่ามีสถานการณ์ไหนที่อยากโคลนหรือสร้างเสียงของตัวเองขึ้นมาใหม่
นักพัฒนาเกมอินดี้อาจสร้าง NPC ที่มีชีวิตชีวา มีเสียงเฉพาะตัว และบทสนทนาขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ได้
ระหว่างสร้างภาพยนตร์ ก็อาจปรับบทพูดบางประโยคโดยได้รับความยินยอมจากนักแสดง
คนที่ค่อย ๆ สูญเสียเสียงเพราะปัญหาสุขภาพ แต่ยังอยากสื่อสารต่อ ก็จำเป็นต้องใช้
เทคโนโลยีนี้มีกรณีใช้งานที่ถูกต้องชอบธรรมอย่างชัดเจน โดยส่วนตัวผมคิดว่าการใช้งานที่ไม่ถูกต้องจะมีมากกว่าการใช้งานที่ถูกต้อง แต่การบอกว่าไม่มีการประยุกต์ใช้ที่ชอบธรรมเลยนั้นไม่ยุติธรรม
ควรทำให้การนำไปใช้ในทางที่ผิดเป็นอาชญากรรมและกำกับดูแลอย่างเข้มงวด ไม่ใช่แบนทั้งหมด และในกรณีของซอฟต์แวร์กับโมเดลขนาดเล็ก การแบนก็ค่อนข้างทำได้ยากด้วย
หนังสือเสียงก็สามารถอ่านด้วยเสียงแยกตามตัวละคร แทนที่จะให้นักพากย์คนเดียวฝืนแสดงทุกบท
ถ้าเป็นหวัดแต่ยังอยากกล่าวสุนทรพจน์โดยไม่ไอ ก็ทำได้
สำหรับการส่งข้อมูลเสียงแบบแบนด์วิดท์ต่ำ อาจส่งแค่ข้อความแล้วให้โมเดลเสียงในเครื่องเล่นออกมา
อาจใช้สนทนากับคนรักที่จากไปแล้วก็ได้
ใช้เพื่อความขำขันหรือคอมเมดีก็ได้
ถ้าสมมติว่าการแปลที่สมบูรณ์แบบจะไม่ถูกนำไปใช้ในทางประสงค์ร้าย ผมมองว่านี่เป็นการใช้งานที่มีประโยชน์เสมอและไม่ชั่วร้ายเลย
ถ้าสามารถอาศัยบันทึกเสียงพูดในอดีตเพื่อคืน “เสียงของตัวเอง” ให้เขาได้อย่างน้อยระดับหนึ่ง เขาคงดีใจมาก
น่าเสียดายที่ผมยังไม่เห็นเครื่องมือที่สร้าง โมเดลเสียง ซึ่งเสียบใช้กับ Android TTS หรือ Windows ที่เขาใช้อยู่ได้
ถ้าจะติดตามวงการนี้ต่อ ควรดูที่ไหนดี? ผมอยากสร้างสรรค์ผลงานด้วยเครื่องมือแบบนี้ แต่เสียงของผมเองไม่ค่อยเหมาะกับการใช้งานแบบนั้น เลยสนใจมาก
ถ้าจะทำให้ออกมาเป็นธรรมชาติมากขึ้น ผมคิดว่า การแปลงเสียงเป็นเสียง น่าจะดีกว่าการแปลงข้อความเป็นเสียง เคยลองใช้เครื่องมืออย่าง RVC มาบ้าง แต่รู้สึกว่าน่าจะมีเวิร์กโฟลว์ดี ๆ อีกมากที่ผมพลาดไปท่ามกลางกระแสเสียงรบกวนของ AI
โดยเฉพาะอยากรู้เพิ่มเติมเกี่ยวกับเวิร์กโฟลว์ที่น่าสนใจ และคนที่ใช้ AI ทำสิ่งสนุก ๆ
ที่นี่มี แนวคิดวันสิ้นโลกและดราม่าที่ปั่นเกินจริง ค่อนข้างเยอะ เมื่อเทียบกับวิธี AI โคลนเสียงเดิม ๆ ที่เปิดให้ใช้สาธารณะมาได้ราว 1 ปีแล้ว การเปิดตัวครั้งนี้แย่กว่าตรงไหนกัน?
ผมตั้งตารอจริง ๆ ที่จะมี หนังสือเสียงที่อ่านด้วยเสียงของผู้เขียน จากการโคลนเสียง
แน่นอนว่าคงไม่ดีเท่าผู้เขียนอ่านเองจริง ๆ แต่เสียงของผู้เขียนมีอะไรบางอย่างที่นักพากย์ให้ไม่ได้ นักพากย์มักออกเสียงเป็นมาตรฐานและเว่อร์เกินไป จนส่วนตัวรู้สึกเชื่อมโยงได้น้อยกว่า
AI คงทำแบบนั้นไม่ได้ ต่อให้ดีขึ้นแค่ไหนก็อ่านใจผู้เขียนไม่ได้ ผลลัพธ์จะยิ่งทั่วไปกว่านักอ่านที่เป็นมนุษย์เสียอีก
นักพากย์ ที่ผ่านการฝึกทำได้ดีกว่ามาก และยังปรับเสียงให้เข้ากับบรรยากาศได้ด้วย
ถ้าเป็นอัตชีวประวัติก็พอเข้าใจ แต่กรณีแบบนั้นส่วนใหญ่ผู้เขียนก็มักอ่านเองอยู่แล้ว
ถ้าเป็นเครื่องมืออย่าง Descript ที่ให้ผู้เขียนปรับการออกเสียงหลังบรรยายก็ว่าไปอย่าง แต่ผมไม่ได้อยากได้เสียงของผู้เขียน
ผมสนใจการฝึกโมเดลด้วยเสียงของ Allyson Johnson ให้มาอ่านหนังสือชุด Honor Harrington และอัดใหม่ 1–2 เล่มในภาคแยกที่ใช้นักอ่านคนอื่น นักอ่านคนนั้นแย่มาก
น่าจะใช้ช่วยจัดการปัญหาในซีรีส์ Wheel of Time ได้ด้วย ที่มีนักอ่านสองคนเดิม แต่เปลี่ยนการออกเสียงชื่อและคำหลายคำไปตามแต่ละเล่ม โดยเฉพาะ “Moghedien” ที่เด่นมาก
ออกเสียงอย่างน้อยสามแบบ: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
อีกอย่าง ถ้าไม่ใช้ AI ก็มีหนังสืออีกเป็นพันเป็นหมื่นเล่มที่ไม่มีวันได้ออกมาในรูปแบบเสียง
เกี่ยวข้อง: https://github.com/topics/voice-clone
ทุกครั้งที่ลองจนถึงตอนนี้ เสียงที่ได้ไม่ใช่ทั้งเสียงเป้าหมายของผมและไม่ใช่เสียงต้นฉบับ แต่ฟังเหมือน เสียงใหม่แบบสุ่ม เฉย ๆ
เห็นมี Python notebook อยู่บ้าง แต่ถ้า README มี โค้ดตัวอย่าง ด้วยก็น่าจะดีกว่านี้