5 คะแนน โดย GN⁺ 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenVoice เป็นโปรเจกต์โคลนเสียงแบบทันทีที่คัดลอกโทนเสียงอ้างอิงเพื่อสร้างเสียงได้หลายภาษาและหลายสำเนียง และได้เปิดเผยฟีเจอร์ของ V1 และ V2
  • V1 รองรับ การคัดลอกโทนเสียงอย่างแม่นยำ, การควบคุมสไตล์เสียง เช่น อารมณ์ สำเนียง จังหวะ การหยุด และการเปลี่ยนแปลงโทนเสียง รวมถึงการโคลนเสียงข้ามภาษาแบบ zero-shot
  • OpenVoice V2 เปิดตัวในเดือนเมษายน 2024 โดยมีฟีเจอร์ของ V1 ครบถ้วน พร้อมมอบคุณภาพเสียงที่ดีขึ้นด้วยกลยุทธ์การฝึกที่แตกต่างออกไป
  • V2 รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีแบบ หลายภาษาเนทีฟ และทั้ง V1 และ V2 ใช้งานได้ฟรีสำหรับเชิงพาณิชย์และงานวิจัยภายใต้ MIT License
  • OpenVoice ถูกใช้ในฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai ตั้งแต่เดือนพฤษภาคม 2023 และถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกจนถึงเดือนพฤศจิกายน 2023

ความสามารถในการโคลนเสียงที่ OpenVoice มอบให้

  • OpenVoice เป็นโปรเจกต์สำหรับ การโคลนเสียง แบบทันที
  • งานวิจัยที่เกี่ยวข้องเผยแพร่เป็น บทความ arXiv

ฟีเจอร์หลักของ OpenVoice V1

  • การคัดลอกโทนเสียงอย่างแม่นยำ

    • สามารถคัดลอกโทนเสียงอ้างอิงได้อย่างแม่นยำ
    • สามารถสร้างเสียงได้หลายภาษาและหลายสำเนียง
  • การควบคุมสไตล์เสียงที่ยืดหยุ่น

    • สามารถควบคุมอารมณ์และสำเนียงได้อย่างละเอียด
    • พารามิเตอร์สไตล์อย่างจังหวะ การหยุด และการเปลี่ยนแปลงโทนเสียงก็เป็นสิ่งที่ควบคุมได้เช่นกัน
  • การโคลนเสียงข้ามภาษาแบบ zero-shot

    • ภาษาในเสียงที่สร้างขึ้นและภาษาในเสียงอ้างอิงไม่จำเป็นต้องอยู่ในชุดข้อมูลฝึกหลายภาษาแบบหลายผู้พูดขนาดใหญ่

สิ่งที่เปลี่ยนแปลงใน OpenVoice V2

  • OpenVoice V2 เปิดตัวในเดือนเมษายน 2024
  • V2 มีฟีเจอร์ทั้งหมดของ V1
  • ใช้ กลยุทธ์การฝึก ที่แตกต่างออกไปเพื่อมอบคุณภาพเสียงที่ดีขึ้น
  • รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีแบบเนทีฟ
  • ตั้งแต่เดือนเมษายน 2024 ทั้ง V2 และ V1 เผยแพร่ภายใต้ MIT License ทำให้ใช้งานเชิงพาณิชย์ได้ฟรี

การใช้งานจริงและขอบเขตการเปิดเผย

  • OpenVoice ขับเคลื่อนฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai มาตั้งแต่เดือนพฤษภาคม 2023
  • จนถึงเดือนพฤศจิกายน 2023 โมเดลโคลนเสียงถูกใช้งานโดยผู้ใช้ทั่วโลก หลายสิบล้านครั้ง
  • README มีเดโม Video รวมอยู่ด้วย

การใช้งาน ไลเซนส์ และโปรเจกต์พื้นฐาน

  • วิธีใช้งานโดยละเอียดมีอธิบายไว้ในเอกสาร usage ของรีโพซิทอรี
  • คำถามและคำตอบทั่วไปครอบคลุมอยู่ในเอกสาร QA ของรีโพซิทอรี
  • OpenVoice V1 และ V2 อยู่ภายใต้ MIT License และใช้งานได้ฟรีทั้งเพื่อเชิงพาณิชย์และเพื่อการวิจัย
  • การพัฒนาต่อยอดมาจาก TTS, VITS, VITS2

1 ความคิดเห็น

 
GN⁺ 2024-04-28
ความคิดเห็นจาก Hacker News
  • เมื่อไม่กี่วันที่ผ่านมาก็มีเรื่องแบบนี้เกิดขึ้น: ตำรวจระบุว่า ผู้อำนวยการฝ่ายกีฬาใช้ AI สร้างคลิปเสียงปลอมเพื่อใส่ร้ายครูใหญ่ว่าพูดเหยียดเชื้อชาติ
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • เพราะงั้นต้องทำให้เทคโนโลยีนี้ถูกใช้แพร่หลายและเป็นที่รู้จัก คนจะได้ระวังมากขึ้น ไม่เชื่ออะไรสุ่มสี่สุ่มห้า และตรวจสอบแหล่งที่มา
      แน่นอนว่าส่วนใหญ่ก็คงยัง ไม่ตรวจสอบข้อเท็จจริง อยู่ดี
  • เราเข้าสู่ยุคที่กฎหมายและการบังคับใช้ต้องไล่ตามให้ทันอย่างรวดเร็วมาก
    ตอนนี้ทำได้ตั้งแต่ หลักฐานประวัติศาสตร์ปลอม, ข้อมูลรั่วไหลปลอม, คำประกาศสนับสนุนปลอม ไปจนถึงโฆษณาปลอม
    เมื่อก่อนผู้คนยังขี้เกียจตรวจสอบแม้แต่โพสต์ข้อความใด ๆ บน Facetok ดังนั้นต่อไปน่าจะแย่ลงกว่านี้มาก

    • ดูเหมือนเป็นกระแสจาก hypernormalization ไปสู่ hyperreality
      ผมบอกเพื่อน ๆ มาตลอดว่าอีก 5–10 ปีข้างหน้า เราจะเชื่อได้เกือบ 100% เฉพาะสิ่งที่เกิดขึ้นตรงหน้าจริง ๆ เท่านั้น
      เราอาจเลือกให้สำนักข่าวที่น่าเชื่อถือช่วยตรวจสอบได้ แต่เพราะความแตกแยกเป็นสองขั้ว คนจำนวนมากในโลกจะมองว่าสื่อเหล่านั้นถูกหลอกไปแล้ว และเหมารวมว่าทุกอย่างเป็นของปลอม
      แค่ดู Sora หรือโมเดลเสียงใหม่ ๆ ก็พอ ไม่กี่วันก่อนก็มีโค้ชกีฬามัธยมปลายถูกจับ เพราะโคลนเสียงครูใหญ่ให้พูดเรื่องเลวร้าย และโดนจับได้เพราะใช้อีเมลของตัวเอง
      ยิ่งรวมกับข้อเท็จจริงที่ว่าโมเดล Phi-mini ใหม่ของ Microsoft มีพารามิเตอร์ 3.8 พันล้านตัวแต่เข้าใกล้ประสิทธิภาพของ GPT-3.5 ก็ยิ่งน่ากลัว GPT-3.5 มีพารามิเตอร์ 175 พันล้านตัว และการปรับแต่งเทคโนโลยีนี้เพิ่งผ่านมาราว 5 ปีเท่านั้น
      อยากลงจากเครื่องเล่นบ้า ๆ ของ Mr Bones แล้ว
    • ความไว้วางใจคือสิ่งที่การดำรงอยู่ของมนุษย์ต้องพึ่งพา ไม่ใช่แค่อารยธรรมเท่านั้น แต่ยังรวมถึงชุมชนเล็ก ๆ และการแลกเปลี่ยนพื้นฐานของความคิด สินค้า และบริการด้วย
      คาดเดาไม่ได้ว่าความเสี่ยงที่ generative AI จะทำลายความไว้วางใจจะคลี่คลายไปอย่างไร แต่ผมมองโลกในแง่ดีว่าในท้ายที่สุดความคิดสร้างสรรค์ของมนุษย์จะชนะ
    • ไฟล์เสียงดิจิทัลถือเป็นหลักฐานของอะไรได้ยาก ต่อให้ไม่มีการโคลนเสียง ก็สามารถตัดแปะและแก้ไขเสียงให้เกือบเป็นอะไรก็ได้ตามต้องการ
      ถ้าฝึกหน่อย การเลียนแบบวิธีพูดของคนอื่นก็ไม่ใช่เรื่องยาก และเป็นสิ่งที่ทั้งมือสมัครเล่นกับนักแสดงมืออาชีพทำกันเป็นปกติ
      สิ่งที่เปลี่ยนไปมีแค่ว่ามันทำได้ง่ายขึ้น และในทางกลับกันก็ควรช่วยให้ทุกคนเข้าใจว่า “หลักฐาน” แบบนั้นเชื่อถือได้ยากแค่ไหน
    • เรื่องแบบนี้ก็เป็นปัญหาใหญ่ แต่ปัญหาที่ใหญ่กว่าคือสถานการณ์ที่สายโทรศัพท์สแปมเก็บเสียงผมไปสัก 10 วินาที แล้ว โทรไปหาธนาคารหรือครอบครัวด้วยเสียงของผม
      Android และ iOS ควรรองรับตัวแปลงเสียงแบบเรียลไทม์ให้เหมือนเป็นฟีเจอร์พื้นฐาน และมีปุ่มปิดอย่างรวดเร็วในแอปโทรศัพท์ รวมถึงตัวเลือกให้ปิดไว้สำหรับรายชื่อคนรู้จัก
    • ผมเริ่มมองว่ากระแสตื่นตระหนกเกี่ยวกับการใช้ AI ในทางอาชญากรรมหรือประสงค์ร้ายนั้นคล้ายกับกระแสอวยการใช้งาน AI แบบอื่น ๆ
      แน่นอนว่าจะมีการใช้งานจริงที่สร้างความสั่นสะเทือน แต่ความต่างระหว่างสิ่งที่เทคโนโลยีทำให้เป็นไปได้ใหม่ กับสิ่งที่เดิมก็ทำได้อยู่แล้วนั้นน้อยกว่าที่ผู้คนพูดกันมาก
  • นี่ไม่ใช่การโคลนเสียง แต่ใกล้เคียงกับการ คัดลอกโทนเสียง มากกว่า ในเอกสารก็เขียนไว้อย่างนั้น แต่ยังเรียกว่า voice cloning อยู่ดี
    ผมลองใช้เองแล้วเสียงออกมาเป็นสำเนียงอเมริกัน ไม่ใช่สำเนียง Lancashire นุ่ม ๆ ตามปกติของผม และไม่เหมือนผมเลยสักนิด

    • ถ้าใช้ https://voiceshopai.github.io น่าจะทำให้กลับไปใกล้สำเนียงเดิมได้มากขึ้น
      VoiceShopAi สามารถเปลี่ยนเสียงวัยรุ่นให้เป็นเสียงคนแก่ เปลี่ยนเสียงผู้ชายเป็นผู้หญิง หรือเปลี่ยนเป็นสำเนียงของประเทศใดก็ได้
      ผมเจอจาก https://github.com/metame-ai/awesome-audio-plaza ซึ่งติดตามรายการใหม่ ๆ ในวงการเสียง
    • ผมก็ลองกับเสียงตัวเองเหมือนกัน โชคดีที่ ไม่ได้ฟังเหมือนเสียงผมเลยแม้แต่น้อย
    • ชื่อหัวข้อหรือชื่อเรียกไม่ค่อยดีนัก ถ้ามองในเชิงเมตากว่านั้น ช่วงนี้บางครั้งรู้สึกว่าคอมเมนต์ใน HN เริ่มเปลี่ยนไปเป็นเหมือน การตอบสนองต่อพาดหัวแบบ Reddit มากกว่าจะดูต้นฉบับหรือตัวเทคโนโลยีเอง
  • กรณีใช้งานที่ถูกต้องชอบธรรมของเทคโนโลยีนี้คืออะไร? ผมนึกการใช้งานเพื่อหลอกคนอื่นได้เป็นร้อยแบบ แต่ไม่ค่อยนึกออกว่ามีสถานการณ์ไหนที่อยากโคลนหรือสร้างเสียงของตัวเองขึ้นมาใหม่

    • เวลาบันทึกพอดแคสต์แล้วอยากแก้แค่บางคำ ก็ใช้ได้โดยไม่ต้องยุ่งยากอัดใหม่
      นักพัฒนาเกมอินดี้อาจสร้าง NPC ที่มีชีวิตชีวา มีเสียงเฉพาะตัว และบทสนทนาขับเคลื่อนด้วยโมเดลภาษาขนาดใหญ่ได้
      ระหว่างสร้างภาพยนตร์ ก็อาจปรับบทพูดบางประโยคโดยได้รับความยินยอมจากนักแสดง
      คนที่ค่อย ๆ สูญเสียเสียงเพราะปัญหาสุขภาพ แต่ยังอยากสื่อสารต่อ ก็จำเป็นต้องใช้
      เทคโนโลยีนี้มีกรณีใช้งานที่ถูกต้องชอบธรรมอย่างชัดเจน โดยส่วนตัวผมคิดว่าการใช้งานที่ไม่ถูกต้องจะมีมากกว่าการใช้งานที่ถูกต้อง แต่การบอกว่าไม่มีการประยุกต์ใช้ที่ชอบธรรมเลยนั้นไม่ยุติธรรม
      ควรทำให้การนำไปใช้ในทางที่ผิดเป็นอาชญากรรมและกำกับดูแลอย่างเข้มงวด ไม่ใช่แบนทั้งหมด และในกรณีของซอฟต์แวร์กับโมเดลขนาดเล็ก การแบนก็ค่อนข้างทำได้ยากด้วย
    • เป็นเพียงเรื่องของเวลาก่อนที่เอเจนต์อย่าง Alexa จะใช้ เสียงที่ปรับแต่งเฉพาะบุคคล ได้ดีขึ้น
      หนังสือเสียงก็สามารถอ่านด้วยเสียงแยกตามตัวละคร แทนที่จะให้นักพากย์คนเดียวฝืนแสดงทุกบท
      ถ้าเป็นหวัดแต่ยังอยากกล่าวสุนทรพจน์โดยไม่ไอ ก็ทำได้
      สำหรับการส่งข้อมูลเสียงแบบแบนด์วิดท์ต่ำ อาจส่งแค่ข้อความแล้วให้โมเดลเสียงในเครื่องเล่นออกมา
      อาจใช้สนทนากับคนรักที่จากไปแล้วก็ได้
      ใช้เพื่อความขำขันหรือคอมเมดีก็ได้
    • ดูเหมือนจะไม่ได้คิดจริงจังเท่าไร สิ่งแรกที่ผมนึกถึงคือการใช้การโคลนเสียงของตัวเองกับ การแปลแบบเรียลไทม์
      ถ้าสมมติว่าการแปลที่สมบูรณ์แบบจะไม่ถูกนำไปใช้ในทางประสงค์ร้าย ผมมองว่านี่เป็นการใช้งานที่มีประโยชน์เสมอและไม่ชั่วร้ายเลย
    • ผมมีเพื่อนที่กล่องเสียงเป็นอัมพาต เขาจึงมักพิมพ์บนโทรศัพท์หรือแล็ปท็อปเครื่องเล็ก ๆ เพื่อสื่อสาร
      ถ้าสามารถอาศัยบันทึกเสียงพูดในอดีตเพื่อคืน “เสียงของตัวเอง” ให้เขาได้อย่างน้อยระดับหนึ่ง เขาคงดีใจมาก
      น่าเสียดายที่ผมยังไม่เห็นเครื่องมือที่สร้าง โมเดลเสียง ซึ่งเสียบใช้กับ Android TTS หรือ Windows ที่เขาใช้อยู่ได้
    • ผมเล่น Counter-Strike เยอะ และถ้าคนใช้ เสียง Joe Biden ด่าทีมตรงข้ามก็คงฮาดี
  • ถ้าจะติดตามวงการนี้ต่อ ควรดูที่ไหนดี? ผมอยากสร้างสรรค์ผลงานด้วยเครื่องมือแบบนี้ แต่เสียงของผมเองไม่ค่อยเหมาะกับการใช้งานแบบนั้น เลยสนใจมาก
    ถ้าจะทำให้ออกมาเป็นธรรมชาติมากขึ้น ผมคิดว่า การแปลงเสียงเป็นเสียง น่าจะดีกว่าการแปลงข้อความเป็นเสียง เคยลองใช้เครื่องมืออย่าง RVC มาบ้าง แต่รู้สึกว่าน่าจะมีเวิร์กโฟลว์ดี ๆ อีกมากที่ผมพลาดไปท่ามกลางกระแสเสียงรบกวนของ AI
    โดยเฉพาะอยากรู้เพิ่มเติมเกี่ยวกับเวิร์กโฟลว์ที่น่าสนใจ และคนที่ใช้ AI ทำสิ่งสนุก ๆ

    • แน่นอนว่าคือ Twitter ทุกอย่างประกาศและถกกันที่นั่น
  • ที่นี่มี แนวคิดวันสิ้นโลกและดราม่าที่ปั่นเกินจริง ค่อนข้างเยอะ เมื่อเทียบกับวิธี AI โคลนเสียงเดิม ๆ ที่เปิดให้ใช้สาธารณะมาได้ราว 1 ปีแล้ว การเปิดตัวครั้งนี้แย่กว่าตรงไหนกัน?

  • ผมตั้งตารอจริง ๆ ที่จะมี หนังสือเสียงที่อ่านด้วยเสียงของผู้เขียน จากการโคลนเสียง
    แน่นอนว่าคงไม่ดีเท่าผู้เขียนอ่านเองจริง ๆ แต่เสียงของผู้เขียนมีอะไรบางอย่างที่นักพากย์ให้ไม่ได้ นักพากย์มักออกเสียงเป็นมาตรฐานและเว่อร์เกินไป จนส่วนตัวรู้สึกเชื่อมโยงได้น้อยกว่า

    • สิ่งที่ผู้เขียนเพิ่มให้ได้ แม้จะไม่ใช่นักอ่านที่ผ่านการฝึกมา คือโทนเสียงที่ตรงกับเจตนาว่าประโยคในหนังสือควรถูกพูดและเข้าใจอย่างไร
      AI คงทำแบบนั้นไม่ได้ ต่อให้ดีขึ้นแค่ไหนก็อ่านใจผู้เขียนไม่ได้ ผลลัพธ์จะยิ่งทั่วไปกว่านักอ่านที่เป็นมนุษย์เสียอีก
    • กลับกัน ผมกังวลเรื่องนั้นมากกว่า ไม่เข้าใจว่าทำไมหนังสือต้องให้ผู้เขียนอ่าน
      นักพากย์ ที่ผ่านการฝึกทำได้ดีกว่ามาก และยังปรับเสียงให้เข้ากับบรรยากาศได้ด้วย
      ถ้าเป็นอัตชีวประวัติก็พอเข้าใจ แต่กรณีแบบนั้นส่วนใหญ่ผู้เขียนก็มักอ่านเองอยู่แล้ว
    • ถ้าคุณรู้สึกว่านักพากย์หนังสือเสียงทั่วไปเกินไป สำหรับ การอ่านโดย AI ที่ฝึกด้วยเสียงผู้เขียน ผมมีข่าวร้ายกว่านั้นอีก
    • ผมแทบไม่อยากให้ผู้เขียนอ่านหนังสือของตัวเองให้ฟังเลย ผู้เขียนคือคนที่เขียนเก่ง และหนังสือเสียงไม่ใช่แค่การ “อ่าน” คำบนหน้ากระดาษ
      ถ้าเป็นเครื่องมืออย่าง Descript ที่ให้ผู้เขียนปรับการออกเสียงหลังบรรยายก็ว่าไปอย่าง แต่ผมไม่ได้อยากได้เสียงของผู้เขียน
      ผมสนใจการฝึกโมเดลด้วยเสียงของ Allyson Johnson ให้มาอ่านหนังสือชุด Honor Harrington และอัดใหม่ 1–2 เล่มในภาคแยกที่ใช้นักอ่านคนอื่น นักอ่านคนนั้นแย่มาก
      น่าจะใช้ช่วยจัดการปัญหาในซีรีส์ Wheel of Time ได้ด้วย ที่มีนักอ่านสองคนเดิม แต่เปลี่ยนการออกเสียงชื่อและคำหลายคำไปตามแต่ละเล่ม โดยเฉพาะ “Moghedien” ที่เด่นมาก
      ออกเสียงอย่างน้อยสามแบบ: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
    • คงดีถ้าหนังสือเสียงแต่ละเล่มมี ตัวเลือกผู้บรรยาย มีผู้บรรยายที่ผมชอบ และก็มีผู้บรรยายที่ผมทนฟังไม่ได้เลย
      อีกอย่าง ถ้าไม่ใช้ AI ก็มีหนังสืออีกเป็นพันเป็นหมื่นเล่มที่ไม่มีวันได้ออกมาในรูปแบบเสียง
  • เกี่ยวข้อง: https://github.com/topics/voice-clone

    • อยากรู้ว่ามีตัวไหนในนี้ที่ใช้งานได้จริงบ้างไหม
      ทุกครั้งที่ลองจนถึงตอนนี้ เสียงที่ได้ไม่ใช่ทั้งเสียงเป้าหมายของผมและไม่ใช่เสียงต้นฉบับ แต่ฟังเหมือน เสียงใหม่แบบสุ่ม เฉย ๆ
  • เห็นมี Python notebook อยู่บ้าง แต่ถ้า README มี โค้ดตัวอย่าง ด้วยก็น่าจะดีกว่านี้