5 คะแนน โดย GN⁺ 2024-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำ OpenVoice V1

  • ข้อดีของ OpenVoice มีดังนี้:
    • โคลนโทนเสียงได้อย่างแม่นยำ: OpenVoice สามารถโคลนโทนเสียงอ้างอิงได้อย่างแม่นยำ และสร้างเสียงพูดได้ในหลายภาษาและหลายสำเนียง
    • ควบคุมสไตล์เสียงได้อย่างยืดหยุ่น: OpenVoice สามารถควบคุมรายละเอียดของสไตล์เสียง เช่น อารมณ์และน้ำเสียง รวมถึงพารามิเตอร์สไตล์อื่น ๆ อย่างจังหวะ การเว้นช่วง และการลงเสียง
    • โคลนเสียงข้ามภาษาแบบ Zero-shot: ทั้งภาษาของเสียงที่สร้างขึ้นและภาษาของเสียงอ้างอิง ไม่จำเป็นต้องปรากฏอยู่ในชุดข้อมูลการฝึกหลายภาษาของผู้พูดขนาดใหญ่

แนะนำ OpenVoice V2

  • OpenVoice V2 เปิดตัวในเดือนเมษายน 2024 โดยรวมความสามารถทั้งหมดของ V1 และเพิ่มฟีเจอร์ดังต่อไปนี้:
    • คุณภาพเสียงที่ดีกว่าเดิม: OpenVoice V2 ใช้กลยุทธ์การฝึกแบบอื่นที่ให้คุณภาพเสียงดียิ่งขึ้น
    • รองรับหลายภาษาในตัว: OpenVoice V2 รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลีโดยตรง
    • ใช้งานเชิงพาณิชย์ได้ฟรี: ตั้งแต่เดือนเมษายน 2024 เป็นต้นมา V2 และ V1 เผยแพร่ภายใต้ไลเซนส์ MIT และสามารถใช้งานเชิงพาณิชย์ได้ฟรี

สถานะการใช้งานของ OpenVoice

  • OpenVoice ให้บริการฟีเจอร์โคลนเสียงแบบทันทีของ myshell.ai มาตั้งแต่เดือนพฤษภาคม 2023
  • ภายในเดือนพฤศจิกายน 2023 โมเดลโคลนเสียงถูกใช้งานไปแล้วหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลก และแพลตฟอร์มได้พบกับการเติบโตของผู้ใช้อย่างก้าวกระโดด

ผู้มีส่วนร่วมหลัก

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

วิธีใช้งาน

  • สำหรับวิธีใช้งานโดยละเอียด โปรดดู usage

ปัญหาที่พบบ่อย

  • สำหรับคำถามและคำตอบทั่วไป โปรดดู QA
  • รายการคำถามและคำตอบจะมีการอัปเดตเป็นประจำ

การเข้าร่วมชุมชน

  • เข้าร่วมชุมชน Discord และเลือกบทบาท 'Developer' ตอนสมัคร เพื่อรับสิทธิ์เข้าถึงช่องสำหรับนักพัฒนาโดยเฉพาะ
  • อย่าพลาดการสนทนาที่เป็นประโยชน์และโอกาสในการร่วมมือ

การอ้างอิง

  • การนำไปใช้งานนี้อ้างอิงจากโปรเจกต์คุณภาพหลายตัว เช่น TTS, VITS และ VITS2
  • ขอขอบคุณสำหรับผลงานอันยอดเยี่ยมของพวกเขา

ไลเซนส์

  • OpenVoice V1 และ V2 อยู่ภายใต้ไลเซนส์ MIT และใช้งานได้ฟรีทั้งเชิงพาณิชย์และเพื่อการวิจัย

ความเห็นของ GN⁺

  • OpenVoice เป็นเครื่องมือทรงพลังที่ช่วยสร้างเสียงพูดในหลากหลายภาษาและอารมณ์ได้อย่างง่ายดาย จึงมีแนวโน้มว่าจะนำไปใช้ได้ในหลายสาขา เช่น ภาพยนตร์ แอนิเมชัน และเกม

  • อย่างไรก็ตาม การที่สามารถโคลนเสียงได้ง่ายเกินไปก็เปิดช่องให้เกิดการใช้งานในทางที่ผิดได้ เช่น การใช้เสียงของคนดังโดยไม่ได้รับอนุญาตเพื่อสร้างวิดีโอ deepfake จึงดูเป็นเรื่องจำเป็นที่จะต้องมีมาตรการรับมือ

  • ผลิตภัณฑ์เชิงพาณิชย์ที่มีความสามารถคล้าย OpenVoice ได้แก่ Lyrebird, Resemble.ai และ Descript ซึ่งส่วนใหญ่ถูกนำไปใช้ในงานสนับสนุนลูกค้า คอลเซ็นเตอร์ และการพากย์วิดีโอ

  • เมื่อนำ OpenVoice ไปใช้งาน ควรระวังเรื่องความปลอดภัยของข้อมูลและปัญหาลิขสิทธิ์ นอกจากนี้ยังจำเป็นต้องตรวจสอบความเป็นธรรมชาติของเสียงที่สร้างขึ้นและความถูกต้องของการออกเสียงด้วย

  • เนื่องจากเปิดเผยเป็นโอเพนซอร์ส จึงคาดว่าจะมีการพัฒนาประสิทธิภาพอย่างต่อเนื่องจากการมีส่วนร่วมของนักพัฒนาหลากหลายกลุ่ม และยังน่าจับตาว่าจะสามารถมอบคุณภาพเสียงและฟีเจอร์ได้ถึงระดับผลิตภัณฑ์เชิงพาณิชย์หรือไม่

1 ความคิดเห็น

 
GN⁺ 2024-04-28
ความเห็นจาก Hacker News
  • เมื่อไม่นานมานี้มีกรณีที่โค้ชกีฬาคนหนึ่งใช้ AI สร้างคลิปเสียงปลอมเพื่อใส่ร้ายผู้อำนวยการโรงเรียนว่าได้พูดเหยียดเชื้อชาติ เรื่องนี้ชี้ให้เห็นว่ากฎหมายและการบังคับใช้กฎหมายต้องพยายามตามให้ทันความก้าวหน้าของเทคโนโลยี AI
  • คาดว่าปัญหาอย่างหลักฐานทางประวัติศาสตร์ปลอม การรั่วไหลปลอม การสนับสนุนปลอม และโฆษณาปลอมจะรุนแรงขึ้น ในสถานการณ์ที่แม้แต่บทความข่าวแบบข้อความล้วนยังแทบไม่ได้รับการตรวจสอบอย่างเหมาะสม ความเสียหายจากเทคโนโลยี AI ก็ยิ่งจะมากขึ้น
  • เทคโนโลยีนี้เลียนแบบได้เพียงโทนเสียง ไม่ได้คัดลอกเสียงจริงของบุคคล เอกสารก็ระบุไว้เช่นนั้น แต่ยังคงเรียกมันว่า "การโคลนเสียง" จึงทำให้เกิดความสับสน
  • ยากที่จะหากรณีการใช้งานที่ชอบธรรมของเทคโนโลยีนี้ มีโอกาสสูงที่จะถูกนำไปใช้หลอกลวงผู้อื่น
  • สำหรับคนที่อยากสร้างสิ่งน่าสนใจด้วยเทคโนโลยี AI สิ่งสำคัญคือการหาช่องทางที่ดีในการเข้าถึงข้อมูลที่เกี่ยวข้อง สนใจเวิร์กโฟลว์ที่น่าสนใจและผู้คนที่นำ AI ไปใช้มากกว่าตัวเทคโนโลยี AI เอง
  • เมื่อเทียบกับเทคโนโลยี AI สำหรับโคลนเสียงที่เผยแพร่ออกมาก่อนหน้านี้ ดูเหมือนว่ารีลีสนี้จะไม่ได้แย่เป็นพิเศษ มีทั้งมุมมองเชิงลบเกินไปและปฏิกิริยาที่เกินจริงอยู่มาก
  • หวังว่าเทคโนโลยีโคลนเสียงจะทำให้ผู้เขียนสามารถสร้างหนังสือเสียงด้วยเสียงของตัวเองได้ อาจไม่ดีเท่าการอ่านด้วยตนเอง แต่เสียงของผู้เขียนก็น่าดึงดูดกว่าการใช้ผู้พากย์
  • น่าจะดีถ้ามีโค้ดตัวอย่างอยู่ใน README
  • ลอง "โคลน" เสียงของตัวเองแล้ว แต่ผลลัพธ์ไม่ได้คล้ายเลย คิดว่าจะได้ยินเสียงตัวเองพูดภาษาฝรั่งเศส แต่กลับไม่เป็นเช่นนั้น ชื่อว่า "การโคลนเสียงแบบทันที" อาจทำให้เข้าใจผิดได้พอสมควร