OpenVoice: เทคโนโลยีอเนกประสงค์สำหรับการโคลนเสียงแบบฉับพลัน

(arxiv.org)

5 คะแนน โดย GN⁺ 2024-01-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มุ่งแก้ปัญหา Zero-shot TTS ที่สามารถ โคลนโทนเสียง ของผู้พูดจากเสียงอ้างอิงสั้น ๆ และให้พูดได้หลายภาษา โดยไม่ต้องฝึกเพิ่มรายผู้พูด
แกนสำคัญคือสถาปัตยกรรมที่แยกการโคลนโทนเสียงออกจากการควบคุมภาษาและสไตล์ โดย base speaker TTS จะสร้างอารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชัน ส่วน tone color converter จะใส่โทนเสียงของผู้พูดอ้างอิงเข้าไป
สามารถโคลนเสียงแบบ zero-shot cross-lingual ได้แม้ไม่มีข้อมูลฝึกหลายผู้พูดขนาดใหญ่สำหรับภาษาใหม่ โดยใช้ข้อมูลฝึก 30K ประโยคสำหรับ base TTS และ 20K คนกับตัวอย่างเสียง 300K สำหรับ converter
การติดตั้งใช้งานทั้งหมดเป็นสถาปัตยกรรม feed-forward ที่ไม่มีองค์ประกอบแบบ autoregressive หรือ diffusion และเวอร์ชันที่ปรับแต่งแล้วทำงานได้ 12× แบบเรียลไทม์บน A10G GPU เดี่ยว โดยใช้เวลา 85ms ในการสร้างเสียงยาว 1 วินาที
มีการเปิดเผยซอร์สโค้ดและค่าน้ำหนักโมเดลแล้ว และ OpenVoice ถูกใช้งานเป็นเอนจินเสียงของ MyShell.ai สำหรับผู้ใช้มากกว่า 2 ล้านคนทั่วโลก ขณะที่เวอร์ชันภายในถูกใช้งานหลายสิบล้านครั้งระหว่างเดือนพฤษภาคมถึงตุลาคม 2023

ปัญหาการโคลนเสียงแบบฉับพลันที่ OpenVoice มุ่งแก้

การโคลนเสียงแบบฉับพลัน (IVC) คือ TTS ที่โคลนเสียงของผู้พูดเฉพาะรายจากเสียงอ้างอิงสั้น ๆ และยังเรียกว่า Zero-shot TTS เพราะทำงานได้โดยไม่ต้องฝึกเพิ่มรายผู้พูด
การใช้งานครอบคลุมตั้งแต่การผลิตสื่อ คัสตอมแชตบอต ไปจนถึง ปฏิสัมพันธ์แบบมัลติโมดัล ระหว่างมนุษย์กับคอมพิวเตอร์หรือโมเดลภาษาขนาดใหญ่
วิธีเดิมมีข้อจำกัดต่างกันในด้านความเร็ว ความสามารถในการควบคุม และการขยายไปหลายภาษา
- วิธีแบบ autoregressive อย่าง VALLE, XTTS โคลนโทนเสียงโดยใช้ acoustic token หรือ speaker embedding ของเสียงอ้างอิงเป็นเงื่อนไข แต่ยากต่อการควบคุมสไตล์อย่างยืดหยุ่น เช่น อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชัน
- วิธีแบบ non-autoregressive อย่าง YourTTS, Voicebox เร็วในการอนุมาน แต่ไม่สามารถควบคุมพารามิเตอร์ด้านสไตล์นอกเหนือจากโทนเสียงได้อย่างยืดหยุ่น
- การโคลนเสียงข้ามภาษาที่มีอยู่เดิมมักต้องใช้ MSML dataset ที่มีผู้พูดจำนวนมากในแต่ละภาษา จึงเพิ่มภาษาใหม่ได้ยาก
OpenVoice จัดการเป้าหมายทั้งสามข้อพร้อมกัน
- โคลนโทนเสียงของผู้พูดอ้างอิง พร้อมควบคุมอารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชันแยกจากกัน
- ทำ cross-lingual cloning ได้แม้ภาษาของผู้พูดอ้างอิงหรือภาษาที่ต้องการสร้างจะไม่มีอยู่ในข้อมูลฝึก MSML
- ให้การอนุมานแบบเรียลไทม์ที่รวดเร็วสำหรับสภาพแวดล้อมเชิงพาณิชย์ขนาดใหญ่โดยไม่ลดทอนคุณภาพ

สถาปัตยกรรมที่แยกโทนเสียงออกจากสไตล์

แนวคิดหลักของ OpenVoice คือไม่ให้โมเดลขนาดใหญ่ตัวเดียวเรียนรู้โทนเสียง ภาษา และสไตล์พร้อมกัน แต่แยกออกเป็นงานย่อยที่ง่ายกว่า
base speaker TTS model รับผิดชอบภาษาและสไตล์
- ใช้ได้ทั้งโมเดล TTS ผู้พูดเดี่ยวหรือหลายผู้พูด
- สามารถปรับ VITS ให้ใส่ style embedding และ language embedding เข้าไปใน text encoder กับ duration predictor ได้
- InstructTTS รองรับ style prompt
- ใช้โมเดลเชิงพาณิชย์อย่าง Microsoft TTS ที่กำหนดอารมณ์ การเว้นช่วง และวิธีออกเสียงผ่าน SSML ได้เช่นกัน
- หรือจะให้มนุษย์อ่านข้อความด้วยสไตล์และภาษาที่ต้องการเพื่อสร้าง base voice ก็ได้
- ใน implementation ที่เปิดเผยสาธารณะ ใช้ VITS เป็นค่าเริ่มต้น
tone color converter เปลี่ยนเสียงของ base speaker ให้เป็นโทนเสียงของผู้พูดอ้างอิง
- encoder เป็น 1D convolutional neural network ที่รับ short-time Fourier transformed spectrum ของเสียง base speaker เป็นอินพุต
- tone color extractor เป็น 2D convolutional neural network ที่ดึงเวกเตอร์เดี่ยวซึ่งเก็บข้อมูลโทนเสียงจาก mel-spectrogram
- normalizing flow สร้างตัวแทนที่ลบข้อมูลโทนเสียงออกจากเสียง base แต่ยังคงภาษาและสไตล์ไว้
- ตัวแทนนี้ถูกจัดแนวตามแกนเวลากับ feature ที่อิง IPA
- inverse flow จะใส่เวกเตอร์โทนเสียงของผู้พูดอ้างอิงเป็นเงื่อนไข เพื่อเติมโทนเสียงใหม่ลงใน feature map
- HiFi-GAN สร้าง raw waveform ขั้นสุดท้าย
โมเดลทั้งหมดใน implementation ที่เปิดเผยทำงานแบบ feed-forward โดยไม่มีองค์ประกอบ autoregressive
วิธีดึงหน่วยเสียงที่อิง HuBERT มีปัญหาว่าลบไม่เพียงข้อมูลโทนเสียง แต่รวมถึงอารมณ์และน้ำเสียงด้วย
วิธีอื่นที่สร้าง information bottleneck เพื่อคงไว้เฉพาะเนื้อหาเสียง ยังลบโทนเสียงได้ไม่สมบูรณ์
ความใหม่ของ OpenVoice ไม่ได้อยู่ที่การประดิษฐ์ submodule ทีละตัว แต่คือเฟรมเวิร์กที่แยก การควบคุมสไตล์และภาษา ออกจากการโคลนโทนเสียง

ข้อมูลฝึกและเป้าหมายการฝึก

การฝึก base speaker TTS ใช้ข้อมูลจากผู้พูด 4 คน
- ผู้พูดภาษาอังกฤษสำเนียงอเมริกัน 1 คน ผู้พูดภาษาอังกฤษสำเนียงอังกฤษ 1 คน ผู้พูดภาษาจีน 1 คน และผู้พูดภาษาญี่ปุ่น 1 คน
- รวม 30K ประโยค ความยาวเฉลี่ย 7 วินาทีต่อประโยค
- ข้อมูลภาษาอังกฤษและภาษาจีนมี label สำหรับการจำแนกอารมณ์
VITS ที่ปรับแก้แล้วจะป้อน emotion categorical embedding, language categorical embedding และ speaker id เข้าไปใน text encoder, duration predictor และ flow layer
base model ที่ฝึกแล้วสามารถเปลี่ยนน้ำเสียงและภาษาได้ด้วยการสลับ base speaker และอ่านข้อความอินพุตด้วยอารมณ์ที่ต่างกัน
ในการทดลองเพิ่มข้อมูลฝึก พบว่าสามารถเรียนรู้จังหวะ การเว้นช่วง และอินโทเนชันได้ในลักษณะเดียวกับอารมณ์
การฝึก tone color converter ใช้ตัวอย่างเสียง 300K จาก 20K คน
- ภาษาอังกฤษประมาณ 180K ตัวอย่าง
- ภาษาจีนประมาณ 60K ตัวอย่าง
- ภาษาญี่ปุ่นประมาณ 60K ตัวอย่าง
- ชุดข้อมูลนี้เรียกว่า MSML dataset
เป้าหมายการฝึกของ converter มีสองข้อ
- ใช้ mel-spectrogram loss และ HiFi-GAN loss เพื่อให้ encoder-decoder สร้างเสียงที่เป็นธรรมชาติ
- ฝึก flow layer ให้ลบข้อมูลโทนเสียงออกจาก audio feature ให้ได้มากที่สุด
การฝึกลบโทนเสียงจะเปลี่ยนข้อความเป็นลำดับ IPA phoneme แล้วสร้าง text content feature ด้วย learnable embedding และ transformer encoder จากนั้นจัดแนวกับ audio feature ด้วย dynamic time warping และทำให้ KL-divergence ต่ำที่สุด
flow layer ไม่ได้รับสไตล์หรือภาษาเป็นเงื่อนไข เพื่อหลีกเลี่ยงการลบข้อมูลอื่นนอกเหนือจากโทนเสียง
เนื่องจาก flow layer เป็นโครงสร้างแบบ invertible เมื่อใส่ข้อมูลโทนเสียงใหม่เป็นเงื่อนไขแล้วรัน inverse process ก็สามารถเติมโทนเสียงของผู้พูดอ้างอิงกลับเข้าไป โดยคงเนื้อหาและสไตล์เดิมไว้ได้

ผลการทดลองและข้อจำกัดที่พบ

การประเมินการโคลนเสียงเปรียบเทียบเชิงตัวเลขกันได้ยาก เพราะแต่ละงานวิจัยใช้ชุดฝึก ชุดทดสอบ และเงื่อนไขการวัด Mean Opinion Score ต่างกัน
การประเมิน OpenVoice จึงเน้นการวิเคราะห์เชิงคุณภาพภายในงานและการเปิดเผยตัวอย่างเสียง มากกว่าการเทียบตัวเลขกับวิธีเดิม
ชุดทดสอบ การโคลนโทนเสียง มีทั้งคนดัง ตัวละครเกม และบุคคลนิรนามเป็นผู้พูดอ้างอิง
- มีทั้งเสียงที่มีเอกลักษณ์และการแสดงออกสูง รวมถึงตัวอย่างที่เป็นกลางใน distribution ของเสียงมนุษย์
- โคลนโทนเสียงอ้างอิงในหลายคู่ผสมระหว่าง base speaker 4 คนกับผู้พูดอ้างอิงหลายราย และสร้างเสียงหลายภาษาและหลายสำเนียง
การประเมิน การควบคุมสไตล์ สร้างคอร์ปัสตัวอย่าง 1K ชิ้นด้วย base speaker model และ Microsoft TTS SSML จากนั้นแปลงเป็นโทนเสียงอ้างอิง
- อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชันถูกคงไว้ได้ดี
- ในบางกรณีที่พบไม่บ่อย อารมณ์จะถูกทำให้เป็นกลางลงเล็กน้อย
- ปัญหานี้บรรเทาได้โดยแทนที่ tone color embedding vector ของประโยคเฉพาะ ด้วยเวกเตอร์เฉลี่ยที่ได้จากหลายประโยคอารมณ์ต่างกันของ base speaker คนเดียวกัน
การโคลนข้ามภาษาทำงานแบบ near zero-shot สำหรับภาษาที่ไม่มีอยู่ใน MSML dataset
- แม้ภาษาของผู้พูดอ้างอิงจะไม่มีใน MSML dataset ก็ยังโคลนโทนเสียงของผู้พูดอ้างอิงได้
- แม้ภาษาที่ต้องการสร้างจะไม่มีใน MSML dataset หาก base speaker TTS รองรับภาษานั้น ก็สามารถพูดภาษานั้นด้วยโทนเสียงอ้างอิงได้
- อย่างไรก็ตาม ยังต้องมี base speaker สำหรับภาษานั้น
ในการทดสอบความเร็ว OpenVoice เวอร์ชันที่ปรับแต่งแล้ว รวมทั้ง base speaker model และ tone converter ทำได้ 12× แบบเรียลไทม์บน A10G GPU เดี่ยว
- ใช้เวลา 85ms ในการสร้างเสียงยาว 1 วินาที
- จากการวิเคราะห์การใช้ GPU คาดว่าเพดานสูงสุดอยู่ที่ราว 40× แบบเรียลไทม์ แต่การปรับปรุงนี้ยังเป็นงานในอนาคต
การใช้ IPA สำคัญต่อการแปลงโทนเสียงข้ามภาษา
- IPA เป็นพจนานุกรมหน่วยเสียงแบบรวมข้ามภาษา จึงช่วยให้ flow layer สร้างตัวแทนที่เป็นกลางต่อภาษาได้
- ในการทดลองกับพจนานุกรมหน่วยเสียงแบบอื่น มีแนวโน้มออกเสียงบางหน่วยเสียงของภาษาที่ไม่เคยอยู่ในการฝึกผิด
- แม้อินพุตเสียงจะถูกต้อง เอาต์พุตเสียงก็อาจมีปัญหาหรือฟังเหมือนผู้ที่ไม่ใช่เจ้าของภาษาได้มากขึ้น

เอกสารที่เปิดเผยและการใช้งานจริง

OpenVoice เปิดเผย ซอร์สโค้ด และโมเดลที่ฝึกแล้วเพื่อการทำซ้ำงานวิจัยและการศึกษาต่อยอด
ดูผลลัพธ์เชิงคุณภาพได้ที่ OpenVoice demo
เดโมแบบละเอียดแบ่งเป็นหมวดดังนี้
ก่อนเปิดเผยสู่สาธารณะ เวอร์ชันภายในถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกตั้งแต่เดือนพฤษภาคมถึงตุลาคม 2023
MyShell.ai ใช้ OpenVoice เป็นแบ็กเอนด์สำหรับการโคลนเสียงแบบฉับพลัน และพบว่าจำนวนผู้ใช้บนแพลตฟอร์มเพิ่มขึ้นหลายร้อยเท่า
ปัจจุบัน OpenVoice ถูกให้บริการเป็นเอนจินเสียงของ MyShell.ai แก่ผู้ใช้มากกว่า 2 ล้านคนทั่วโลก

1 ความคิดเห็น

GN⁺ 2024-01-02

ความคิดเห็นจาก Hacker News

จุดที่ผู้เขียนทำให้ ลองทดสอบได้ทันทีอย่างง่ายๆ นั้นดี แต่สำหรับการโคลนเสียงทั่วไปแล้วไม่ค่อยเหมาะนัก
ให้มันอ่านย่อหน้าแรกของ Wikipedia เกี่ยวกับหนังสือเล่มหนึ่ง แล้วสร้างประโยคถัดไปออกมา แต่ฟังด้วยหูก็ชัดเจนว่าเป็นเสียงที่คอมพิวเตอร์สร้างขึ้น
ตัวอย่างเสียง: https://storage.googleapis.com/dalle-party/sample.mp3
เสียงที่โคลน (แปลงเป็น mp3): https://storage.googleapis.com/dalle-party/output_en_default...
ผมแค่ติดตั้งแพ็กเกจด้วย pip ใส่ตัวอย่างเสียง แล้วรัน demo_part1.ipynb เท่านั้น และบนโน้ตบุ๊ก 3070 Ti / 8GB ก็เสร็จแทบจะทันที
- ใน README ก็ระบุว่าเป็น โอเพนซอร์สอิมพลีเมนเทชัน ที่ประมาณประสิทธิภาพของเทคโนโลยีโคลนเสียงภายใน และเวอร์ชันออนไลน์ของ myshell.ai ดีกว่าในด้านคุณภาพเสียง ความคล้ายของเสียงที่โคลน ความเป็นธรรมชาติของคำพูด และประสิทธิภาพการคำนวณ
- ขอบคุณสำหรับตัวอย่างจริง และสำหรับหูผมก็ฟังดูเหมือนเสียงที่สร้างขึ้นค่อนข้างมาก
  สงสัยว่าถ้าใส่ ข้อมูลเสียงต้นฉบับ มากขึ้น จะดีขึ้นได้แค่ไหน
- ดูจากเว็บไซต์และตัวอย่างแล้ว เหมือนถูกจัดวางมาอย่างค่อนข้างชัดเจนเพื่อสร้าง เสียงอนิเมชันแบบมีสไตล์
- จากประสบการณ์ที่เคยใช้เครื่องมืออื่นอย่าง xtts ถ้าต้องการผลลัพธ์ที่ดีที่สุด ก็จำเป็นต้องมี ตัวอย่างเสียงระดับสตูดิโอ จริงๆ
สงสัยว่าจะใช้สิ่งนี้ หรือ Eleven Labs เพื่อสร้าง โมเดลเสียงสำหรับเสียบเข้า TTS บนโทรศัพท์ Android ได้ไหม
ผมมีเพื่อนที่กล่องเสียงเป็นอัมพาต และมักสื่อสารด้วยการพิมพ์ข้อความลงโทรศัพท์หรือแล็ปท็อปเครื่องเล็กๆ
ถ้าสามารถนำเสียงของเพื่อนคนนั้นจากไฟล์บันทึกเก่าๆ กลับมา และคืนเสียง “ของตัวเอง” ให้ได้บ้าง เขาน่าจะดีใจมาก
- ลองดูโซลูชันอย่าง Acapela [0], SpeakUnique [1], VOCALiD [2] ได้
  แต่ไม่แน่ใจว่ามีโซลูชันสำหรับ Android หรือไม่
  เมื่อไม่นานมานี้ผมเห็นวิดีโอเสียงแบบกำหนดเองที่ Google ทำให้ผู้ป่วย ALS แต่หาออนไลน์ไม่เจอ
  บน Android ยังไม่มีการสร้างเสียงแบบกำหนดเองให้ใช้ แต่ iOS 17 รุ่นล่าสุดรองรับ การสร้างเสียงส่วนบุคคล
  ModelTalker [3] ดูเหมือนเป็นโครงการวิจัยระยะยาวด้านการสร้างเสียงแบบกำหนดเองสำหรับผู้ที่มีความบกพร่องทางการพูด และ TTS ดูเหมือนจะรองรับ Android จึงอาจเป็นอีกทางเลือกหนึ่ง
  [0] https://www.acapela-group.com/
  [1] https://www.speakunique.co.uk/
  [2] https://vocalid.ai/
  [3] https://www.modeltalker.org/
- น่าเสียดาย แต่ตอนนี้ยังทำไม่ได้
  ผมเคยมีส่วนร่วมกับ TTS ที่ Google และเคยทำฝั่ง Android ด้วย ส่วน iOS มีฟีเจอร์นี้ในตัวแล้ว
  ไม่มีผู้จัดการผลิตภัณฑ์ของ Google คนไหนที่ทรงพลังเท่ากับ “สิ่งที่ Apple เพิ่งเปิดตัว” ดังนั้นนี่อาจเป็นสัญญาณที่มีความหวังก็ได้
  ตอนนี้ผมกำลังทำงานด้านการอนุมานบนอุปกรณ์แบบข้ามแพลตฟอร์มอยู่ และดู FONNX บน GitHub ได้ เรื่องนี้เป็นหนึ่งใน 100 รายการที่จะค้างอยู่ในใจไปอีกสักพัก ถ้ามีเวลาจะลองติดต่อไป
  แก้ไข: ถ้าเป็น แอป Android ที่มีคีย์บอร์ดกับปุ่ม “พูด” และเรียก Eleven Labs API แบบนั้นจะเพียงพอให้น่าลองไหม?
GitHub: https://github.com/myshell-ai/OpenVoice
เช็กพอยต์: hxxps://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip
ผมรู้สึกไม่สบายใจกับลิงก์ที่ชี้ตรงไปยังไฟล์ zip ที่โฮสต์บน Amazon จึงทำให้ลิงก์เช็กพอยต์ใช้งานไม่ได้
และไม่ได้ตรวจสอบด้วยว่ามีอะไรอยู่ในไฟล์นั้น
- ลิงก์รีโพมีประโยชน์
  ส่วนเช็กพอยต์ ผมไม่ได้รู้สึกไม่สบายใจ และจะไม่ทำ ละครความปลอดภัย ด้วย
  จาก https://github.com/myshell-ai/OpenVoice?tab=readme-ov-file#i...
  ลิงก์ไปยัง https://myshell-public-repo-hosting.s3.amazonaws.com/checkpo...
- อยากรู้ว่าคำว่า “รู้สึกไม่สบายใจ” ในที่นี้หมายความว่าอะไร
ผมชอบบทความวิจัยนี้
อ่านแล้วให้ความรู้สึกประมาณว่า “เราทำแบบนี้ และอยากช่วยให้คนอื่นทำได้ด้วย”
โดยเฉพาะส่วน “Remark on Novelty” ยอดเยี่ยมมาก โดยบอกว่า OpenVoice ไม่ได้พยายามประดิษฐ์โมดูลย่อยของโครงสร้างโมเดล แต่ผลงานคือเฟรมเวิร์กที่แยกการควบคุมสไตล์เสียงและภาษาออกจากการโคลนโทนเสียง
ไม่ได้พยายามพูดเกินจริงเกี่ยวกับผลงานของตัวเอง
ตัวอย่าง: https://research.myshell.ai/open-voice
ดูค่อนข้างน่าประทับใจ
ไลเซนส์เป็น Creative Commons Attribution-NonCommercial 4.0 International License จึงห้ามใช้งานเชิงพาณิชย์ และระบุว่า MyShell สามารถตรวจจับได้ว่าเป็นเสียงที่สร้างด้วย OpenVoice หรือไม่ ไม่ว่าจะมีลายน้ำหรือไม่มี
ถ้าอย่างนั้นก็ไม่ใช่ “open” และเอาไปทำเงินไม่ได้ใช่ไหม?
- มันยังเป็น open อยู่ แค่ต่างจากนิยามของคุณ
  คุณดูโค้ด ใช้ และแก้ไขได้เท่าที่ต้องการ ดังนั้นผมถือว่าค่อนข้างเปิด
- ทำเงินไม่ได้
  แน่นอนว่าพวกมิจฉาชีพที่ไม่สนใจไลเซนส์ไม่เชิงพาณิชย์ก็คงทำได้
แม้จะไม่ได้โปรโมตกันมากนัก และก็ไม่รู้ว่า Apple ยังพัฒนาต่ออยู่หรือไม่ แต่ใน iOS มีฟีเจอร์โคลนเสียงชื่อ Personal Voice
ใช้เวลาประมาณ 15 นาทีในการฝึกด้วยเสียงของตัวเอง และใช้เวลาอีกหลายชั่วโมงในการประมวลผลแบบ on-device ขณะเครื่องล็อกอยู่
ใช้ได้กับการโทรศัพท์และ FaceTime และไม่รู้ว่าจะใช้ที่อื่นได้ด้วยหรือไม่
ถ้าใช้กับ TTS ทั่วไปได้ก็คงดี
- นี่เป็น ฟีเจอร์การเข้าถึง สำหรับคนที่กำลังสูญเสียเสียงหรือมีความเสี่ยงจะสูญเสียเสียง
  การบอกว่าใช้ได้ในการโทรศัพท์หรือ FaceTime อาจฟังดูเหมือนเป็นการแปลงเสียงเป็นเสียง แต่จริง ๆ แล้วใช้กับ TTS เท่านั้น
  เพราะไม่ใช่การแปลงเสียงเป็นเสียง จึงไม่สามารถคงสัญญาณที่ทำให้รู้สึกเหมือนเสียงจริง เช่น ลักษณะการพูดติดอ่าง หรือท่วงทำนองเสียงไว้ได้
ไม่กี่วันก่อนโทรไปยังธนาคารพาณิชย์รายใหญ่แห่งหนึ่งในสหราชอาณาจักร และพวกเขายังแนะนำให้สมัครโปรแกรมโง่ ๆ ที่ว่า “เสียงของฉันคือรหัสผ่านของฉัน” อยู่
ในยุคที่ AI มาถึงขั้นนี้แล้ว เรื่องนี้รู้สึกเหมือนเป็นความประมาทล้วน ๆ
- Fidelity Investments ทำเรื่องที่แย่กว่านั้นเมื่อประมาณหนึ่งสัปดาห์ก่อน
  ให้ตอบคำถามไม่กี่ข้อ แล้วก็บอกว่าผมเพิ่งถูกลงทะเบียนเข้าโปรแกรมระบุตัวตนด้วยเสียงแล้ว
  ตอนนี้เลยมีงานเพิ่มในรายการสิ่งที่ต้องทำอีกอย่าง คือไปยกเลิกมัน
  ทำให้สงสัยว่าทุกบริษัทเลื่อนตำแหน่งคนที่โง่ที่สุดขึ้นไปเป็นผู้บริหารกันหมดหรือเปล่า
- Investec หรือเปล่า? ผมก็คงต้องโทรไปปิดใช้งานเหมือนกัน
สิ่งแรกที่นึกขึ้นมา และตอนนี้ก็ยังคิดอยู่ คือการใช้ อย่างผิดศีลธรรมและในทางอาชญากรรม ของการโคลนเสียงน่าจะมีมากกว่าการใช้งานที่ถูกต้องตามกฎหมายอย่างมาก
- สิ่งแรกที่นึกถึงคือ การไม่เปิดเผยตัวตน
  สามารถทำวิดีโอ YouTube ได้โดยไม่ต้องใช้เสียงจริงของตัวเอง แต่ยังคงสำเนียงและการเน้นเสียงแบบส่วนตัวที่เสียง TTS AI ทำไม่ได้ไว้ได้
  หรือจะใช้ในการพัฒนาเกมอินดี้ก็ได้
  เรียนการพากย์เสียงขั้นพื้นฐานเพื่อลดความแข็งทื่อ แล้วแสดงทุกตัวละครเองด้วยเสียงหลายแบบได้
- อยากรู้ว่าได้พิจารณากรณีใช้งานที่ถูกกฎหมายอะไรไว้บ้าง และมากแค่ไหน
- แล้วกรณีที่การใช้งานเชิงพาณิชย์มีมากกว่าการใช้งานผิดกฎหมายล่ะ?
  YouTube จะทำให้ผู้คนฟังภาษาที่แปลท้องถิ่นแล้วด้วยเสียงของผู้สร้างต้นฉบับได้
- ไม่เห็นด้วย
  เราไม่ควร ยอมรับเสียงเป็นวิธีการยืนยันตัวตน อยู่แล้ว
  การใช้งานที่พบบ่อยที่สุดน่าจะเป็นการสร้างงานศิลปะและคอนเทนต์แบบโปรแกรมได้โดยไม่ต้องใช้นักพากย์
  เมื่อทำ pipeline วิดีโอหรือโมเดล 3D และการแปลงแบบเฟรมต่อเฟรมให้สมบูรณ์จนดูสมจริงได้ นักแสดงก็อาจแทบไม่จำเป็นอีกต่อไป
- คุยกับคนที่รักไว้ล่วงหน้า แล้วกำหนด รหัสลับ สำหรับสถานการณ์ทำนองว่าติดอยู่ในเหตุฉุกเฉินและต้องการให้โอนเงินก็พอ
  ธนาคารบางแห่งใช้การยืนยันตัวตนด้วยเสียงเวลาคุณโทรไป และจะออกจากระบบนั้นได้ก็ต่อเมื่อต้องขอเอง

OpenVoice: เทคโนโลยีอเนกประสงค์สำหรับการโคลนเสียงแบบฉับพลัน

ปัญหาการโคลนเสียงแบบฉับพลันที่ OpenVoice มุ่งแก้

สถาปัตยกรรมที่แยกโทนเสียงออกจากสไตล์

ข้อมูลฝึกและเป้าหมายการฝึก

ผลการทดลองและข้อจำกัดที่พบ

เอกสารที่เปิดเผยและการใช้งานจริง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News