- มุ่งแก้ปัญหา Zero-shot TTS ที่สามารถ โคลนโทนเสียง ของผู้พูดจากเสียงอ้างอิงสั้น ๆ และให้พูดได้หลายภาษา โดยไม่ต้องฝึกเพิ่มรายผู้พูด
- แกนสำคัญคือสถาปัตยกรรมที่แยกการโคลนโทนเสียงออกจากการควบคุมภาษาและสไตล์ โดย base speaker TTS จะสร้างอารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชัน ส่วน tone color converter จะใส่โทนเสียงของผู้พูดอ้างอิงเข้าไป
- สามารถโคลนเสียงแบบ zero-shot cross-lingual ได้แม้ไม่มีข้อมูลฝึกหลายผู้พูดขนาดใหญ่สำหรับภาษาใหม่ โดยใช้ข้อมูลฝึก 30K ประโยคสำหรับ base TTS และ 20K คนกับตัวอย่างเสียง 300K สำหรับ converter
- การติดตั้งใช้งานทั้งหมดเป็นสถาปัตยกรรม feed-forward ที่ไม่มีองค์ประกอบแบบ autoregressive หรือ diffusion และเวอร์ชันที่ปรับแต่งแล้วทำงานได้ 12× แบบเรียลไทม์บน A10G GPU เดี่ยว โดยใช้เวลา 85ms ในการสร้างเสียงยาว 1 วินาที
- มีการเปิดเผยซอร์สโค้ดและค่าน้ำหนักโมเดลแล้ว และ OpenVoice ถูกใช้งานเป็นเอนจินเสียงของ MyShell.ai สำหรับผู้ใช้มากกว่า 2 ล้านคนทั่วโลก ขณะที่เวอร์ชันภายในถูกใช้งานหลายสิบล้านครั้งระหว่างเดือนพฤษภาคมถึงตุลาคม 2023
ปัญหาการโคลนเสียงแบบฉับพลันที่ OpenVoice มุ่งแก้
- การโคลนเสียงแบบฉับพลัน (IVC) คือ TTS ที่โคลนเสียงของผู้พูดเฉพาะรายจากเสียงอ้างอิงสั้น ๆ และยังเรียกว่า Zero-shot TTS เพราะทำงานได้โดยไม่ต้องฝึกเพิ่มรายผู้พูด
- การใช้งานครอบคลุมตั้งแต่การผลิตสื่อ คัสตอมแชตบอต ไปจนถึง ปฏิสัมพันธ์แบบมัลติโมดัล ระหว่างมนุษย์กับคอมพิวเตอร์หรือโมเดลภาษาขนาดใหญ่
- วิธีเดิมมีข้อจำกัดต่างกันในด้านความเร็ว ความสามารถในการควบคุม และการขยายไปหลายภาษา
- วิธีแบบ autoregressive อย่าง VALLE, XTTS โคลนโทนเสียงโดยใช้ acoustic token หรือ speaker embedding ของเสียงอ้างอิงเป็นเงื่อนไข แต่ยากต่อการควบคุมสไตล์อย่างยืดหยุ่น เช่น อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชัน
- วิธีแบบ non-autoregressive อย่าง YourTTS, Voicebox เร็วในการอนุมาน แต่ไม่สามารถควบคุมพารามิเตอร์ด้านสไตล์นอกเหนือจากโทนเสียงได้อย่างยืดหยุ่น
- การโคลนเสียงข้ามภาษาที่มีอยู่เดิมมักต้องใช้ MSML dataset ที่มีผู้พูดจำนวนมากในแต่ละภาษา จึงเพิ่มภาษาใหม่ได้ยาก
- OpenVoice จัดการเป้าหมายทั้งสามข้อพร้อมกัน
- โคลนโทนเสียงของผู้พูดอ้างอิง พร้อมควบคุมอารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชันแยกจากกัน
- ทำ cross-lingual cloning ได้แม้ภาษาของผู้พูดอ้างอิงหรือภาษาที่ต้องการสร้างจะไม่มีอยู่ในข้อมูลฝึก MSML
- ให้การอนุมานแบบเรียลไทม์ที่รวดเร็วสำหรับสภาพแวดล้อมเชิงพาณิชย์ขนาดใหญ่โดยไม่ลดทอนคุณภาพ
สถาปัตยกรรมที่แยกโทนเสียงออกจากสไตล์
- แนวคิดหลักของ OpenVoice คือไม่ให้โมเดลขนาดใหญ่ตัวเดียวเรียนรู้โทนเสียง ภาษา และสไตล์พร้อมกัน แต่แยกออกเป็นงานย่อยที่ง่ายกว่า
- base speaker TTS model รับผิดชอบภาษาและสไตล์
- ใช้ได้ทั้งโมเดล TTS ผู้พูดเดี่ยวหรือหลายผู้พูด
- สามารถปรับ VITS ให้ใส่ style embedding และ language embedding เข้าไปใน text encoder กับ duration predictor ได้
- InstructTTS รองรับ style prompt
- ใช้โมเดลเชิงพาณิชย์อย่าง Microsoft TTS ที่กำหนดอารมณ์ การเว้นช่วง และวิธีออกเสียงผ่าน SSML ได้เช่นกัน
- หรือจะให้มนุษย์อ่านข้อความด้วยสไตล์และภาษาที่ต้องการเพื่อสร้าง base voice ก็ได้
- ใน implementation ที่เปิดเผยสาธารณะ ใช้ VITS เป็นค่าเริ่มต้น
- tone color converter เปลี่ยนเสียงของ base speaker ให้เป็นโทนเสียงของผู้พูดอ้างอิง
- encoder เป็น 1D convolutional neural network ที่รับ short-time Fourier transformed spectrum ของเสียง base speaker เป็นอินพุต
- tone color extractor เป็น 2D convolutional neural network ที่ดึงเวกเตอร์เดี่ยวซึ่งเก็บข้อมูลโทนเสียงจาก mel-spectrogram
- normalizing flow สร้างตัวแทนที่ลบข้อมูลโทนเสียงออกจากเสียง base แต่ยังคงภาษาและสไตล์ไว้
- ตัวแทนนี้ถูกจัดแนวตามแกนเวลากับ feature ที่อิง IPA
- inverse flow จะใส่เวกเตอร์โทนเสียงของผู้พูดอ้างอิงเป็นเงื่อนไข เพื่อเติมโทนเสียงใหม่ลงใน feature map
- HiFi-GAN สร้าง raw waveform ขั้นสุดท้าย
- โมเดลทั้งหมดใน implementation ที่เปิดเผยทำงานแบบ feed-forward โดยไม่มีองค์ประกอบ autoregressive
- วิธีดึงหน่วยเสียงที่อิง HuBERT มีปัญหาว่าลบไม่เพียงข้อมูลโทนเสียง แต่รวมถึงอารมณ์และน้ำเสียงด้วย
- วิธีอื่นที่สร้าง information bottleneck เพื่อคงไว้เฉพาะเนื้อหาเสียง ยังลบโทนเสียงได้ไม่สมบูรณ์
- ความใหม่ของ OpenVoice ไม่ได้อยู่ที่การประดิษฐ์ submodule ทีละตัว แต่คือเฟรมเวิร์กที่แยก การควบคุมสไตล์และภาษา ออกจากการโคลนโทนเสียง
ข้อมูลฝึกและเป้าหมายการฝึก
- การฝึก base speaker TTS ใช้ข้อมูลจากผู้พูด 4 คน
- ผู้พูดภาษาอังกฤษสำเนียงอเมริกัน 1 คน ผู้พูดภาษาอังกฤษสำเนียงอังกฤษ 1 คน ผู้พูดภาษาจีน 1 คน และผู้พูดภาษาญี่ปุ่น 1 คน
- รวม 30K ประโยค ความยาวเฉลี่ย 7 วินาทีต่อประโยค
- ข้อมูลภาษาอังกฤษและภาษาจีนมี label สำหรับการจำแนกอารมณ์
- VITS ที่ปรับแก้แล้วจะป้อน emotion categorical embedding, language categorical embedding และ speaker id เข้าไปใน text encoder, duration predictor และ flow layer
- base model ที่ฝึกแล้วสามารถเปลี่ยนน้ำเสียงและภาษาได้ด้วยการสลับ base speaker และอ่านข้อความอินพุตด้วยอารมณ์ที่ต่างกัน
- ในการทดลองเพิ่มข้อมูลฝึก พบว่าสามารถเรียนรู้จังหวะ การเว้นช่วง และอินโทเนชันได้ในลักษณะเดียวกับอารมณ์
- การฝึก tone color converter ใช้ตัวอย่างเสียง 300K จาก 20K คน
- ภาษาอังกฤษประมาณ 180K ตัวอย่าง
- ภาษาจีนประมาณ 60K ตัวอย่าง
- ภาษาญี่ปุ่นประมาณ 60K ตัวอย่าง
- ชุดข้อมูลนี้เรียกว่า MSML dataset
- เป้าหมายการฝึกของ converter มีสองข้อ
- ใช้ mel-spectrogram loss และ HiFi-GAN loss เพื่อให้ encoder-decoder สร้างเสียงที่เป็นธรรมชาติ
- ฝึก flow layer ให้ลบข้อมูลโทนเสียงออกจาก audio feature ให้ได้มากที่สุด
- การฝึกลบโทนเสียงจะเปลี่ยนข้อความเป็นลำดับ IPA phoneme แล้วสร้าง text content feature ด้วย learnable embedding และ transformer encoder จากนั้นจัดแนวกับ audio feature ด้วย dynamic time warping และทำให้ KL-divergence ต่ำที่สุด
- flow layer ไม่ได้รับสไตล์หรือภาษาเป็นเงื่อนไข เพื่อหลีกเลี่ยงการลบข้อมูลอื่นนอกเหนือจากโทนเสียง
- เนื่องจาก flow layer เป็นโครงสร้างแบบ invertible เมื่อใส่ข้อมูลโทนเสียงใหม่เป็นเงื่อนไขแล้วรัน inverse process ก็สามารถเติมโทนเสียงของผู้พูดอ้างอิงกลับเข้าไป โดยคงเนื้อหาและสไตล์เดิมไว้ได้
ผลการทดลองและข้อจำกัดที่พบ
- การประเมินการโคลนเสียงเปรียบเทียบเชิงตัวเลขกันได้ยาก เพราะแต่ละงานวิจัยใช้ชุดฝึก ชุดทดสอบ และเงื่อนไขการวัด Mean Opinion Score ต่างกัน
- การประเมิน OpenVoice จึงเน้นการวิเคราะห์เชิงคุณภาพภายในงานและการเปิดเผยตัวอย่างเสียง มากกว่าการเทียบตัวเลขกับวิธีเดิม
- ชุดทดสอบ การโคลนโทนเสียง มีทั้งคนดัง ตัวละครเกม และบุคคลนิรนามเป็นผู้พูดอ้างอิง
- มีทั้งเสียงที่มีเอกลักษณ์และการแสดงออกสูง รวมถึงตัวอย่างที่เป็นกลางใน distribution ของเสียงมนุษย์
- โคลนโทนเสียงอ้างอิงในหลายคู่ผสมระหว่าง base speaker 4 คนกับผู้พูดอ้างอิงหลายราย และสร้างเสียงหลายภาษาและหลายสำเนียง
- การประเมิน การควบคุมสไตล์ สร้างคอร์ปัสตัวอย่าง 1K ชิ้นด้วย base speaker model และ Microsoft TTS SSML จากนั้นแปลงเป็นโทนเสียงอ้างอิง
- อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชันถูกคงไว้ได้ดี
- ในบางกรณีที่พบไม่บ่อย อารมณ์จะถูกทำให้เป็นกลางลงเล็กน้อย
- ปัญหานี้บรรเทาได้โดยแทนที่ tone color embedding vector ของประโยคเฉพาะ ด้วยเวกเตอร์เฉลี่ยที่ได้จากหลายประโยคอารมณ์ต่างกันของ base speaker คนเดียวกัน
- การโคลนข้ามภาษาทำงานแบบ near zero-shot สำหรับภาษาที่ไม่มีอยู่ใน MSML dataset
- แม้ภาษาของผู้พูดอ้างอิงจะไม่มีใน MSML dataset ก็ยังโคลนโทนเสียงของผู้พูดอ้างอิงได้
- แม้ภาษาที่ต้องการสร้างจะไม่มีใน MSML dataset หาก base speaker TTS รองรับภาษานั้น ก็สามารถพูดภาษานั้นด้วยโทนเสียงอ้างอิงได้
- อย่างไรก็ตาม ยังต้องมี base speaker สำหรับภาษานั้น
- ในการทดสอบความเร็ว OpenVoice เวอร์ชันที่ปรับแต่งแล้ว รวมทั้ง base speaker model และ tone converter ทำได้ 12× แบบเรียลไทม์บน A10G GPU เดี่ยว
- ใช้เวลา 85ms ในการสร้างเสียงยาว 1 วินาที
- จากการวิเคราะห์การใช้ GPU คาดว่าเพดานสูงสุดอยู่ที่ราว 40× แบบเรียลไทม์ แต่การปรับปรุงนี้ยังเป็นงานในอนาคต
- การใช้ IPA สำคัญต่อการแปลงโทนเสียงข้ามภาษา
- IPA เป็นพจนานุกรมหน่วยเสียงแบบรวมข้ามภาษา จึงช่วยให้ flow layer สร้างตัวแทนที่เป็นกลางต่อภาษาได้
- ในการทดลองกับพจนานุกรมหน่วยเสียงแบบอื่น มีแนวโน้มออกเสียงบางหน่วยเสียงของภาษาที่ไม่เคยอยู่ในการฝึกผิด
- แม้อินพุตเสียงจะถูกต้อง เอาต์พุตเสียงก็อาจมีปัญหาหรือฟังเหมือนผู้ที่ไม่ใช่เจ้าของภาษาได้มากขึ้น
เอกสารที่เปิดเผยและการใช้งานจริง
- OpenVoice เปิดเผย ซอร์สโค้ด และโมเดลที่ฝึกแล้วเพื่อการทำซ้ำงานวิจัยและการศึกษาต่อยอด
- ดูผลลัพธ์เชิงคุณภาพได้ที่ OpenVoice demo
- เดโมแบบละเอียดแบ่งเป็นหมวดดังนี้
- ก่อนเปิดเผยสู่สาธารณะ เวอร์ชันภายในถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกตั้งแต่เดือนพฤษภาคมถึงตุลาคม 2023
- MyShell.ai ใช้ OpenVoice เป็นแบ็กเอนด์สำหรับการโคลนเสียงแบบฉับพลัน และพบว่าจำนวนผู้ใช้บนแพลตฟอร์มเพิ่มขึ้นหลายร้อยเท่า
- ปัจจุบัน OpenVoice ถูกให้บริการเป็นเอนจินเสียงของ MyShell.ai แก่ผู้ใช้มากกว่า 2 ล้านคนทั่วโลก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
จุดที่ผู้เขียนทำให้ ลองทดสอบได้ทันทีอย่างง่ายๆ นั้นดี แต่สำหรับการโคลนเสียงทั่วไปแล้วไม่ค่อยเหมาะนัก
ให้มันอ่านย่อหน้าแรกของ Wikipedia เกี่ยวกับหนังสือเล่มหนึ่ง แล้วสร้างประโยคถัดไปออกมา แต่ฟังด้วยหูก็ชัดเจนว่าเป็นเสียงที่คอมพิวเตอร์สร้างขึ้น
ตัวอย่างเสียง: https://storage.googleapis.com/dalle-party/sample.mp3
เสียงที่โคลน (แปลงเป็น mp3): https://storage.googleapis.com/dalle-party/output_en_default...
ผมแค่ติดตั้งแพ็กเกจด้วย
pipใส่ตัวอย่างเสียง แล้วรันdemo_part1.ipynbเท่านั้น และบนโน้ตบุ๊ก 3070 Ti / 8GB ก็เสร็จแทบจะทันทีสงสัยว่าถ้าใส่ ข้อมูลเสียงต้นฉบับ มากขึ้น จะดีขึ้นได้แค่ไหน
สงสัยว่าจะใช้สิ่งนี้ หรือ Eleven Labs เพื่อสร้าง โมเดลเสียงสำหรับเสียบเข้า TTS บนโทรศัพท์ Android ได้ไหม
ผมมีเพื่อนที่กล่องเสียงเป็นอัมพาต และมักสื่อสารด้วยการพิมพ์ข้อความลงโทรศัพท์หรือแล็ปท็อปเครื่องเล็กๆ
ถ้าสามารถนำเสียงของเพื่อนคนนั้นจากไฟล์บันทึกเก่าๆ กลับมา และคืนเสียง “ของตัวเอง” ให้ได้บ้าง เขาน่าจะดีใจมาก
แต่ไม่แน่ใจว่ามีโซลูชันสำหรับ Android หรือไม่
เมื่อไม่นานมานี้ผมเห็นวิดีโอเสียงแบบกำหนดเองที่ Google ทำให้ผู้ป่วย ALS แต่หาออนไลน์ไม่เจอ
บน Android ยังไม่มีการสร้างเสียงแบบกำหนดเองให้ใช้ แต่ iOS 17 รุ่นล่าสุดรองรับ การสร้างเสียงส่วนบุคคล
ModelTalker [3] ดูเหมือนเป็นโครงการวิจัยระยะยาวด้านการสร้างเสียงแบบกำหนดเองสำหรับผู้ที่มีความบกพร่องทางการพูด และ TTS ดูเหมือนจะรองรับ Android จึงอาจเป็นอีกทางเลือกหนึ่ง
[0] https://www.acapela-group.com/
[1] https://www.speakunique.co.uk/
[2] https://vocalid.ai/
[3] https://www.modeltalker.org/
ผมเคยมีส่วนร่วมกับ TTS ที่ Google และเคยทำฝั่ง Android ด้วย ส่วน iOS มีฟีเจอร์นี้ในตัวแล้ว
ไม่มีผู้จัดการผลิตภัณฑ์ของ Google คนไหนที่ทรงพลังเท่ากับ “สิ่งที่ Apple เพิ่งเปิดตัว” ดังนั้นนี่อาจเป็นสัญญาณที่มีความหวังก็ได้
ตอนนี้ผมกำลังทำงานด้านการอนุมานบนอุปกรณ์แบบข้ามแพลตฟอร์มอยู่ และดู FONNX บน GitHub ได้ เรื่องนี้เป็นหนึ่งใน 100 รายการที่จะค้างอยู่ในใจไปอีกสักพัก ถ้ามีเวลาจะลองติดต่อไป
แก้ไข: ถ้าเป็น แอป Android ที่มีคีย์บอร์ดกับปุ่ม “พูด” และเรียก Eleven Labs API แบบนั้นจะเพียงพอให้น่าลองไหม?
GitHub: https://github.com/myshell-ai/OpenVoice
เช็กพอยต์: hxxps://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip
ผมรู้สึกไม่สบายใจกับลิงก์ที่ชี้ตรงไปยังไฟล์ zip ที่โฮสต์บน Amazon จึงทำให้ลิงก์เช็กพอยต์ใช้งานไม่ได้
และไม่ได้ตรวจสอบด้วยว่ามีอะไรอยู่ในไฟล์นั้น
ส่วนเช็กพอยต์ ผมไม่ได้รู้สึกไม่สบายใจ และจะไม่ทำ ละครความปลอดภัย ด้วย
จาก https://github.com/myshell-ai/OpenVoice?tab=readme-ov-file#i...
ลิงก์ไปยัง https://myshell-public-repo-hosting.s3.amazonaws.com/checkpo...
ผมชอบบทความวิจัยนี้
อ่านแล้วให้ความรู้สึกประมาณว่า “เราทำแบบนี้ และอยากช่วยให้คนอื่นทำได้ด้วย”
โดยเฉพาะส่วน “Remark on Novelty” ยอดเยี่ยมมาก โดยบอกว่า OpenVoice ไม่ได้พยายามประดิษฐ์โมดูลย่อยของโครงสร้างโมเดล แต่ผลงานคือเฟรมเวิร์กที่แยกการควบคุมสไตล์เสียงและภาษาออกจากการโคลนโทนเสียง
ไม่ได้พยายามพูดเกินจริงเกี่ยวกับผลงานของตัวเอง
ตัวอย่าง: https://research.myshell.ai/open-voice
ดูค่อนข้างน่าประทับใจ
ไลเซนส์เป็น Creative Commons Attribution-NonCommercial 4.0 International License จึงห้ามใช้งานเชิงพาณิชย์ และระบุว่า MyShell สามารถตรวจจับได้ว่าเป็นเสียงที่สร้างด้วย OpenVoice หรือไม่ ไม่ว่าจะมีลายน้ำหรือไม่มี
ถ้าอย่างนั้นก็ไม่ใช่ “open” และเอาไปทำเงินไม่ได้ใช่ไหม?
คุณดูโค้ด ใช้ และแก้ไขได้เท่าที่ต้องการ ดังนั้นผมถือว่าค่อนข้างเปิด
แน่นอนว่าพวกมิจฉาชีพที่ไม่สนใจไลเซนส์ไม่เชิงพาณิชย์ก็คงทำได้
แม้จะไม่ได้โปรโมตกันมากนัก และก็ไม่รู้ว่า Apple ยังพัฒนาต่ออยู่หรือไม่ แต่ใน iOS มีฟีเจอร์โคลนเสียงชื่อ Personal Voice
ใช้เวลาประมาณ 15 นาทีในการฝึกด้วยเสียงของตัวเอง และใช้เวลาอีกหลายชั่วโมงในการประมวลผลแบบ on-device ขณะเครื่องล็อกอยู่
ใช้ได้กับการโทรศัพท์และ FaceTime และไม่รู้ว่าจะใช้ที่อื่นได้ด้วยหรือไม่
ถ้าใช้กับ TTS ทั่วไปได้ก็คงดี
การบอกว่าใช้ได้ในการโทรศัพท์หรือ FaceTime อาจฟังดูเหมือนเป็นการแปลงเสียงเป็นเสียง แต่จริง ๆ แล้วใช้กับ TTS เท่านั้น
เพราะไม่ใช่การแปลงเสียงเป็นเสียง จึงไม่สามารถคงสัญญาณที่ทำให้รู้สึกเหมือนเสียงจริง เช่น ลักษณะการพูดติดอ่าง หรือท่วงทำนองเสียงไว้ได้
ไม่กี่วันก่อนโทรไปยังธนาคารพาณิชย์รายใหญ่แห่งหนึ่งในสหราชอาณาจักร และพวกเขายังแนะนำให้สมัครโปรแกรมโง่ ๆ ที่ว่า “เสียงของฉันคือรหัสผ่านของฉัน” อยู่
ในยุคที่ AI มาถึงขั้นนี้แล้ว เรื่องนี้รู้สึกเหมือนเป็นความประมาทล้วน ๆ
ให้ตอบคำถามไม่กี่ข้อ แล้วก็บอกว่าผมเพิ่งถูกลงทะเบียนเข้าโปรแกรมระบุตัวตนด้วยเสียงแล้ว
ตอนนี้เลยมีงานเพิ่มในรายการสิ่งที่ต้องทำอีกอย่าง คือไปยกเลิกมัน
ทำให้สงสัยว่าทุกบริษัทเลื่อนตำแหน่งคนที่โง่ที่สุดขึ้นไปเป็นผู้บริหารกันหมดหรือเปล่า
สิ่งแรกที่นึกขึ้นมา และตอนนี้ก็ยังคิดอยู่ คือการใช้ อย่างผิดศีลธรรมและในทางอาชญากรรม ของการโคลนเสียงน่าจะมีมากกว่าการใช้งานที่ถูกต้องตามกฎหมายอย่างมาก
สามารถทำวิดีโอ YouTube ได้โดยไม่ต้องใช้เสียงจริงของตัวเอง แต่ยังคงสำเนียงและการเน้นเสียงแบบส่วนตัวที่เสียง TTS AI ทำไม่ได้ไว้ได้
หรือจะใช้ในการพัฒนาเกมอินดี้ก็ได้
เรียนการพากย์เสียงขั้นพื้นฐานเพื่อลดความแข็งทื่อ แล้วแสดงทุกตัวละครเองด้วยเสียงหลายแบบได้
YouTube จะทำให้ผู้คนฟังภาษาที่แปลท้องถิ่นแล้วด้วยเสียงของผู้สร้างต้นฉบับได้
เราไม่ควร ยอมรับเสียงเป็นวิธีการยืนยันตัวตน อยู่แล้ว
การใช้งานที่พบบ่อยที่สุดน่าจะเป็นการสร้างงานศิลปะและคอนเทนต์แบบโปรแกรมได้โดยไม่ต้องใช้นักพากย์
เมื่อทำ pipeline วิดีโอหรือโมเดล 3D และการแปลงแบบเฟรมต่อเฟรมให้สมบูรณ์จนดูสมจริงได้ นักแสดงก็อาจแทบไม่จำเป็นอีกต่อไป
ธนาคารบางแห่งใช้การยืนยันตัวตนด้วยเสียงเวลาคุณโทรไป และจะออกจากระบบนั้นได้ก็ต่อเมื่อต้องขอเอง