5 คะแนน โดย GN⁺ 2024-01-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มุ่งแก้ปัญหา Zero-shot TTS ที่สามารถ โคลนโทนเสียง ของผู้พูดจากเสียงอ้างอิงสั้น ๆ และให้พูดได้หลายภาษา โดยไม่ต้องฝึกเพิ่มรายผู้พูด
  • แกนสำคัญคือสถาปัตยกรรมที่แยกการโคลนโทนเสียงออกจากการควบคุมภาษาและสไตล์ โดย base speaker TTS จะสร้างอารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชัน ส่วน tone color converter จะใส่โทนเสียงของผู้พูดอ้างอิงเข้าไป
  • สามารถโคลนเสียงแบบ zero-shot cross-lingual ได้แม้ไม่มีข้อมูลฝึกหลายผู้พูดขนาดใหญ่สำหรับภาษาใหม่ โดยใช้ข้อมูลฝึก 30K ประโยคสำหรับ base TTS และ 20K คนกับตัวอย่างเสียง 300K สำหรับ converter
  • การติดตั้งใช้งานทั้งหมดเป็นสถาปัตยกรรม feed-forward ที่ไม่มีองค์ประกอบแบบ autoregressive หรือ diffusion และเวอร์ชันที่ปรับแต่งแล้วทำงานได้ 12× แบบเรียลไทม์บน A10G GPU เดี่ยว โดยใช้เวลา 85ms ในการสร้างเสียงยาว 1 วินาที
  • มีการเปิดเผยซอร์สโค้ดและค่าน้ำหนักโมเดลแล้ว และ OpenVoice ถูกใช้งานเป็นเอนจินเสียงของ MyShell.ai สำหรับผู้ใช้มากกว่า 2 ล้านคนทั่วโลก ขณะที่เวอร์ชันภายในถูกใช้งานหลายสิบล้านครั้งระหว่างเดือนพฤษภาคมถึงตุลาคม 2023

ปัญหาการโคลนเสียงแบบฉับพลันที่ OpenVoice มุ่งแก้

  • การโคลนเสียงแบบฉับพลัน (IVC) คือ TTS ที่โคลนเสียงของผู้พูดเฉพาะรายจากเสียงอ้างอิงสั้น ๆ และยังเรียกว่า Zero-shot TTS เพราะทำงานได้โดยไม่ต้องฝึกเพิ่มรายผู้พูด
  • การใช้งานครอบคลุมตั้งแต่การผลิตสื่อ คัสตอมแชตบอต ไปจนถึง ปฏิสัมพันธ์แบบมัลติโมดัล ระหว่างมนุษย์กับคอมพิวเตอร์หรือโมเดลภาษาขนาดใหญ่
  • วิธีเดิมมีข้อจำกัดต่างกันในด้านความเร็ว ความสามารถในการควบคุม และการขยายไปหลายภาษา
    • วิธีแบบ autoregressive อย่าง VALLE, XTTS โคลนโทนเสียงโดยใช้ acoustic token หรือ speaker embedding ของเสียงอ้างอิงเป็นเงื่อนไข แต่ยากต่อการควบคุมสไตล์อย่างยืดหยุ่น เช่น อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชัน
    • วิธีแบบ non-autoregressive อย่าง YourTTS, Voicebox เร็วในการอนุมาน แต่ไม่สามารถควบคุมพารามิเตอร์ด้านสไตล์นอกเหนือจากโทนเสียงได้อย่างยืดหยุ่น
    • การโคลนเสียงข้ามภาษาที่มีอยู่เดิมมักต้องใช้ MSML dataset ที่มีผู้พูดจำนวนมากในแต่ละภาษา จึงเพิ่มภาษาใหม่ได้ยาก
  • OpenVoice จัดการเป้าหมายทั้งสามข้อพร้อมกัน
    • โคลนโทนเสียงของผู้พูดอ้างอิง พร้อมควบคุมอารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชันแยกจากกัน
    • ทำ cross-lingual cloning ได้แม้ภาษาของผู้พูดอ้างอิงหรือภาษาที่ต้องการสร้างจะไม่มีอยู่ในข้อมูลฝึก MSML
    • ให้การอนุมานแบบเรียลไทม์ที่รวดเร็วสำหรับสภาพแวดล้อมเชิงพาณิชย์ขนาดใหญ่โดยไม่ลดทอนคุณภาพ

สถาปัตยกรรมที่แยกโทนเสียงออกจากสไตล์

  • แนวคิดหลักของ OpenVoice คือไม่ให้โมเดลขนาดใหญ่ตัวเดียวเรียนรู้โทนเสียง ภาษา และสไตล์พร้อมกัน แต่แยกออกเป็นงานย่อยที่ง่ายกว่า
  • base speaker TTS model รับผิดชอบภาษาและสไตล์
    • ใช้ได้ทั้งโมเดล TTS ผู้พูดเดี่ยวหรือหลายผู้พูด
    • สามารถปรับ VITS ให้ใส่ style embedding และ language embedding เข้าไปใน text encoder กับ duration predictor ได้
    • InstructTTS รองรับ style prompt
    • ใช้โมเดลเชิงพาณิชย์อย่าง Microsoft TTS ที่กำหนดอารมณ์ การเว้นช่วง และวิธีออกเสียงผ่าน SSML ได้เช่นกัน
    • หรือจะให้มนุษย์อ่านข้อความด้วยสไตล์และภาษาที่ต้องการเพื่อสร้าง base voice ก็ได้
    • ใน implementation ที่เปิดเผยสาธารณะ ใช้ VITS เป็นค่าเริ่มต้น
  • tone color converter เปลี่ยนเสียงของ base speaker ให้เป็นโทนเสียงของผู้พูดอ้างอิง
    • encoder เป็น 1D convolutional neural network ที่รับ short-time Fourier transformed spectrum ของเสียง base speaker เป็นอินพุต
    • tone color extractor เป็น 2D convolutional neural network ที่ดึงเวกเตอร์เดี่ยวซึ่งเก็บข้อมูลโทนเสียงจาก mel-spectrogram
    • normalizing flow สร้างตัวแทนที่ลบข้อมูลโทนเสียงออกจากเสียง base แต่ยังคงภาษาและสไตล์ไว้
    • ตัวแทนนี้ถูกจัดแนวตามแกนเวลากับ feature ที่อิง IPA
    • inverse flow จะใส่เวกเตอร์โทนเสียงของผู้พูดอ้างอิงเป็นเงื่อนไข เพื่อเติมโทนเสียงใหม่ลงใน feature map
    • HiFi-GAN สร้าง raw waveform ขั้นสุดท้าย
  • โมเดลทั้งหมดใน implementation ที่เปิดเผยทำงานแบบ feed-forward โดยไม่มีองค์ประกอบ autoregressive
  • วิธีดึงหน่วยเสียงที่อิง HuBERT มีปัญหาว่าลบไม่เพียงข้อมูลโทนเสียง แต่รวมถึงอารมณ์และน้ำเสียงด้วย
  • วิธีอื่นที่สร้าง information bottleneck เพื่อคงไว้เฉพาะเนื้อหาเสียง ยังลบโทนเสียงได้ไม่สมบูรณ์
  • ความใหม่ของ OpenVoice ไม่ได้อยู่ที่การประดิษฐ์ submodule ทีละตัว แต่คือเฟรมเวิร์กที่แยก การควบคุมสไตล์และภาษา ออกจากการโคลนโทนเสียง

ข้อมูลฝึกและเป้าหมายการฝึก

  • การฝึก base speaker TTS ใช้ข้อมูลจากผู้พูด 4 คน
    • ผู้พูดภาษาอังกฤษสำเนียงอเมริกัน 1 คน ผู้พูดภาษาอังกฤษสำเนียงอังกฤษ 1 คน ผู้พูดภาษาจีน 1 คน และผู้พูดภาษาญี่ปุ่น 1 คน
    • รวม 30K ประโยค ความยาวเฉลี่ย 7 วินาทีต่อประโยค
    • ข้อมูลภาษาอังกฤษและภาษาจีนมี label สำหรับการจำแนกอารมณ์
  • VITS ที่ปรับแก้แล้วจะป้อน emotion categorical embedding, language categorical embedding และ speaker id เข้าไปใน text encoder, duration predictor และ flow layer
  • base model ที่ฝึกแล้วสามารถเปลี่ยนน้ำเสียงและภาษาได้ด้วยการสลับ base speaker และอ่านข้อความอินพุตด้วยอารมณ์ที่ต่างกัน
  • ในการทดลองเพิ่มข้อมูลฝึก พบว่าสามารถเรียนรู้จังหวะ การเว้นช่วง และอินโทเนชันได้ในลักษณะเดียวกับอารมณ์
  • การฝึก tone color converter ใช้ตัวอย่างเสียง 300K จาก 20K คน
    • ภาษาอังกฤษประมาณ 180K ตัวอย่าง
    • ภาษาจีนประมาณ 60K ตัวอย่าง
    • ภาษาญี่ปุ่นประมาณ 60K ตัวอย่าง
    • ชุดข้อมูลนี้เรียกว่า MSML dataset
  • เป้าหมายการฝึกของ converter มีสองข้อ
    • ใช้ mel-spectrogram loss และ HiFi-GAN loss เพื่อให้ encoder-decoder สร้างเสียงที่เป็นธรรมชาติ
    • ฝึก flow layer ให้ลบข้อมูลโทนเสียงออกจาก audio feature ให้ได้มากที่สุด
  • การฝึกลบโทนเสียงจะเปลี่ยนข้อความเป็นลำดับ IPA phoneme แล้วสร้าง text content feature ด้วย learnable embedding และ transformer encoder จากนั้นจัดแนวกับ audio feature ด้วย dynamic time warping และทำให้ KL-divergence ต่ำที่สุด
  • flow layer ไม่ได้รับสไตล์หรือภาษาเป็นเงื่อนไข เพื่อหลีกเลี่ยงการลบข้อมูลอื่นนอกเหนือจากโทนเสียง
  • เนื่องจาก flow layer เป็นโครงสร้างแบบ invertible เมื่อใส่ข้อมูลโทนเสียงใหม่เป็นเงื่อนไขแล้วรัน inverse process ก็สามารถเติมโทนเสียงของผู้พูดอ้างอิงกลับเข้าไป โดยคงเนื้อหาและสไตล์เดิมไว้ได้

ผลการทดลองและข้อจำกัดที่พบ

  • การประเมินการโคลนเสียงเปรียบเทียบเชิงตัวเลขกันได้ยาก เพราะแต่ละงานวิจัยใช้ชุดฝึก ชุดทดสอบ และเงื่อนไขการวัด Mean Opinion Score ต่างกัน
  • การประเมิน OpenVoice จึงเน้นการวิเคราะห์เชิงคุณภาพภายในงานและการเปิดเผยตัวอย่างเสียง มากกว่าการเทียบตัวเลขกับวิธีเดิม
  • ชุดทดสอบ การโคลนโทนเสียง มีทั้งคนดัง ตัวละครเกม และบุคคลนิรนามเป็นผู้พูดอ้างอิง
    • มีทั้งเสียงที่มีเอกลักษณ์และการแสดงออกสูง รวมถึงตัวอย่างที่เป็นกลางใน distribution ของเสียงมนุษย์
    • โคลนโทนเสียงอ้างอิงในหลายคู่ผสมระหว่าง base speaker 4 คนกับผู้พูดอ้างอิงหลายราย และสร้างเสียงหลายภาษาและหลายสำเนียง
  • การประเมิน การควบคุมสไตล์ สร้างคอร์ปัสตัวอย่าง 1K ชิ้นด้วย base speaker model และ Microsoft TTS SSML จากนั้นแปลงเป็นโทนเสียงอ้างอิง
    • อารมณ์ น้ำเสียง จังหวะ การเว้นช่วง และอินโทเนชันถูกคงไว้ได้ดี
    • ในบางกรณีที่พบไม่บ่อย อารมณ์จะถูกทำให้เป็นกลางลงเล็กน้อย
    • ปัญหานี้บรรเทาได้โดยแทนที่ tone color embedding vector ของประโยคเฉพาะ ด้วยเวกเตอร์เฉลี่ยที่ได้จากหลายประโยคอารมณ์ต่างกันของ base speaker คนเดียวกัน
  • การโคลนข้ามภาษาทำงานแบบ near zero-shot สำหรับภาษาที่ไม่มีอยู่ใน MSML dataset
    • แม้ภาษาของผู้พูดอ้างอิงจะไม่มีใน MSML dataset ก็ยังโคลนโทนเสียงของผู้พูดอ้างอิงได้
    • แม้ภาษาที่ต้องการสร้างจะไม่มีใน MSML dataset หาก base speaker TTS รองรับภาษานั้น ก็สามารถพูดภาษานั้นด้วยโทนเสียงอ้างอิงได้
    • อย่างไรก็ตาม ยังต้องมี base speaker สำหรับภาษานั้น
  • ในการทดสอบความเร็ว OpenVoice เวอร์ชันที่ปรับแต่งแล้ว รวมทั้ง base speaker model และ tone converter ทำได้ 12× แบบเรียลไทม์บน A10G GPU เดี่ยว
    • ใช้เวลา 85ms ในการสร้างเสียงยาว 1 วินาที
    • จากการวิเคราะห์การใช้ GPU คาดว่าเพดานสูงสุดอยู่ที่ราว 40× แบบเรียลไทม์ แต่การปรับปรุงนี้ยังเป็นงานในอนาคต
  • การใช้ IPA สำคัญต่อการแปลงโทนเสียงข้ามภาษา
    • IPA เป็นพจนานุกรมหน่วยเสียงแบบรวมข้ามภาษา จึงช่วยให้ flow layer สร้างตัวแทนที่เป็นกลางต่อภาษาได้
    • ในการทดลองกับพจนานุกรมหน่วยเสียงแบบอื่น มีแนวโน้มออกเสียงบางหน่วยเสียงของภาษาที่ไม่เคยอยู่ในการฝึกผิด
    • แม้อินพุตเสียงจะถูกต้อง เอาต์พุตเสียงก็อาจมีปัญหาหรือฟังเหมือนผู้ที่ไม่ใช่เจ้าของภาษาได้มากขึ้น

เอกสารที่เปิดเผยและการใช้งานจริง

  • OpenVoice เปิดเผย ซอร์สโค้ด และโมเดลที่ฝึกแล้วเพื่อการทำซ้ำงานวิจัยและการศึกษาต่อยอด
  • ดูผลลัพธ์เชิงคุณภาพได้ที่ OpenVoice demo
  • เดโมแบบละเอียดแบ่งเป็นหมวดดังนี้
  • ก่อนเปิดเผยสู่สาธารณะ เวอร์ชันภายในถูกใช้งานหลายสิบล้านครั้งโดยผู้ใช้ทั่วโลกตั้งแต่เดือนพฤษภาคมถึงตุลาคม 2023
  • MyShell.ai ใช้ OpenVoice เป็นแบ็กเอนด์สำหรับการโคลนเสียงแบบฉับพลัน และพบว่าจำนวนผู้ใช้บนแพลตฟอร์มเพิ่มขึ้นหลายร้อยเท่า
  • ปัจจุบัน OpenVoice ถูกให้บริการเป็นเอนจินเสียงของ MyShell.ai แก่ผู้ใช้มากกว่า 2 ล้านคนทั่วโลก

1 ความคิดเห็น

 
GN⁺ 2024-01-02
ความคิดเห็นจาก Hacker News
  • จุดที่ผู้เขียนทำให้ ลองทดสอบได้ทันทีอย่างง่ายๆ นั้นดี แต่สำหรับการโคลนเสียงทั่วไปแล้วไม่ค่อยเหมาะนัก
    ให้มันอ่านย่อหน้าแรกของ Wikipedia เกี่ยวกับหนังสือเล่มหนึ่ง แล้วสร้างประโยคถัดไปออกมา แต่ฟังด้วยหูก็ชัดเจนว่าเป็นเสียงที่คอมพิวเตอร์สร้างขึ้น
    ตัวอย่างเสียง: https://storage.googleapis.com/dalle-party/sample.mp3
    เสียงที่โคลน (แปลงเป็น mp3): https://storage.googleapis.com/dalle-party/output_en_default...
    ผมแค่ติดตั้งแพ็กเกจด้วย pip ใส่ตัวอย่างเสียง แล้วรัน demo_part1.ipynb เท่านั้น และบนโน้ตบุ๊ก 3070 Ti / 8GB ก็เสร็จแทบจะทันที

    • ใน README ก็ระบุว่าเป็น โอเพนซอร์สอิมพลีเมนเทชัน ที่ประมาณประสิทธิภาพของเทคโนโลยีโคลนเสียงภายใน และเวอร์ชันออนไลน์ของ myshell.ai ดีกว่าในด้านคุณภาพเสียง ความคล้ายของเสียงที่โคลน ความเป็นธรรมชาติของคำพูด และประสิทธิภาพการคำนวณ
    • ขอบคุณสำหรับตัวอย่างจริง และสำหรับหูผมก็ฟังดูเหมือนเสียงที่สร้างขึ้นค่อนข้างมาก
      สงสัยว่าถ้าใส่ ข้อมูลเสียงต้นฉบับ มากขึ้น จะดีขึ้นได้แค่ไหน
    • ดูจากเว็บไซต์และตัวอย่างแล้ว เหมือนถูกจัดวางมาอย่างค่อนข้างชัดเจนเพื่อสร้าง เสียงอนิเมชันแบบมีสไตล์
    • จากประสบการณ์ที่เคยใช้เครื่องมืออื่นอย่าง xtts ถ้าต้องการผลลัพธ์ที่ดีที่สุด ก็จำเป็นต้องมี ตัวอย่างเสียงระดับสตูดิโอ จริงๆ
  • สงสัยว่าจะใช้สิ่งนี้ หรือ Eleven Labs เพื่อสร้าง โมเดลเสียงสำหรับเสียบเข้า TTS บนโทรศัพท์ Android ได้ไหม
    ผมมีเพื่อนที่กล่องเสียงเป็นอัมพาต และมักสื่อสารด้วยการพิมพ์ข้อความลงโทรศัพท์หรือแล็ปท็อปเครื่องเล็กๆ
    ถ้าสามารถนำเสียงของเพื่อนคนนั้นจากไฟล์บันทึกเก่าๆ กลับมา และคืนเสียง “ของตัวเอง” ให้ได้บ้าง เขาน่าจะดีใจมาก

    • ลองดูโซลูชันอย่าง Acapela [0], SpeakUnique [1], VOCALiD [2] ได้
      แต่ไม่แน่ใจว่ามีโซลูชันสำหรับ Android หรือไม่
      เมื่อไม่นานมานี้ผมเห็นวิดีโอเสียงแบบกำหนดเองที่ Google ทำให้ผู้ป่วย ALS แต่หาออนไลน์ไม่เจอ
      บน Android ยังไม่มีการสร้างเสียงแบบกำหนดเองให้ใช้ แต่ iOS 17 รุ่นล่าสุดรองรับ การสร้างเสียงส่วนบุคคล
      ModelTalker [3] ดูเหมือนเป็นโครงการวิจัยระยะยาวด้านการสร้างเสียงแบบกำหนดเองสำหรับผู้ที่มีความบกพร่องทางการพูด และ TTS ดูเหมือนจะรองรับ Android จึงอาจเป็นอีกทางเลือกหนึ่ง
      [0] https://www.acapela-group.com/
      [1] https://www.speakunique.co.uk/
      [2] https://vocalid.ai/
      [3] https://www.modeltalker.org/
    • น่าเสียดาย แต่ตอนนี้ยังทำไม่ได้
      ผมเคยมีส่วนร่วมกับ TTS ที่ Google และเคยทำฝั่ง Android ด้วย ส่วน iOS มีฟีเจอร์นี้ในตัวแล้ว
      ไม่มีผู้จัดการผลิตภัณฑ์ของ Google คนไหนที่ทรงพลังเท่ากับ “สิ่งที่ Apple เพิ่งเปิดตัว” ดังนั้นนี่อาจเป็นสัญญาณที่มีความหวังก็ได้
      ตอนนี้ผมกำลังทำงานด้านการอนุมานบนอุปกรณ์แบบข้ามแพลตฟอร์มอยู่ และดู FONNX บน GitHub ได้ เรื่องนี้เป็นหนึ่งใน 100 รายการที่จะค้างอยู่ในใจไปอีกสักพัก ถ้ามีเวลาจะลองติดต่อไป
      แก้ไข: ถ้าเป็น แอป Android ที่มีคีย์บอร์ดกับปุ่ม “พูด” และเรียก Eleven Labs API แบบนั้นจะเพียงพอให้น่าลองไหม?
  • GitHub: https://github.com/myshell-ai/OpenVoice
    เช็กพอยต์: hxxps://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip
    ผมรู้สึกไม่สบายใจกับลิงก์ที่ชี้ตรงไปยังไฟล์ zip ที่โฮสต์บน Amazon จึงทำให้ลิงก์เช็กพอยต์ใช้งานไม่ได้
    และไม่ได้ตรวจสอบด้วยว่ามีอะไรอยู่ในไฟล์นั้น

  • ผมชอบบทความวิจัยนี้
    อ่านแล้วให้ความรู้สึกประมาณว่า “เราทำแบบนี้ และอยากช่วยให้คนอื่นทำได้ด้วย”
    โดยเฉพาะส่วน “Remark on Novelty” ยอดเยี่ยมมาก โดยบอกว่า OpenVoice ไม่ได้พยายามประดิษฐ์โมดูลย่อยของโครงสร้างโมเดล แต่ผลงานคือเฟรมเวิร์กที่แยกการควบคุมสไตล์เสียงและภาษาออกจากการโคลนโทนเสียง
    ไม่ได้พยายามพูดเกินจริงเกี่ยวกับผลงานของตัวเอง

  • ตัวอย่าง: https://research.myshell.ai/open-voice
    ดูค่อนข้างน่าประทับใจ

  • ไลเซนส์เป็น Creative Commons Attribution-NonCommercial 4.0 International License จึงห้ามใช้งานเชิงพาณิชย์ และระบุว่า MyShell สามารถตรวจจับได้ว่าเป็นเสียงที่สร้างด้วย OpenVoice หรือไม่ ไม่ว่าจะมีลายน้ำหรือไม่มี
    ถ้าอย่างนั้นก็ไม่ใช่ “open” และเอาไปทำเงินไม่ได้ใช่ไหม?

    • มันยังเป็น open อยู่ แค่ต่างจากนิยามของคุณ
      คุณดูโค้ด ใช้ และแก้ไขได้เท่าที่ต้องการ ดังนั้นผมถือว่าค่อนข้างเปิด
    • ทำเงินไม่ได้
      แน่นอนว่าพวกมิจฉาชีพที่ไม่สนใจไลเซนส์ไม่เชิงพาณิชย์ก็คงทำได้
  • แม้จะไม่ได้โปรโมตกันมากนัก และก็ไม่รู้ว่า Apple ยังพัฒนาต่ออยู่หรือไม่ แต่ใน iOS มีฟีเจอร์โคลนเสียงชื่อ Personal Voice
    ใช้เวลาประมาณ 15 นาทีในการฝึกด้วยเสียงของตัวเอง และใช้เวลาอีกหลายชั่วโมงในการประมวลผลแบบ on-device ขณะเครื่องล็อกอยู่
    ใช้ได้กับการโทรศัพท์และ FaceTime และไม่รู้ว่าจะใช้ที่อื่นได้ด้วยหรือไม่
    ถ้าใช้กับ TTS ทั่วไปได้ก็คงดี

    • นี่เป็น ฟีเจอร์การเข้าถึง สำหรับคนที่กำลังสูญเสียเสียงหรือมีความเสี่ยงจะสูญเสียเสียง
      การบอกว่าใช้ได้ในการโทรศัพท์หรือ FaceTime อาจฟังดูเหมือนเป็นการแปลงเสียงเป็นเสียง แต่จริง ๆ แล้วใช้กับ TTS เท่านั้น
      เพราะไม่ใช่การแปลงเสียงเป็นเสียง จึงไม่สามารถคงสัญญาณที่ทำให้รู้สึกเหมือนเสียงจริง เช่น ลักษณะการพูดติดอ่าง หรือท่วงทำนองเสียงไว้ได้
  • ไม่กี่วันก่อนโทรไปยังธนาคารพาณิชย์รายใหญ่แห่งหนึ่งในสหราชอาณาจักร และพวกเขายังแนะนำให้สมัครโปรแกรมโง่ ๆ ที่ว่า “เสียงของฉันคือรหัสผ่านของฉัน” อยู่
    ในยุคที่ AI มาถึงขั้นนี้แล้ว เรื่องนี้รู้สึกเหมือนเป็นความประมาทล้วน ๆ

    • Fidelity Investments ทำเรื่องที่แย่กว่านั้นเมื่อประมาณหนึ่งสัปดาห์ก่อน
      ให้ตอบคำถามไม่กี่ข้อ แล้วก็บอกว่าผมเพิ่งถูกลงทะเบียนเข้าโปรแกรมระบุตัวตนด้วยเสียงแล้ว
      ตอนนี้เลยมีงานเพิ่มในรายการสิ่งที่ต้องทำอีกอย่าง คือไปยกเลิกมัน
      ทำให้สงสัยว่าทุกบริษัทเลื่อนตำแหน่งคนที่โง่ที่สุดขึ้นไปเป็นผู้บริหารกันหมดหรือเปล่า
    • Investec หรือเปล่า? ผมก็คงต้องโทรไปปิดใช้งานเหมือนกัน
  • สิ่งแรกที่นึกขึ้นมา และตอนนี้ก็ยังคิดอยู่ คือการใช้ อย่างผิดศีลธรรมและในทางอาชญากรรม ของการโคลนเสียงน่าจะมีมากกว่าการใช้งานที่ถูกต้องตามกฎหมายอย่างมาก

    • สิ่งแรกที่นึกถึงคือ การไม่เปิดเผยตัวตน
      สามารถทำวิดีโอ YouTube ได้โดยไม่ต้องใช้เสียงจริงของตัวเอง แต่ยังคงสำเนียงและการเน้นเสียงแบบส่วนตัวที่เสียง TTS AI ทำไม่ได้ไว้ได้
      หรือจะใช้ในการพัฒนาเกมอินดี้ก็ได้
      เรียนการพากย์เสียงขั้นพื้นฐานเพื่อลดความแข็งทื่อ แล้วแสดงทุกตัวละครเองด้วยเสียงหลายแบบได้
    • อยากรู้ว่าได้พิจารณากรณีใช้งานที่ถูกกฎหมายอะไรไว้บ้าง และมากแค่ไหน
    • แล้วกรณีที่การใช้งานเชิงพาณิชย์มีมากกว่าการใช้งานผิดกฎหมายล่ะ?
      YouTube จะทำให้ผู้คนฟังภาษาที่แปลท้องถิ่นแล้วด้วยเสียงของผู้สร้างต้นฉบับได้
    • ไม่เห็นด้วย
      เราไม่ควร ยอมรับเสียงเป็นวิธีการยืนยันตัวตน อยู่แล้ว
      การใช้งานที่พบบ่อยที่สุดน่าจะเป็นการสร้างงานศิลปะและคอนเทนต์แบบโปรแกรมได้โดยไม่ต้องใช้นักพากย์
      เมื่อทำ pipeline วิดีโอหรือโมเดล 3D และการแปลงแบบเฟรมต่อเฟรมให้สมบูรณ์จนดูสมจริงได้ นักแสดงก็อาจแทบไม่จำเป็นอีกต่อไป
    • คุยกับคนที่รักไว้ล่วงหน้า แล้วกำหนด รหัสลับ สำหรับสถานการณ์ทำนองว่าติดอยู่ในเหตุฉุกเฉินและต้องการให้โอนเงินก็พอ
      ธนาคารบางแห่งใช้การยืนยันตัวตนด้วยเสียงเวลาคุณโทรไป และจะออกจากระบบนั้นได้ก็ต่อเมื่อต้องขอเอง