• สำหรับผู้ช่วยเสียงดิจิทัลที่จะถูกใช้งานต่อเนื่องยาวนาน การมีตัวตนผ่านเสียง (voice presence) ที่สะท้อนอารมณ์ จังหวะ และบริบท สำคัญกว่าเสียงสังเคราะห์ที่ใสสะอาด และ Sesame เสนอ Conversational Speech Model เพื่อสิ่งนี้
  • CSM เป็น multimodal transformer แบบ end-to-end ที่ประมวลผลข้อความและเสียงร่วมกัน ออกแบบมาเพื่อใช้ประวัติการสนทนาในการสร้างคำพูดที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
  • โมเดลจัดการโทเค็น RVQ โดยตรง แต่แบ่งเป็น backbone ที่รับผิดชอบ codebook ลำดับที่ 0 และ audio decoder ขนาดเล็กที่กู้คืน codebook ที่เหลือ เพื่อหาสมดุลระหว่าง latency กับพลังในการแสดงออก
  • ฝึกโมเดล 3 ขนาดคือ Tiny, Small, Medium ด้วยข้อมูลเสียงสาธารณะประมาณ 1 ล้านชั่วโมง ซึ่งส่วนใหญ่เป็นภาษาอังกฤษ และเพิ่มการประเมินการออกเสียงคำพ้องรูปกับความสม่ำเสมอของการออกเสียง นอกเหนือจาก WER และความคล้ายคลึงของผู้พูด
  • เมื่อไม่มีบริบท ความชอบระหว่าง CSM-Medium กับเสียงจริงไม่แตกต่างชัดเจน แต่เมื่อให้ บริบทการสนทนา ผู้ประเมินยังชอบเสียงบันทึกจริงมากกว่าในฐานะการพูดต่อที่เหมาะสมกว่า แสดงว่ายังมีช่องว่างด้าน prosody ของการสนทนาอยู่

การมีตัวตนผ่านเสียงและเป้าหมาย

  • เป้าหมายของ Sesame คือการทำให้เสียงพูดรู้สึกเหมือนได้รับความเข้าใจและมีคุณค่าอย่างแท้จริง ด้วยการสร้าง การมีตัวตนผ่านเสียง
  • ผู้ช่วยเสียงดิจิทัลในปัจจุบันมักยังอยู่กับน้ำเสียงเป็นกลาง ทำให้หลังจากความแปลกใหม่ช่วงแรกหายไป ก็ใช้งานต่อในชีวิตประจำวันได้ยาก
  • องค์ประกอบที่จำเป็นสรุปได้เป็น 4 อย่าง
    • ความฉลาดทางอารมณ์: อ่านและตอบสนองต่อบริบททางอารมณ์
    • พลวัตของการสนทนา: จัดการจังหวะที่เป็นธรรมชาติ การหยุด การพูดแทรก และการเน้นเสียง
    • การรับรู้บริบท: ปรับโทนและสไตล์ให้เหมาะกับสถานการณ์
    • บุคลิกที่สม่ำเสมอ: รักษาการมีตัวตนที่น่าเชื่อถือและเหมาะสม
  • คู่สนทนาในเดโมปัจจุบันถูกปรับให้เน้นความเป็นมิตรและความสามารถในการแสดงออก ส่วนบุคลิก ความจำ ความสามารถในการแสดงออก และความเหมาะสมยังอยู่ระหว่างปรับปรุง

การกำหนดโจทย์ของ Conversational Speech Model

  • TTS แบบดั้งเดิมสร้างเสียงจากข้อความโดยตรง แต่ยังขาด การรับรู้บริบท ที่จำเป็นสำหรับบทสนทนาที่เป็นธรรมชาติ
  • แม้โมเดลล่าสุดจะสร้างเสียงเหมือนมนุษย์ได้ แต่วิธีพูดประโยคหนึ่งมีได้หลายแบบ และวิธีที่เหมาะกับสถานการณ์หนึ่ง ๆ มีเพียงบางส่วนเท่านั้น
  • หากไม่มีบริบทเพิ่มเติม เช่น โทน จังหวะ และประวัติการสนทนา โมเดลจะเลือกวิธีเปล่งเสียงที่เหมาะสมที่สุดได้ยาก
  • CSM จัดการปัญหานี้ด้วย การเรียนรู้แบบ multimodal end-to-end โดยให้ transformer ใช้ประวัติการสนทนาเพื่อสร้างเสียงที่เป็นธรรมชาติและสอดคล้องกันมากขึ้น
  • คุณสมบัติหลักมี 2 อย่าง
    • ทำงานเป็นโมเดลขั้นตอนเดียว เพื่อเพิ่มประสิทธิภาพและพลังในการแสดงออก
    • ใช้ชุดประเมินแยกต่างหากเพื่อวัดความก้าวหน้าด้านความสามารถเชิงบริบท ในสถานการณ์ที่การประเมินสาธารณะทั่วไปเริ่มอิ่มตัวแล้ว

โทเค็นเสียงและการออกแบบ RVQ

  • เพื่อโมเดลเสียงด้วย transformer ต้องแปลงคลื่นเสียงต่อเนื่องให้เป็นลำดับ โทเค็นเสียง แบบไม่ต่อเนื่อง
  • แนวทางสมัยใหม่มักใช้โทเค็น 2 ชนิด
    • โทเค็นเชิงความหมาย: บีบอัดความหมายและลักษณะหน่วยเสียงไว้ แต่แลกกับการลดความเที่ยงตรงสูงของการแทนข้อมูล
    • โทเค็นเชิงเสียง: เก็บข้อมูลเสียงที่ละเอียด ทำให้กู้คืนเสียงความเที่ยงตรงสูงได้ และรักษาคุณลักษณะอย่างตัวตนผู้พูดกับสีเสียง
  • วิธีทั่วไปคือโมเดลโทเค็นเชิงความหมายก่อน แล้วจึงสร้างเสียงด้วย RVQ หรือวิธีฐาน diffusion
  • วิธี 2 ขั้นตอนนี้ช่วยให้สังเคราะห์อย่างมีโครงสร้างได้ แต่สร้าง คอขวด เพราะโทเค็นเชิงความหมายต้องบรรจุ prosody ให้เพียงพอด้วย
  • วิธีฐาน RVQ ต้องจัดการ dependency ตามลำดับระหว่าง codebook ภายในเฟรมเดียวกัน
    • delay pattern จะเลื่อน codebook ระดับสูงอย่างค่อยเป็นค่อยไป เพื่อ condition กับ codebook ระดับต่ำในเฟรมเดียวกัน
    • หาก RVQ tokenizer มี codebook N ชุด จะต้องใช้ขั้นตอน backbone N ครั้งก่อนถอดรหัสชิ้นเสียงแรก ทำให้ time-to-first-audio แย่ลง
    • เหมาะกับงานออฟไลน์อย่างหนังสือเสียง แต่ในสถานการณ์เรียลไทม์ latency จะเป็นปัญหา

โครงสร้างของ CSM และวิธี inference

  • CSM เป็น โมเดลข้อความ·เสียงแบบ multimodal ที่จัดการโทเค็น RVQ โดยตรง
  • โครงสร้างแบ่งเป็น autoregressive transformer 2 ตัว
    • multimodal backbone ตัวแรก รับข้อความและเสียงเป็นอินพุตสลับกัน และโมเดล codebook ลำดับที่ 0
    • audio decoder ตัวที่สอง ใช้ linear head แยกสำหรับแต่ละ codebook เพื่อโมเดล codebook ที่เหลืออีก N−1 ชุดและกู้คืนเสียง
  • decoder มีขนาดเล็กกว่า backbone มาก ทำให้สร้างเสียง latency ต่ำได้ ขณะยังรักษาโมเดลแบบ end-to-end
  • inference เป็นไปตามลำดับต่อไปนี้
    • ป้อนโทเค็นข้อความและโทเค็นเสียงเข้า backbone ตามลำดับ
    • backbone คาดการณ์ระดับ codebook ลำดับที่ 0
    • decoder condition กับระดับลำดับที่ 0 แล้วสุ่มตัวอย่างระดับ 1 ถึง N−1
    • โทเค็นเสียงที่กู้คืนแล้วจะถูกป้อนกลับเข้า backbone แบบ autoregressive สำหรับขั้นตอนถัดไป
    • เมื่อสัญลักษณ์ audio EOT ปรากฏ การสร้างจะจบลง และในคำขอถัดไป เสียงแทรกระหว่างทาง เช่นคำพูดของผู้ใช้ จะถูกแทนด้วยโทเค็นเสียงและโทเค็นถอดเสียงข้อความ
  • transformer ทั้งสองเป็นรูปแบบดัดแปลงของสถาปัตยกรรม Llama และโทเค็นข้อความสร้างด้วย Llama tokenizer
  • เสียงประมวลผลด้วย Mimi ซึ่งเป็น split-RVQ tokenizer โดยที่ 12.5Hz จะสร้าง codebook เชิงความหมาย 1 ชุดและ codebook เชิงเสียง N−1 ชุดในแต่ละเฟรม
  • ตัวอย่างสำหรับฝึกเป็นรูปแบบที่ข้อความกับเสียงสลับกัน และตัวตนผู้พูดถูก encode โดยตรงไว้ในการแทนข้อความ

ประสิทธิภาพการฝึกและข้อมูล

  • ระหว่างการฝึก audio decoder ต้องประมวลผล effective batch size B×S และ codebook N ชุดแบบ autoregressive ทำให้เกิด ภาระหน่วยความจำ มาก
  • ภาระนี้ทำให้แม้แต่โมเดลขนาดเล็กก็ฝึกช้าลง และทำให้การขยายโมเดลกับการทดลองอย่างรวดเร็วทำได้ยาก
  • Sesame ใช้ compute amortization เพื่อลดคอขวด ขณะยังคงความเที่ยงตรงของ RVQ codebook ทั้งหมด
    • audio decoder ถูกฝึกเฉพาะ subset แบบสุ่ม 1/16 ของเฟรมเสียง
    • codebook ลำดับที่ 0 ถูกฝึกในทุกเฟรม
    • ด้วยวิธีนี้ ไม่พบความแตกต่างที่รับรู้ได้ใน loss ของ audio decoder ระหว่างการฝึก
  • ชุดข้อมูลสร้างจากการถอดเสียง แยกผู้พูด แบ่งช่วง และกรองเสียงสาธารณะ
  • หลังการกรอง ข้อมูลมีประมาณ 1 ล้านชั่วโมง และส่วนใหญ่เป็นเสียงภาษาอังกฤษ
  • ขนาดโมเดลที่ฝึกมี 3 แบบ
    • Tiny: backbone 1B, decoder 100M
    • Small: backbone 3B, decoder 250M
    • Medium: backbone 8B, decoder 300M
  • แต่ละโมเดลฝึก 5 epoch ด้วย sequence length 2048 หรือเทียบเท่าเสียงประมาณ 2 นาที

ตัวอย่างและกรอบการประเมิน

  • ตัวอย่างรวมองค์ประกอบกึ่งภาษา คำภาษาต่างประเทศ ความสามารถในการแสดงออกตามบริบท การแก้การออกเสียง และบทสนทนาหลายผู้พูด
  • ชุดการประเมินวัด 4 ด้าน
    • ความเที่ยงตรงต่อข้อความ
    • การใช้บริบท
    • prosody
    • เวลาแฝง
  • การประเมินเชิงวัตถุรวม WER, แบบทดสอบการออกเสียงใหม่ และความคล้ายคลึงของผู้พูด
  • การประเมินเชิงอัตวิสัยประกอบด้วยการประเมินโดยมนุษย์แบบ Comparative Mean Opinion Score(CMOS) โดยใช้ชุดข้อมูล Expresso
  • ใน benchmark ดั้งเดิมอย่าง WER และ speaker similarity โมเดลสมัยใหม่รวมถึง CSM ทำได้เกือบระดับมนุษย์ จึงใกล้ ภาวะอิ่มตัว

การประเมินการออกเสียงและความเข้าใจบริบท

  • benchmark ใหม่ที่อิงการถอดเสียงพูดถูกนำมาใช้เพื่อประเมินการออกเสียงและความเข้าใจบริบทได้ดีขึ้น
  • การแยกแยะคำพ้องรูป ประเมินว่าสามารถออกเสียงคำที่สะกดเหมือนกันแต่เสียงต่างกันได้ถูกต้องหรือไม่
    • ตัวอย่างคือการแยกแยะว่า “lead” เป็น /lɛd/ ในความหมายโลหะ หรือ /liːd/ ในความหมายว่านำ
  • ความสม่ำเสมอของการออกเสียงในการพูดต่อ ประเมินว่าคำที่มีรูปแบบการออกเสียงได้หลายแบบยังคงสม่ำเสมอในการพูดหลายเทิร์นหรือไม่
    • ตัวอย่างคือ “route” ที่อาจออกเสียงต่างกันเป็น /raʊt/ หรือ /ruːt/
  • การประเมินความแม่นยำของคำพ้องรูปทำกับตัวอย่างเสียง 200 ตัวอย่าง ซึ่งมีคำ 5 คำคือ lead, bass, tear, wound, row โดยแต่ละคำมี 2 รูปแบบ
  • การประเมินความสม่ำเสมอของการออกเสียงทำกับตัวอย่างเสียง 200 ตัวอย่าง ซึ่งมีคำ 10 คำ ได้แก่ aunt, data, envelope, mobile, route, vase, either, adult, often, caramel
  • การประเมินใช้ wav2vec2-lv-60-espeak-cv-ft
  • ผลลัพธ์ที่สร้างโดย Play.ht, Elevenlabs และ OpenAI ทำด้วยการตั้งค่าเริ่มต้นและเสียงเริ่มต้นตามเอกสาร API ของแต่ละราย
  • โดยรวม ยิ่งโมเดลมีขนาดใหญ่ ประสิทธิภาพยิ่งดีขึ้น สนับสนุนสมมติฐานว่า scaling ช่วยให้การสังเคราะห์เสียงสมจริงยิ่งขึ้น

ผลการประเมินโดยมนุษย์

  • เพื่อประเมินความเป็นธรรมชาติและความเหมาะสมของ prosody ของ CSM-Medium ได้ทำการศึกษา CMOS 2 ครั้งด้วยชุดข้อมูล Expresso
  • ผู้ประเมินฟังเสียงที่โมเดลสร้างกับเสียงบันทึกมนุษย์จริงเป็นคู่ แล้วให้คะแนนตัวอย่างที่สร้างเมื่อเทียบกับตัวอ้างอิงบนสเกลความชอบ 7 ระดับ
  • การศึกษาครั้งแรกนำเสนอตัวอย่างที่สร้างและตัวอย่างมนุษย์โดยไม่มีบริบท แล้วให้เลือก “เสียงใดรู้สึกเหมือนเสียงมนุษย์มากกว่า”
  • การศึกษาครั้งที่สองให้บริบทเสียงและข้อความก่อนหน้า 90 วินาที แล้วให้เลือก “เสียงใดรู้สึกเหมือนการพูดต่อของบทสนทนาที่เหมาะสมกว่า”
  • มีผู้เข้าร่วมแบบได้รับค่าตอบแทน 80 คน และแต่ละคนประเมินตัวอย่างเฉลี่ย 15 ตัวอย่าง
  • เมื่อไม่มีบริบท ผู้ประเมินไม่แสดงความชอบชัดเจนระหว่างเสียงที่สร้างกับเสียงจริง บ่งชี้ว่าการประเมินความเป็นธรรมชาติอยู่ในภาวะอิ่มตัว
  • เมื่อมีบริบท ผู้ประเมินเลือกเสียงบันทึกต้นฉบับอย่างสม่ำเสมอ แสดงว่ายังมี ช่องว่าง กับ prosody แบบมนุษย์ในการสร้างเสียงสนทนา

แผนการเผยแพร่และข้อจำกัด

  • Sesame วางแผนเปิดซอร์สองค์ประกอบหลักของงานวิจัย และโมเดลจะให้ใช้ภายใต้ไลเซนส์ Apache 2.0
  • สามารถติดตามอัปเดตและการมีส่วนร่วมได้ที่ GitHub repository SesameAILabs/csm
  • CSM ปัจจุบันฝึกด้วยข้อมูลภาษาอังกฤษเป็นหลัก
    • แม้จะมีความสามารถหลายภาษาบางส่วนจากการปนเปื้อนของข้อมูล แต่ยังทำงานได้ไม่ดี
    • ยังไม่ได้ใช้ข้อมูลที่อยู่ในน้ำหนักของโมเดลภาษาที่ผ่านการ pretrain
  • ในอีกไม่กี่เดือนข้างหน้า มีแผนขยายขนาดโมเดล เพิ่มขนาดชุดข้อมูล และขยายการรองรับเป็นมากกว่า 20 ภาษา
  • จะสำรวจวิธีใช้โมเดลภาษาที่ผ่านการ pretrain ด้วย โดยมีเป้าหมายเป็นโมเดล multimodal ขนาดใหญ่ที่มีความรู้เชิงลึกทั้งด้านเสียงและข้อความ
  • CSM สร้าง prosody การสนทนาคุณภาพสูง แต่โมเดลเฉพาะเนื้อหาข้อความและเสียงของการสนทนาเท่านั้น ไม่ได้โมเดลโครงสร้างของการสนทนาเอง
  • บทสนทนาของมนุษย์เป็นกระบวนการซับซ้อนที่รวมการผลัดเทิร์น การหยุด และการปรับความเร็ว ดังนั้น AI สนทนาในอนาคตจึงใกล้เคียงกับ โมเดล fully duplex ที่เรียนรู้พลวัตเหล่านี้โดยนัยจากข้อมูล
  • โมเดล fully duplex ต้องการการเปลี่ยนแปลงพื้นฐานตลอดทั้ง stack ตั้งแต่การคัดสรรข้อมูลไปจนถึงวิธีวิทยาหลังการฝึก

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น